卡方檢驗在實際工作中的應用

1 評論 8590 瀏覽 14 收藏 16 分鐘

卡方檢驗是以χ2分布為基礎的一種常用假設檢驗方法,統(tǒng)計樣本的實際觀測值與理論推斷值之間的偏離程度,主要在分類數(shù)據(jù)資料統(tǒng)計推斷中應用。

在電商平臺中,廣告圖到處可見,引起用戶興趣,為商品或者店鋪帶去流量。表征廣告圖是否“優(yōu)秀”的關鍵數(shù)據(jù)就是CTR(Click-Through-Rate,點擊通過率)。為了設計高CTR圖片,電商運營、設計同學們都總結(jié)出了一些經(jīng)驗,但這些經(jīng)驗未形成更精細化的設計原則來回答“特定品類下,什么樣的廣告圖CTR最高”。

借助于京東平臺沉淀的大量廣告圖數(shù)據(jù),我們希望通過分析歷史廣告圖的數(shù)據(jù)表現(xiàn),得到不同品類下高CTR廣告圖的設計特征,也為后期驗證提供初步的數(shù)據(jù)假設。

我們對廣告圖包含的設計元素進行了分類打標,但在缺少廣告圖的CTR具體數(shù)據(jù),僅有高低CTR分組數(shù)據(jù)時,應該如何分析呢?

答案是:卡方檢驗。

為什么用卡方檢驗?

定義是什么?

卡方檢驗是以χ2分布為基礎的一種常用假設檢驗方法,統(tǒng)計樣本的實際觀測值與理論推斷值之間的偏離程度,主要在分類數(shù)據(jù)資料統(tǒng)計推斷中應用,如兩個或多個率/構(gòu)成比之間的比較以及分類資料的相關分析等。

基于這個定義,我們了解到卡方檢驗的適用范圍是“分類數(shù)據(jù)”,即說明事物類別名稱的數(shù)據(jù),比如“性別”是一個分類變量,其變量值是“男”或“女”,兩者之間無法進行運算或比較。

此案例為什么合適?

此案例中,廣告圖中不同的設計元素,如裝飾元素、設計手法、背景色調(diào)等均是分類變量。同時,圖片被分為高低CTR兩組,也屬于分類變量。既然是對兩個分類變量(設計因素、高低CTR)做相關分析,卡方檢驗很適用于此案例。

卡方檢驗怎么做?

思路是什么?

在基本的假設檢驗思路上,卡方檢驗與t檢驗、F檢驗等有著相似的過程:

  1. 建立無效假設H0:觀察頻數(shù)與期望頻數(shù)沒有差別(即某一因素設計水平下高低點擊率廣告圖頻數(shù)與平均頻數(shù)沒有區(qū)別);
  2. 在假設H0成立基礎上,計算出χ2值來表征觀察值與理論值之間的偏離程度;
  3. 根據(jù)p值(多設定為0.05)及自由度,根據(jù)χ2分布查出拒絕H0假設的臨界值;
  4. 若計算得χ2>臨界值,即H0成立的概率<5%,表示在95%置信水平下,觀察值與理論值之間有顯著差異;反之,則說明兩者無差異。

根據(jù)這個基本思想及過程,可以看出,χ2、自由度(df)、不同自由度下χ2分布是我們進行卡方檢驗的必要元素。

具體怎么算?

(1)計算χ2值:

卡方檢驗在實際工作中的應用

舉個例子來說明公式的含義:

1)將高低CTR的廣告圖設計因素不同水平的數(shù)據(jù)呈現(xiàn)為列聯(lián)表形式。

卡方檢驗在實際工作中的應用

2)公式中A代表觀察值,E代表理論值,(A-E)代表觀察值及理論值的差異,其中理論值是假設兩個因素無關的情況下計算出來的。

e.g. 設計因素1水平1×高CTR組的理論值即(a+b)×(a+c)/N

3)求平方和以避免正負差值間抵消:由于有多個觀察值,差值可能出現(xiàn)正負值而互相抵消,故利用平方的計算來避免。

4)除以理論值以避免理論值大小影響偏差。

(2)確定自由度(df)

自由度指計算某一統(tǒng)計量時,取值不受限制的變量個數(shù)。在列聯(lián)表中,由于行或列總數(shù)一定,因此行或列中受限制條件數(shù)為1,列聯(lián)表總df=(行數(shù)-1)×(列數(shù)-1)。

e.g. 2×2列聯(lián)表中df=1,在3×2列聯(lián)表中df=2

(3)結(jié)合df及p值確定χ2分布中的臨界值,與計算所得χ2值比較

e.g. df=1,p值為0.05情況下,χ2臨界值為3.84

如果我們計算所得的χ2值>3.84,意味著H0假設落入了下圖所示的右側(cè)“小尾巴”似的拒絕域,H0假設就不成立,即設計因素1不同水平下高低點擊率廣告圖頻數(shù)與平均頻數(shù)有區(qū)別,換句話說,設計因素1的不同水平與高低點擊率有相關。

卡方檢驗在實際工作中的應用

spss怎么操作?

除了手工計算及查表外,可通過spss來進行卡方檢驗,步驟如下:

(1)導入數(shù)據(jù)

將每張廣告圖的高低CTR分組作為A列,設計因素1分組作為B列,導入spss作為原始數(shù)據(jù),如下圖框1所示。(若原始數(shù)據(jù)是上方表格的頻數(shù)數(shù)據(jù),需進行頻數(shù)加權處理)

(2)選擇<分析>-<描述統(tǒng)計>-<交叉表>

如下圖框2所示:

卡方檢驗在實際工作中的應用

(3)將變量添加到行列中

在<統(tǒng)計>對話框中勾選卡方,在<單元格>對話框中勾選<z-檢驗>下方倆選項以便進行多變量間的兩兩比較。

卡方檢驗在實際工作中的應用

兩兩比較方法之Bonferroni法(邦弗倫尼法,修正最小顯著差法):在每次比較中,將顯著性水平α除以兩兩比較的次數(shù)N,使得顯著性水平縮小到原來的N分之一,降低α錯誤的概率,避免在原假設為真時拒絕原假設,沒有顯著差異卻認為有顯著差異。與常規(guī)的兩兩比較LSD檢驗(最小顯著差法,Least Significant Difference)相比,其采用更嚴格的標準,更容易導致兩兩比較時無顯著差異。

(4)解讀結(jié)果

卡方檢驗在實際工作中的應用

1)重點關注第三張卡方檢驗表格,指標的選擇依照以下條件(定義n為總樣本量,理論頻數(shù)T):

  1. n≥40,T<5的單元格未超20%,且T均>1(圖中展示符合此條件),采用皮爾遜卡方檢驗結(jié)果。e.g. χ2=10.38,p=0.001<0.05,即設計因素的不同水平會影響點擊率情況,結(jié)合描述統(tǒng)計判定水平2的高點擊率概率高于水平1。
  2. 若行、列變量較多, n<40,或有T<1,采用似然比卡方檢驗。
  3. 若是2×2的四格表,n≥40,1≤T<5的單元格超20%,采用連續(xù)性修正檢驗結(jié)果。
  4. 若是2×2的四格表,n<40,或有T<1,采用費希爾精確檢驗結(jié)果。
  5. 若行、列量變量是等級變量(可從小到大排列)時,采用線性關聯(lián)檢驗結(jié)果。

2)在確定初步結(jié)果顯著之后,若列聯(lián)表達到3列及以上,需兩兩比較列變量水平間是否有差異。第二張交叉表表格中有a、b的下標提供了比較結(jié)果,不同下標的列變量水平之間有顯著差異。

結(jié)論不符合預期時,卡方檢驗結(jié)論如何解讀?

至此完成了卡方檢驗的基本操作,但檢驗結(jié)果僅代表數(shù)據(jù)的顯著性,該顯著性是否有意義仍需要結(jié)合實際情況來看。當數(shù)據(jù)顯著性出現(xiàn)與假設、預期不相符時,多是以下幾種情況。

1. 描述統(tǒng)計差異較大但卡方檢驗不顯著

e.g. 某品類廣告的<商品圖數(shù)量>元素,描述結(jié)論發(fā)現(xiàn)“兩個”商品圖的圖片高于平均水平(高點擊率圖片整體比例)11%,但卡方檢驗卻沒有顯著(χ2=6.79,p=0.08)。

這里就涉及到自由度的概念,由于<商品圖數(shù)量>原始數(shù)據(jù)分類有四個水平:“無、一個、兩個、三個及以上”,導致自由度增加,卡方分布由陡峭變成緩坡,拒絕域隨之右移,需要更大的卡方值才能拒絕零假設,雖然例子中6.59>3.84(自由度為1的極限卡方值),但仍<7.82(自由度為3時的極限卡方值),因此判定該設計因素不同水平對高低點擊率沒有顯著影響。

2. 描述統(tǒng)計差異不大但卡方檢驗顯著

同樣是多水平條件的卡方檢驗,可能導致另一種現(xiàn)象,某一水平下點擊率情況與總體平均水平差異不大,但卡方檢驗顯示其與高點擊率相關。

e.g. 某品類<裝飾元素>共三個水平“純色、少量、復雜”,其中“復雜”水平下高點擊率(32.5%)與整體平均水平(29.7%)差異并不大,但整體卡方檢驗顯著,并將“純色”、“復雜”兩個水平認為與高點擊率相關。

除“復雜”水平外其他兩組分布與理論頻數(shù)差異較大,導致整體的卡方分布顯著,而事后進行兩兩比較的時候,“復雜”水平下頻數(shù)表現(xiàn)與“純色”組更為接近,因此“復雜”水平被認為與高點擊率相關。

3. 結(jié)論與常規(guī)認知不相符

在對廣告圖進行分析時,有一定的常規(guī)認知假設,如用戶會更偏好“有利益點”、“有品牌標識”的圖片,但當卡方檢驗顯示兩者對點擊率無影響時,可嘗試從以下維度去排查問題。

(2)是否分類方式出了問題?

e.g.<利益點>原分類方式:有具體數(shù)值或明確贈品為“有利益點”,其他為“無利益點”,卡方檢驗后此設計因素對點擊率無影響。

考慮到用戶在瀏覽廣告圖時,不一定有具體數(shù)值才是有利益點,“全場秒殺”、“直降”的文字也會吸引用戶點擊,后續(xù)將<利益點>分類方式調(diào)整為{“無”、“直降促銷(文字或數(shù)值)”、“滿減、買免等促銷(文字或數(shù)值)”、“買贈或其他”}??ǚ綑z驗發(fā)現(xiàn)中間兩類明確利益點的廣告圖均有較高點擊率。

分類方式作為原始數(shù)據(jù)對檢驗結(jié)論影響巨大,在進行設計因素分類時應遵循用戶認知廣告圖的方式,不局限于單純的視覺展現(xiàn)形式,從內(nèi)容、視覺形式等角度全面考慮。

(3)是否品類有其特殊性?

e.g. <是否有大促標識>這個因素,在其他品類中,卡方檢驗常得到“有大促標識”比“無大促標識”有更多“高點擊率”圖片的結(jié)論,但在手機品類下卻未有顯著差異。

仔細觀察后發(fā)現(xiàn),手機品類廣告圖的單品促銷較為常見,與大促活動關聯(lián)度不高,因此在手機品類廣告圖展現(xiàn)大促標識對點擊率影響不大是可以解釋的。

(3)是否采樣方式出了問題?

e.g. <文案行數(shù)>因素在某品類下僅“兩行文案”水平與“高點擊率”相關,難以解釋。

用戶對廣告圖的利益點感知最強烈,所以選擇了<利益點>因素作為代表,與<文案行數(shù)>進行交叉,看兩因素是否相互影響。而后發(fā)現(xiàn),兩行文案廣告圖中更多是低點擊率利益點,即不同文案行數(shù)的廣告圖利益點分布不一致,樣本分布有偏。這也提示后期在驗證時,利益點、品牌效應等作為影響用戶點擊廣告圖的最重要因子,應盡量在其他變量間保持一致的分布。

4. 分類數(shù)據(jù)是否有更好的分析方法?

受數(shù)據(jù)類型的限制,不得已采用了卡方檢驗,僅能進行單個設計因素內(nèi)不同水平的對比,無法進行多個設計因素間重要性對比,也無法考慮不同設計因素間的交叉影響,綜合確定CTR更高的設計組合。

那么分類數(shù)據(jù)有沒有更深入的分析方法呢?曾經(jīng)同事采用了聯(lián)合分析方法,對廣告圖元素設計進行了數(shù)據(jù)探索。簡要來說,聯(lián)合分析可以把用戶在購買決策中一系列的產(chǎn)品特征/價格考慮在內(nèi),綜合評估后確定用戶偏好的因素組合。

本文案例為什么不適用呢?

因為聯(lián)合分析對數(shù)據(jù)樣本的元素組合分布有一定要求,必須符合“均勻分散”、“整齊可比”的正交分布特征。本文案例中的卡方檢驗更多是初步探索,在后續(xù)投放廣告圖進行A/B Test時可采用正交設計來確定不同設計因素組合,回收數(shù)據(jù)后采用聯(lián)合分析明確最優(yōu)廣告圖形式。

 

作者: 韓泱泱,京東設計中心JDC

來源:https://mp.weixin.qq.com/s/rf1ME045WoyEyQrTFp5coQ

本文由 @京東設計中心JDC 授權發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 不同下標的列變量水平之間有顯著差異?!?br /> —————
    這個結(jié)論是怎么從截圖中得到的呢

    來自廣東 回復