數(shù)據(jù)的比較分析(二):不同產(chǎn)品版本之間的差異
在“A/B測試”和“競品分析”中,我們?nèi)绾闻袛鄡蓚€版本的產(chǎn)品設(shè)計的差別?
上節(jié)《數(shù)據(jù)的比較分析(一):我們達到或者超過目標了嗎?》我們講述的是產(chǎn)品改版基于目標指標,我們距離還有多遠,從而制定改進的產(chǎn)品迭代的策略。
而這節(jié)講到不同版本之間的差異,主要用在“A/B測試”和“競品分析”中,我們需要判斷兩個版本的產(chǎn)品設(shè)計的差別,如轉(zhuǎn)化率、任務(wù)時長、排名;僅僅通過描述性的統(tǒng)計并宣稱一個設(shè)計的好壞是遠遠不夠的,這時候我們就會發(fā)現(xiàn)統(tǒng)計學(xué)的必要性。
一、我們從“組內(nèi)比較”和“組間比較”說起
這里我們常常會涉及到的是“組內(nèi)比較”和“組間比較”。
組內(nèi)比較
一般來說是讓通一組人參加兩個不同版本的設(shè)計,這兩個版本可能是競品,可能是一個公司不同產(chǎn)品經(jīng)理或者UI設(shè)計師設(shè)計出來的作品;這樣的試驗好處在于可以排除個體差異對測試結(jié)果的混淆。
在這類測試中你需要對用戶先接觸哪個產(chǎn)品做平衡處理,從而將學(xué)習(xí)效應(yīng)的影響降到最低。
如果讓用戶先體驗A產(chǎn)品,無論結(jié)果是支持或者否定A產(chǎn)品,都可能存在由于順序造成的用戶偏差風(fēng)險,這時候組內(nèi)設(shè)計發(fā)揮的作用是,將檢測結(jié)果的差異歸因產(chǎn)品間有差異(而非個體的差異),且同樣的樣本可以檢測到更小的差異。
組間設(shè)計
組間設(shè)計比較的是不同的用戶使用不同的產(chǎn)品,不同的用戶和不同的設(shè)計都會帶來變化;所有我們必須檢驗均值間的差異是否比不同的用戶所帶來的差異更大。
這里要特別說明一下A/B測試,現(xiàn)在我們常用的AB測試一般來說都是測量的是轉(zhuǎn)化率這個指標,但是轉(zhuǎn)化率這個指標我覺得是一個綜合指標,一個轉(zhuǎn)化目標是受很多因素來影響的,例如例如轉(zhuǎn)化目標受產(chǎn)品的可用性、LITT模型等等。
而且在測試期間,為了保證不同版本的測試差異最小,需要的是同一時間、同一場景、同一用戶樣本,所有這這期間在最短的時間內(nèi)達到需要的樣本容量的話,所受的影響因素會最小。
所以很多AB測試的產(chǎn)品都需要使用的產(chǎn)品在日活達到1000UV以上,這樣就能在最短的時間內(nèi),達到想要的樣本容量。
二、在比較分析時受影響的因素
(1)實驗的類型:首先要確定這是組內(nèi)試驗還是組間試驗?
(2)樣本的大?。浩浯蜗鄬Χ允谴髽颖具€是小樣本?
(3)數(shù)量的類型:最后看數(shù)據(jù)的類型,是連續(xù)性數(shù)據(jù)還是離散型二分式數(shù)據(jù)?
三、連續(xù)型數(shù)據(jù)的對比
1. 組內(nèi)比較——配對t檢驗
關(guān)于t值得計算方法:
我們得到檢驗統(tǒng)計量(t)值之后,為了確實是否差異顯著,需要在t表(t-table)中查p 值(p-value),也可以使用Excel公式=TDIST()來計算或者核算值。該計算方法無論大小樣本都適用。
關(guān)于差異的置信區(qū)間的計算方法:
配對t檢驗中的p值只用來告訴我們差異是否顯著,但是我們做比較的時候我們還想知道差異究竟有多大既常說的“效應(yīng)量”;隨著樣本容量增大(至少100以上),檢測結(jié)果很容易出現(xiàn)統(tǒng)計顯著差異,而實際的效應(yīng)量卻不顯著。
差異的置信區(qū)間有助于區(qū)分細微的(即便是統(tǒng)計顯著性的)差異和值得引起使用者注冊的差異。
計算差異分數(shù)的置信區(qū)間如下:
2. 組間比較——雙樣本t檢驗
組間比較的時候,不同用戶使用不同的產(chǎn)品;不同用戶和不同設(shè)計都會帶來變化。必須建議均值間的差異是否比不同用戶所帶來的差異更大。
關(guān)于t值得計算方法:
這屬于雙樣本t檢驗,得出的t值需要使用Excel公式=TDIST(t,自由度,樣本組數(shù)量),通過這個公式來得到p-value值,最后確定兩個樣本直接是否存在統(tǒng)計的顯著性。
關(guān)于差異的置信區(qū)間的計算方法:
在計算特定水平置信度和自由度下的臨界值時的計算方法是:
其中s表示的是分別兩個樣本的標準差,n表示的是兩個樣本的樣本量;如果手頭沒有計算工具,且方差又是同質(zhì)性的時候,你可以通過樣本1的數(shù)量+樣本2的數(shù)量-2;如果方差的差異較大(比如兩個標準差比例大于2)時,可以采用保守快捷的方法,用較小的樣本量減去2。
四、離散型二分式數(shù)據(jù)的對比
一個二分式離散型變量只有兩個值,諸如是/否、已完成/為完成、已轉(zhuǎn)換/未轉(zhuǎn)化
1. 組內(nèi)比較
連續(xù)性的組內(nèi)檢驗是(配對t檢驗),消除用戶之間的差異,所以相比同等樣本量的組間設(shè)計,組內(nèi)設(shè)計有更高的概率檢測到差異。
為了判斷兩組不同的完成率、轉(zhuǎn)化率或者任何二分變量之間是否存在顯著差異,對所有大小的樣本我們使用的是McNemar精準檢驗,通過計算p值來檢驗異序?qū)颖颈壤欠翊笥?.5(也稱為符號檢驗)。
McNemar精準檢驗:
總體來說我們有7對異序?qū)?,分布式單元格c和單元格b。
我們將上面表中的數(shù)據(jù)代入公式中得到:
單側(cè)檢驗的p值是這兩個比例的和,0.0078+0.0547=0.0625,因此雙側(cè)檢驗的概率是2倍(0.125)。
若是計算中間概率的話,中間概率等于觀測值精準概率的一般,加上小于觀測值得所有值得概率和。在上面的例子中,小于觀察值的所有值得概率就是零對異序?qū)Φ母怕剩瑸?.0078。
還有McNemar卡方檢驗,和McNemar卡方檢驗的耶茨校正;但是不推薦使用,因為對于McNemar卡方檢驗來說,常常會低估了不同樣本容量的真實概率,同時該方法在對樣本容量分析效果不明確。而對于McNemar卡方檢驗的耶茨校正,該方法夸大了所有樣本容量的真實值,所有在這里就不一一闡述了。
配對差異的置信區(qū)間:
為了估算配對二元結(jié)果間可能的差異程度,我們以上公式是采用適當Wald校正置信區(qū)間,采用2*2表格進行試驗設(shè)置,該校正的方法是給每個格子中加上特定置信度下正態(tài)分布臨界值平方的1/8。在95%置信度下,等于給試驗總數(shù)N加入了兩個偽觀值。
2. 組間比較
N-1卡方檢驗:
卡方檢驗計算公式:
在計算出卡方檢驗的值之后可以用Excel公式CHIDIST(卡方檢驗的值,1),計算出p-value值;1代表的是雙側(cè)檢驗,0代表的是單側(cè)檢驗。
N-1卡方檢驗適用于小樣本檢驗,且期望單元格的次數(shù)要大于1使用,N-1是樣本的校正值。
N-1雙比例檢驗:
N-1雙比率檢驗樣本適用的法則是:每個樣本中至少有10個成功,10個失??;且期望單元格的次數(shù)要大于1時使用。我們使用一個正態(tài)(Z)表查找雙側(cè)的p值,或者用Excel公式=(1-NORMSDIST(Z)*2),計算出雙側(cè)的p-value值。
N-1卡方檢驗和N-1雙比率檢驗的對比:
- 計算在數(shù)值上是一致的。
- 相比卡方檢驗用順利完成或失敗的用戶量,雙比率檢驗用完成率或轉(zhuǎn)化率(用比例形式測量)的方式思考會更簡單。
- 我們采取更加熟悉和容易獲取的正態(tài)分布作為參考分布計算p值,且無需擔(dān)心自由度。
- 置信區(qū)間公式使用兩個比例的差異,在轉(zhuǎn)換中更加容易計算和理解
Fisher精準檢驗:
Fisher精準檢驗使用精準的概率來代替卡方分布和t分布中的估值,精準的計算方法更傾與保守,計算出的p值會比原來的更高一些,因此在兩組的差異更大的時候才能達到統(tǒng)計顯著。Fisher精準檢驗是在2*2表中邊緣和(m、n、r和s單元格中的值)固定不變的情況下,表內(nèi)4個實際頻數(shù)變動時的所有可能組合的概率來計算p值。
適用條件:當有任意一個期望單元格次數(shù)小于1時。
配對差異的置信區(qū)間:
以下是校正后Wald置信區(qū)間,只不過在這里是用于檢驗兩個比例的差異,而不再是一個單獨的比例。
在計算校正計算比例的時候,把分子加上z臨界值得平方的四分之一,把分母加上z臨界值得平方的二分之一。置信度為95%時,雙邊檢驗臨界值為1.96。這樣做就好比每個樣本個增加兩個假冒的觀測對象——一個成功一個失敗
五、總結(jié)
上節(jié)和這節(jié)中我們講到了很多公式,但是作為一個數(shù)據(jù)產(chǎn)品經(jīng)理或者數(shù)據(jù)分析師,看到數(shù)據(jù)分析的本質(zhì)是為了發(fā)現(xiàn)問題和解決問題,其他任何方法,都是通往解決問題的一個途徑,如何選擇最合適的方法解決問題才是關(guān)鍵。
不滯于物,草木竹石均可為劍。
本文由 @平遙抒雪 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
是否可以舉些具體的例子