關(guān)于增長(zhǎng)AB測(cè)試,這5件事你應(yīng)該知道
編輯導(dǎo)讀:AB測(cè)試是產(chǎn)品、運(yùn)營(yíng)同學(xué)經(jīng)常用到的工具,它能夠比較新版本與當(dāng)前版本用戶體驗(yàn)的變化,收集數(shù)據(jù)并分析。根據(jù)數(shù)據(jù)分析結(jié)果衡量更改對(duì)業(yè)務(wù)的影響,可以確保每個(gè)更改都產(chǎn)生正向結(jié)果,從而消除創(chuàng)新和迭代風(fēng)險(xiǎn),讓業(yè)務(wù)快速增長(zhǎng)。本文作者將圍繞增長(zhǎng)AB測(cè)試,分享要注意的五件事情。
增長(zhǎng)工作中,AB測(cè)試可以說是被奉為圭臬的方法,也是產(chǎn)品/運(yùn)營(yíng)同學(xué)們信手拈來的工具。工作對(duì)AB測(cè)試接觸使用較多,但也有了更多的經(jīng)驗(yàn)教訓(xùn)以及學(xué)習(xí)思考。
這次分享5個(gè)實(shí)際使用AB測(cè)試中的關(guān)鍵事項(xiàng),一起來交流避坑。
一、樣本規(guī)模預(yù)估
AB測(cè)試中,對(duì)照組和實(shí)驗(yàn)組的樣本量越大,實(shí)驗(yàn)時(shí)間越長(zhǎng),實(shí)驗(yàn)結(jié)果就更加準(zhǔn)確。
這可以說是常識(shí)性的判斷,但是實(shí)際上這是由統(tǒng)計(jì)顯著性決定的:
統(tǒng)計(jì)顯著性是指對(duì)照組和實(shí)驗(yàn)組的數(shù)據(jù)差異有多大可能是真實(shí)存在的,而不是隨機(jī)誤差導(dǎo)致的。
所以周期更久、樣本量更多的AB測(cè)試更有說服力,但是實(shí)際工作中,產(chǎn)品或活動(dòng)的迭代速度快,這就要求AB測(cè)試的實(shí)驗(yàn)周期不能過長(zhǎng),所以在AB測(cè)試前對(duì)樣本規(guī)模進(jìn)行預(yù)估至關(guān)重要。
計(jì)算樣本量的方法有些復(fù)雜,對(duì)于丟棄高數(shù)、概率論多年的打工人來說,還是建議求助于數(shù)據(jù)分析同學(xué)。
在這個(gè)樣本數(shù)量計(jì)算器中,輸入原始版本轉(zhuǎn)化率(已知),再輸入優(yōu)化版本的轉(zhuǎn)化率(預(yù)期),同時(shí)設(shè)置統(tǒng)計(jì)顯著性水平,一般達(dá)到95%以上即是顯著差異。這樣就可以快速得到一個(gè)樣本數(shù)量結(jié)果。
如上圖,如果原始版轉(zhuǎn)化率是10%,優(yōu)化的新版本轉(zhuǎn)化率預(yù)期是12%,在進(jìn)行AB測(cè)試時(shí),每組用戶樣本數(shù)據(jù)達(dá)到2900以上時(shí),才能說明這個(gè)新版本轉(zhuǎn)化率的是顯著差異,是可信的。
在計(jì)算完預(yù)估的樣本數(shù)量之后,還有一個(gè)重要工作就是預(yù)估實(shí)驗(yàn)周期。
如果可信的AB測(cè)試每組實(shí)驗(yàn)需要2900個(gè)樣本量,但是我們的產(chǎn)品每天只有200的日活用戶,分成兩組后每組只有100用戶,則2900/100=29天,意味著AB測(cè)試實(shí)驗(yàn)需要29天后才可達(dá)到需要的樣本量。
這個(gè)時(shí)候就要評(píng)估這個(gè)周期是否是可接受的,如果周期過長(zhǎng),則說明這個(gè)AB測(cè)試在現(xiàn)階段進(jìn)行是不合適的。
二、測(cè)試結(jié)果分析
樣本規(guī)模預(yù)估是在AB測(cè)試前進(jìn)行,因?yàn)閮?yōu)化版本的轉(zhuǎn)化數(shù)據(jù)是預(yù)估的,所以樣本量和實(shí)驗(yàn)周期都是預(yù)估數(shù)據(jù),幫助我們?cè)贏B測(cè)試前對(duì)測(cè)試樣本和周期有個(gè)初步判斷。
在實(shí)際的AB測(cè)試實(shí)驗(yàn)結(jié)束后,我們還需要對(duì)實(shí)際的結(jié)果數(shù)據(jù)進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn),保證對(duì)照組和實(shí)驗(yàn)組的數(shù)據(jù)差異是顯著可信的。
在這個(gè)工具中,我們輸入AB兩組的實(shí)際數(shù)據(jù),就可以清楚看到兩者轉(zhuǎn)化率的差異,以及試驗(yàn)結(jié)果的統(tǒng)計(jì)顯著性結(jié)果。
以上圖為例,雖然B組的轉(zhuǎn)化率比A組高,但是因?yàn)闃颖玖枯^小,試驗(yàn)結(jié)果沒有達(dá)到顯著的統(tǒng)計(jì)學(xué)差異,所以我們不能得出B組優(yōu)化比A組更好的結(jié)論。
這個(gè)時(shí)候有兩種選擇,一是繼續(xù)實(shí)驗(yàn),積累更多的實(shí)驗(yàn)數(shù)據(jù)后進(jìn)行分析,二是放棄實(shí)驗(yàn),得出此次優(yōu)化沒有明顯提升的結(jié)論。
也不是說繼續(xù)實(shí)驗(yàn)一定會(huì)得出顯著性差異,如果樣本量繼續(xù)增大,但是轉(zhuǎn)化率差異減小,就意味著需要更多的樣本量,這種情況往往說明兩個(gè)版本的差異確實(shí)不大,但是也需要根據(jù)實(shí)際情況判斷是否需要停止AB測(cè)試。
三、反向相關(guān)指標(biāo)
在進(jìn)行AB測(cè)試時(shí),一般情況下會(huì)有一個(gè)核心指標(biāo)來判斷實(shí)驗(yàn)結(jié)果,同時(shí)會(huì)有一些支持或輔助指標(biāo)來更好地監(jiān)測(cè)實(shí)驗(yàn)和分析結(jié)果。但是不能忽略的是一些反向指標(biāo)。
什么是反向指標(biāo)?反向指標(biāo)就是AB測(cè)試實(shí)驗(yàn)中可能會(huì)負(fù)面影響的指標(biāo)。
舉一個(gè)簡(jiǎn)單的例子:
AB實(shí)驗(yàn)為了提升新用戶注冊(cè)率,于是在新版本中過度包裝了新人權(quán)益,雖然提升了新用戶注冊(cè)率,但是因?yàn)橛脩纛A(yù)期管理不足,新用戶注冊(cè)后發(fā)現(xiàn)實(shí)際的新人權(quán)益大打折扣,對(duì)產(chǎn)品產(chǎn)生不滿的情緒,導(dǎo)致新用戶首單轉(zhuǎn)化率降低。
新用戶首單轉(zhuǎn)化率在這個(gè)實(shí)驗(yàn)中就是一個(gè)值得關(guān)注的反向指標(biāo)。
AB測(cè)試為了實(shí)驗(yàn)的速度和效果,往往會(huì)關(guān)注少部分關(guān)鍵流程節(jié)點(diǎn)和核心指標(biāo),但是忽略反向指標(biāo),卻有得不償失的風(fēng)險(xiǎn)。
四、辛普森悖論
辛普森悖論是指:某些條件下的兩組數(shù)據(jù),分別討論時(shí)都會(huì)滿足某種性質(zhì),可是一旦合并考慮,卻可能導(dǎo)致相反的結(jié)論。這個(gè)理論由英國(guó)統(tǒng)計(jì)學(xué)家辛普森提出。
還是舉一個(gè)簡(jiǎn)單的例子,在對(duì)新用戶首購(gòu)流程的AB測(cè)試實(shí)驗(yàn)中:
首日,A組轉(zhuǎn)化率是10%(10/100),B組轉(zhuǎn)化率是12%(120/1000);
次日,A組轉(zhuǎn)化率是15%(150/1000),B組轉(zhuǎn)化率是16%(160/1000);
兩日分別看,B組的轉(zhuǎn)化率都高于A組。
但是合計(jì)起來看,A組轉(zhuǎn)化率是14.5%(160/1100),B組轉(zhuǎn)化率14%(280/2000);
這樣合計(jì)數(shù)據(jù)A組的轉(zhuǎn)化率卻高于B組。所以在分析時(shí)就無(wú)法直接判斷實(shí)驗(yàn)結(jié)果。
辛普森悖論的存在,對(duì)AB測(cè)試提出了更多的要求,用戶樣本的合理選擇、樣本量的監(jiān)控調(diào)整、全面的數(shù)據(jù)分析等。
例子中導(dǎo)致分日和合計(jì)數(shù)據(jù)結(jié)論相反的原因就是首日A組和B組樣本量差別較大。
五、分層實(shí)驗(yàn)
對(duì)于大體量的產(chǎn)品和完善的增長(zhǎng)團(tuán)隊(duì),會(huì)存在多個(gè)AB測(cè)試同時(shí)進(jìn)行的情況,這就需要考慮分層實(shí)驗(yàn)。
分層實(shí)驗(yàn)是指,將多個(gè)實(shí)驗(yàn)建立起分層結(jié)構(gòu),每一層實(shí)驗(yàn)使用過的流量,下一層的實(shí)驗(yàn)可以繼續(xù)用。有些不是很好理解,繼續(xù)舉個(gè)例子:
以電商產(chǎn)品的新人流程為例,新用戶下載打開APP后,首頁(yè)有新人禮包的入口,點(diǎn)擊進(jìn)入后可以查看新人權(quán)益和優(yōu)惠商品,新用戶查看新人商品后完成下單,這就是新用戶轉(zhuǎn)化的基本路徑。
為了優(yōu)化現(xiàn)有的新人轉(zhuǎn)化流程,從新人禮包的首頁(yè)展示、落地頁(yè)展示、新人商品詳情頁(yè)同時(shí)進(jìn)行了多個(gè)AB實(shí)驗(yàn)。
在首頁(yè)展示上,同時(shí)進(jìn)行了按鈕顏色和引導(dǎo)文案的AB實(shí)驗(yàn),為了保證變量的唯一性,按鈕顏色實(shí)驗(yàn)中,包括文案等其他內(nèi)容完全是一致的,文案實(shí)驗(yàn)中,包括按鈕顏色等其他內(nèi)容也是完全一致的。這就需要把100%的流量分成2部分,假設(shè)為各50%,即50%用戶進(jìn)行按鈕顏色實(shí)驗(yàn)(25%看到紅色按鈕,25%看到黃色按鈕,兩組文案一致),其余50%用戶進(jìn)行文案實(shí)驗(yàn)(25%看到“領(lǐng)取權(quán)益”文案,25%看到“1元下單”文案,兩組按鈕顏色一致)。
進(jìn)入到新人頁(yè)面之后,對(duì)權(quán)益展示的方式又進(jìn)行了AB實(shí)驗(yàn),從第一層(首頁(yè))來的流量(100%)都進(jìn)行權(quán)益展示的AB實(shí)驗(yàn),來自第一層100%的流量剛進(jìn)行了按鈕顏色和文案的實(shí)驗(yàn),為了避免上層實(shí)驗(yàn)對(duì)權(quán)益展示實(shí)驗(yàn)的影響,從上層來的流量要隨機(jī)分配到權(quán)益展示實(shí)驗(yàn)的AB兩組,這就是分層實(shí)驗(yàn)中的流量正交,均勻分配上層流量。
分層實(shí)驗(yàn)在實(shí)際工作中不多見,但是成熟的產(chǎn)品必須要考慮這種情況的存在,才能更高效地更科學(xué)的同時(shí)進(jìn)行多個(gè)AB實(shí)驗(yàn)。各團(tuán)隊(duì)間也要保持溝通,避免單打獨(dú)斗進(jìn)行實(shí)驗(yàn),卻不知被對(duì)方的實(shí)驗(yàn)影響了結(jié)果,得出不恰當(dāng)?shù)慕Y(jié)論。
以上,就是關(guān)于AB測(cè)試的5個(gè)階段性分享,后面的工作中,AB測(cè)試還會(huì)繼續(xù)做,新的問題還會(huì)出現(xiàn)。
本文由 @吳依舊 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
有收獲,已關(guān)注,謝謝。AB測(cè)試還會(huì)繼續(xù)做,新的問題還會(huì)出現(xiàn),期待作者后續(xù)的分享~
請(qǐng)問文中提到的AB測(cè)試工具(樣本量計(jì)算等)在哪可以找到?
本來放文章中了,審核時(shí)給刪掉了。
樣本預(yù)估工具:https://www.eyeofcloud.com/124.html
結(jié)果驗(yàn)證工具:https://www.eyeofcloud.com/126.html
謝謝