項(xiàng)目復(fù)盤:如何避開從0~1構(gòu)建AB Test過程中的坑(下)

2 評(píng)論 16802 瀏覽 46 收藏 9 分鐘

編輯導(dǎo)語(yǔ):在上篇文章中,作者為我們羅列了AB實(shí)驗(yàn)中的幾個(gè)典型問題,并且解答了如何合理的劃分人群?如何判斷結(jié)果是否可信?本篇文章中,作者又講解了AB的衡量指標(biāo)以及AA組、AABB組的問題。

接上次的《項(xiàng)目復(fù)盤:如何避開從0~1構(gòu)建AB Test過程中的坑(上)》,這次給大家重點(diǎn)梳理下AA實(shí)驗(yàn)。

以前做B端產(chǎn)品時(shí)對(duì)數(shù)據(jù)不敏感,現(xiàn)在在C端做產(chǎn)品時(shí),數(shù)據(jù)分析的能力就顯得很重要,你說還有什么能比ABTest的數(shù)據(jù)支撐你大步向前走的信心呢,當(dāng)然也沒有什么比虛假數(shù)據(jù)或混淆了數(shù)據(jù)一樣能快速的結(jié)束你的產(chǎn)品迭代甚至帶來嚴(yán)重后果,所以如何能給自己更多一些信心?

答案是:AA Test

一、AB實(shí)驗(yàn)的概念

先再講下AB實(shí)驗(yàn)的概念,在互聯(lián)網(wǎng)的A/B Test里面, 我們將線上的流量隨機(jī)地分到版本A和版本B,收集用戶在兩個(gè)版本中的行為數(shù)據(jù), 然后對(duì)這些數(shù)據(jù)進(jìn)行分析,產(chǎn)生量化的結(jié)果,最后基于這些量化的結(jié)果來形成數(shù)據(jù)驅(qū)動(dòng)的決策。

下圖是一個(gè)簡(jiǎn)單的A/B Test的流程示意圖:

(Axure手繪粗糙版AB核心流程示意圖)

實(shí)際上,A/B Test方向的大咖Ron Kohavi也說過: “拿到A/B Test的數(shù)據(jù)容易, 拿到可信的A/B Test的數(shù)據(jù)很難”,原因就是A/B Test里面的坑很多。

接上次文章,本次主要講下上次遺漏的最后一個(gè)問題,即AA實(shí)驗(yàn)以及AABB實(shí)驗(yàn):

  1. 我怎么劃分人群,是隨機(jī)劃分還是依照什么規(guī)則能確保人群劃分的合理?(AB實(shí)驗(yàn)里的分流邏輯);
  2. 實(shí)驗(yàn)結(jié)果出來了,我怎么判斷這個(gè)結(jié)果可信不可信(AB實(shí)驗(yàn)里的顯著性差異);
  3. 實(shí)驗(yàn)結(jié)果出來了,實(shí)驗(yàn)組數(shù)據(jù)好,我怎么判斷是不是真的好(AB實(shí)驗(yàn)里的第一類錯(cuò)誤);
  4. 實(shí)驗(yàn)結(jié)果出來了,實(shí)驗(yàn)組數(shù)據(jù)差,我怎么判斷是不是真的差(AB實(shí)驗(yàn)里的第二類錯(cuò)誤);
  5. 實(shí)驗(yàn)結(jié)果出來了,好多個(gè)維度數(shù)據(jù),我怎么衡量實(shí)驗(yàn)結(jié)果(AB實(shí)驗(yàn)里的衡量指標(biāo));
  6. 實(shí)驗(yàn)結(jié)果出來了,但是一組AB實(shí)驗(yàn)我總覺得不靠譜(AB實(shí)驗(yàn)的AB組,稱為AA組以及AABB組)。

二、AA實(shí)驗(yàn)的概念

在AA Test里,流量會(huì)被隨機(jī)的分配到兩個(gè)或多個(gè)版本里,只不過這兩個(gè)版本都是版本A(實(shí)驗(yàn)組和對(duì)照組配置一模一樣),所以你也可以理解為AA Test是AB Test的一種特殊形式。

注意圖中的差異,箭頭所表示的地方!

(箭頭所示為AA實(shí)驗(yàn)區(qū)別于AB實(shí)驗(yàn)的地方示意圖)

在AA實(shí)驗(yàn)里,從概念上我們知道實(shí)驗(yàn)版本之間是沒有差異的(類比下,在AB實(shí)驗(yàn)里我們是不知道實(shí)驗(yàn)版本之間的指標(biāo)是否有差異的)。

所以在AA實(shí)驗(yàn)中我們是可以排除實(shí)驗(yàn)版本之間的差異帶來的影響的,可以把這部分影響歸結(jié)為隨機(jī)噪聲或其他干擾因素(類比下,在AB實(shí)驗(yàn)里我們是沒有很強(qiáng)有力的版本區(qū)分開實(shí)驗(yàn)版本間的差異和其他可能帶來干擾的因素的),一般用來輔助觀察指標(biāo)在產(chǎn)品不做改變時(shí)的偏差范圍。

AA實(shí)驗(yàn)是實(shí)驗(yàn)組和對(duì)照組配置一樣,衡量產(chǎn)品不做改變時(shí)的自然偏差范圍,如果這個(gè)偏差范圍很大,說明AB實(shí)驗(yàn)的結(jié)果可能也不是很可信。

先回到AB實(shí)驗(yàn)的邏輯:

在概率和統(tǒng)計(jì)學(xué)上我們是可以判斷出版本之間指標(biāo)的差異可以歸因?yàn)锳版本和B版本的差異(注意實(shí)際實(shí)驗(yàn)里的概率大?。?,不過在實(shí)際實(shí)驗(yàn)中,我們會(huì)遇到多種問題,甚至可能導(dǎo)致結(jié)論是錯(cuò)誤的,一般情況下問題可以歸結(jié)為三點(diǎn):

  1. 流量分配有問題(不均勻/特質(zhì)不明顯等等)
  2. 埋點(diǎn)和數(shù)據(jù)回流有問題(埋點(diǎn)漏埋、少埋、多埋等或數(shù)據(jù)傳參鏈路bug)
  3. 統(tǒng)計(jì)計(jì)算和推理不科學(xué)(計(jì)算錯(cuò)誤或推理邏輯未遵循AB實(shí)驗(yàn)邏輯推理)

而AATest實(shí)驗(yàn)中的產(chǎn)品版本都是一樣的,這樣保證相同的目的就是為了驗(yàn)證上述的埋點(diǎn)、分流、實(shí)驗(yàn)統(tǒng)計(jì)的正確性,確保實(shí)驗(yàn)的可信。

換句話說,如果實(shí)驗(yàn)的流量分配、埋點(diǎn)數(shù)據(jù)、統(tǒng)計(jì)分析都是正確的,那么AA空轉(zhuǎn)的結(jié)果理論上肯定是一樣的,這樣就可以理解,如果AA空轉(zhuǎn)的實(shí)驗(yàn)結(jié)果不同,那么上述三個(gè)里肯定有一項(xiàng)存在問題。

所以可以看出,在AB實(shí)驗(yàn)里,做一個(gè)純凈對(duì)照組AATest的重要性。

三、AA實(shí)驗(yàn)怎么做

AB實(shí)驗(yàn)的步驟大家參考上篇文章《項(xiàng)目復(fù)盤:如何避開從0~1構(gòu)建AB Test過程中的坑(上)》應(yīng)該都知道怎么操作了吧?

AA實(shí)驗(yàn)就是把AB的步驟復(fù)制一下,只不過在操作版本時(shí)保證一致就可以了。

四、AABB實(shí)驗(yàn)是啥

說實(shí)話,如果已經(jīng)做了AB實(shí)驗(yàn)和AA實(shí)驗(yàn),沒有必要做AABB實(shí)驗(yàn)了。

AB和AA實(shí)驗(yàn)的誤差把控都需要用概率和統(tǒng)計(jì)把控,如果AB和AA的結(jié)果不相信,你有什么理由相信一個(gè)誤差更大的AABB實(shí)驗(yàn)?zāi)??也就是一個(gè)4開組的實(shí)驗(yàn)。

(手繪AABB實(shí)驗(yàn)示意圖,原諒我的拙筆,起碼不侵權(quán) 哈哈……)

所以由上圖可以看出,原本的單獨(dú)實(shí)驗(yàn)單一對(duì)比情況下存在的單一誤差,如果做4開的AABB實(shí)驗(yàn),變成了6組,假設(shè)各組對(duì)比結(jié)果相互獨(dú)立,至少一組犯錯(cuò)的概率為:P(wrong)= [ 1 -(1-0.05)^6 ] =0.265,遠(yuǎn)大于0.05(傳說中的P值)。

所以多來幾次抽樣實(shí)驗(yàn)的話,只能增加犯錯(cuò)的概率,因此不是很建議在來一個(gè)4開的AABB實(shí)驗(yàn)。

五、結(jié)語(yǔ)

AATest實(shí)驗(yàn)成功的是ABTest成功運(yùn)行的前提。

根據(jù)大部分AB實(shí)驗(yàn)的經(jīng)驗(yàn), A/A Test經(jīng)常發(fā)現(xiàn)的問題是數(shù)據(jù)方面的問題, 工程方面比如分流的問題比較少見,因?yàn)槟壳昂芏喾至魉惴ǘ家呀?jīng)相對(duì)成熟。

此外實(shí)驗(yàn)系統(tǒng),埋點(diǎn)和數(shù)據(jù)回流,以及指標(biāo)計(jì)算都是動(dòng)態(tài)變化的,因此A/A Test應(yīng)該持續(xù)的運(yùn)行,所以建議有需要AB實(shí)驗(yàn)的小伙伴,可以考慮將AA實(shí)驗(yàn)作為長(zhǎng)期運(yùn)行、對(duì)比的一項(xiàng)任務(wù),任重而道遠(yuǎn)。

 

作者:楠神,公眾號(hào)《音波楠神》

本文由 @楠神 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自?Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 寫得特別棒,對(duì)AA實(shí)驗(yàn)有深一步的了解,感謝作者,這里有個(gè)問題請(qǐng)教下:

    方案1:先跑AA`實(shí)驗(yàn)驗(yàn)證AA`無(wú)顯著差異后,再跑AB實(shí)驗(yàn)
    方案2:直接跑AA`B實(shí)驗(yàn)3開進(jìn)行,即觀察AA`顯著性,也觀察AB的顯著性

    方案1和方案2,建議跑哪一套呢,其中有何區(qū)別? 期待您的回復(fù),謝謝

    來自廣東 回復(fù)
    1. 你好,感謝認(rèn)可。
      一般為了避免流量浪費(fèi),同時(shí)真正推進(jìn)項(xiàng)目時(shí)會(huì)遇到時(shí)間緊迫性,所以一般會(huì)直接跑AB,來看P值或power值,畢竟如果這倆個(gè)值分別是很小和百分比很大,大概率AB實(shí)驗(yàn)結(jié)果就是靠譜的,這個(gè)時(shí)候極小概率會(huì)出現(xiàn)偏差;只有當(dāng)P值和power值的結(jié)果不足以支撐你去決策AB實(shí)驗(yàn)結(jié)果是否可信時(shí),且要分辨出結(jié)果是否是受到自然波動(dòng)的影響時(shí),加一個(gè)AA空轉(zhuǎn)實(shí)驗(yàn)去佐證。
      當(dāng)然,嚴(yán)謹(jǐn)且全面的AB實(shí)驗(yàn),是可以一并投入開始跑的。

      來自浙江 回復(fù)