A/B測(cè)試算法大揭秘第三篇:如何分析試驗(yàn)數(shù)據(jù)(下)

1 評(píng)論 28460 瀏覽 63 收藏 7 分鐘

希望通過我們的幾篇文章,能夠幫助你更好的了解A/B測(cè)試和置信區(qū)間,一起實(shí)現(xiàn)用A/B測(cè)試驅(qū)動(dòng)產(chǎn)品優(yōu)化。

P-value定義

P-value(以下簡(jiǎn)稱P值),又稱“顯著性水平”,它是指在原假設(shè)為真的條件下,樣本數(shù)據(jù)拒絕原假設(shè)事件發(fā)生的概率,可以用來評(píng)估假設(shè)檢驗(yàn)中最關(guān)鍵的第一類錯(cuò)誤的概率。

今年3月,美國統(tǒng)計(jì)協(xié)會(huì)(ASA)在其官網(wǎng)上發(fā)布了《關(guān)于統(tǒng)計(jì)顯著性和P值的聲明》,進(jìn)一步闡釋了P值的概念和用處:

  1. P值可以表達(dá)的是數(shù)據(jù)與一個(gè)給定模型(也就是原假設(shè)下的模型)不匹配的程度;
  2. P值并不能衡量某條假設(shè)為真的概率,或是數(shù)據(jù)僅由隨機(jī)因素產(chǎn)生的概率;
  3. 科學(xué)結(jié)論、商業(yè)決策或政策制定不應(yīng)該僅依賴于P值是否超過一個(gè)給定的閾值;
  4. 合理的推斷過程需要完整的報(bào)告和透明度;
  5. P值或統(tǒng)計(jì)顯著性并不衡量影響的大小或結(jié)果的重要性;
  6. P值就其本身而言,并不是一個(gè)非常好的對(duì)模型或假設(shè)所含證據(jù)大小的衡量。

P-value的計(jì)算——T檢驗(yàn)

P值的計(jì)算公式取決于假設(shè)檢驗(yàn)的具體方式,常用的假設(shè)檢驗(yàn)方法有Z檢驗(yàn)、T檢驗(yàn)和卡方檢驗(yàn)等,不同的方法有不同的適用條件和檢驗(yàn)?zāi)繕?biāo)。

A/B測(cè)試中是用對(duì)照版本和試驗(yàn)版本兩個(gè)樣本的數(shù)據(jù)來對(duì)這兩個(gè)總體是否存在差異進(jìn)行檢驗(yàn),所以適合使用T檢驗(yàn)方法中的獨(dú)立雙樣本檢驗(yàn) (independent two-samples ttest)。通過T分布理論來計(jì)算相關(guān)的概率水平,也就是P-value的值。

T檢驗(yàn)的計(jì)算公式,首先通過來公式計(jì)算出統(tǒng)計(jì)檢驗(yàn)量Z值,公式中的相關(guān)組成因素就是:兩個(gè)版本的各自均值、方差(標(biāo)準(zhǔn)差),以及樣本的大小,從而推算出統(tǒng)計(jì)量的Z值是多少。

0

然后通過t分布(大樣本情況下近似正態(tài)分布)的公式計(jì)算得出和Z值對(duì)應(yīng)的P值,陰影部分的面積就是P-value的值。

1

P值算出來之后,我們就可以根據(jù)P值按照前面介紹的假設(shè)檢驗(yàn)決策規(guī)則來判斷這兩個(gè)樣本均值的差異是否顯著了。

P-value中的常見錯(cuò)誤

A.統(tǒng)計(jì)顯著=效果顯著=效果的商業(yè)價(jià)值?

這個(gè)式子的意思是:P值只代表了樣本數(shù)據(jù)與原假設(shè)之間有多不一致,并不能代表你所發(fā)現(xiàn)的效應(yīng)(或差異)的大小。

盡管研究者們?cè)诤芏嗲闆r下都希望計(jì)算出零假設(shè)為真的概率或是數(shù)據(jù)由隨機(jī)因素產(chǎn)生的概率,很可惜這兩者都不是P值的事。P值只解釋數(shù)據(jù)與假設(shè)之間的關(guān)系,它并不解釋假設(shè)本身。即,不論P(yáng)-value的值有多小,也只能告訴你兩個(gè)版本間是否存在差異效果,并不能得知差異效果究竟有多大,更不能告訴我們這效果是否具有實(shí)際價(jià)值。

例如,我們通過A/B測(cè)試對(duì)一個(gè)資源耗費(fèi)10倍以上的推薦算法進(jìn)行優(yōu)化,得到p值=0.001,說明這次的試驗(yàn)結(jié)果是顯著的。而試驗(yàn)的效果,只對(duì)收入提升了萬分之一。

當(dāng)資源耗費(fèi)增大了10倍或更多時(shí),收入只得到了非常微小的提升,那么從整體看來這個(gè)優(yōu)化帶來的商業(yè)效果其實(shí)是非常不顯著的。因此不能從P值來判定改動(dòng)所帶來的商業(yè)效果。

B.一旦P≤α,就立刻得出結(jié)論?

這是P值一種比較經(jīng)典的錯(cuò)誤使用方式:持續(xù)觀察和檢驗(yàn)p值(multiple testing) ,一旦p值小于α判定標(biāo)準(zhǔn)(即統(tǒng)計(jì)顯著),就停止試驗(yàn)得出結(jié)論。事實(shí)上,這樣的會(huì)導(dǎo)致很高的第一類錯(cuò)誤發(fā)生率。

以Airbnb的某一個(gè)A/B測(cè)試為例,當(dāng)試驗(yàn)開始運(yùn)行后,持續(xù)每天都觀察試驗(yàn)數(shù)據(jù)的情況和p值,并繪制出以下圖表??梢园l(fā)現(xiàn),當(dāng)試驗(yàn)運(yùn)行到第7天時(shí),p-value的值第一次小于α判定標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果顯示顯著。但是過了一段時(shí)間之后,p值并沒有穩(wěn)定下來,甚至一度增大到實(shí)驗(yàn)結(jié)果顯示不顯著。也就是說,單純憑借p-value值來判定實(shí)驗(yàn)結(jié)果的顯著與否,是不太可靠的。尤其是在試驗(yàn)剛開始的前7-10天之內(nèi),單純依靠p-value值來得出版本差異的判定,出錯(cuò)的概率是非常大的。

以上就是關(guān)于P-value的介紹。如果在閱讀的過程中,你對(duì)P值有了更加深入的了解,那就是我們?cè)谶@篇文章上的最大成功。最后想說的是,P值并不是數(shù)據(jù)分析的終點(diǎn),所有決策的過程都應(yīng)該多個(gè)因素綜合考量,而不是“一錘子買賣”。在A/B測(cè)試中,同時(shí)應(yīng)用了許多其他合適可行的方法,是它們的共同作用幫助我們判斷出了最優(yōu)的試驗(yàn)版本。下一篇,我們就來講講A/B測(cè)試中用戶最關(guān)注的部分——置信區(qū)間。

 

作者:吆喝科技,微信公眾號(hào)(appadhoc)。

本文由 @吆喝科技 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 測(cè)試用例

    來自河北 回復(fù)