深度講解「AB實(shí)驗(yàn)」

2 評論 2553 瀏覽 28 收藏 32 分鐘

在數(shù)據(jù)驅(qū)動的商業(yè)世界中,AB實(shí)驗(yàn)已成為驗(yàn)證產(chǎn)品策略和優(yōu)化決策的關(guān)鍵工具。本文深入探討了AB實(shí)驗(yàn)的科學(xué)性和重要性,揭示了實(shí)驗(yàn)設(shè)計(jì)中的常見誤區(qū),并提供了實(shí)用的操作指南。

《鵝廠人的用戶增長方法論與實(shí)踐》這篇文章里,我分享了如何通過用戶增長6步法探索互聯(lián)網(wǎng)產(chǎn)品用戶增長的策略方向,其中最后一步是通過AB實(shí)驗(yàn)驗(yàn)證增長策略,寫這篇文章的時(shí)候,因?yàn)槠邢逈]有圍繞AB實(shí)驗(yàn)過多展開分享,今天這篇文章就專門針對AB實(shí)驗(yàn)這個(gè)話題深度展開分享,爭取一篇文章講清楚AB實(shí)驗(yàn)的要點(diǎn);

1.我將分享哪些內(nèi)容?

  1. 認(rèn)知部分:我將分享AB實(shí)驗(yàn)的重要性,以及常見的誤區(qū),以及學(xué)習(xí)AB實(shí)驗(yàn)后的好處,了解這些可以幫助大家對AB實(shí)驗(yàn)建立一些基礎(chǔ)認(rèn)知;
  2. 實(shí)操部分:我將以一個(gè)實(shí)際案例,實(shí)際分享AB實(shí)驗(yàn)的實(shí)操過程,手把手教大家怎么做AB實(shí)驗(yàn);
  3. 進(jìn)階部分:我將深入分享AB實(shí)驗(yàn)中的分流原理,把其中一些復(fù)雜的原理通過更簡單的方式描述清楚;

2. 文適合哪些朋友?

  1. 產(chǎn)品經(jīng)理人員:互聯(lián)網(wǎng)產(chǎn)品的產(chǎn)品經(jīng)理,了解怎么通AB實(shí)驗(yàn)驗(yàn)證產(chǎn)品策略;
  2. 用戶增長運(yùn)營人員:負(fù)責(zé)產(chǎn)品用戶增長的運(yùn)營人員,了解怎么在運(yùn)營工作中合理的設(shè)計(jì)用戶增長實(shí)驗(yàn);
  3. 初級數(shù)據(jù)分析人員:負(fù)責(zé)企業(yè)產(chǎn)品、用戶增長相關(guān)業(yè)務(wù)的初級數(shù)據(jù)分析人員,快速了解AB實(shí)驗(yàn);

聲明:由于個(gè)人知識水平有限,其中如有描述不對或者認(rèn)知錯(cuò)誤的,歡迎各位高手給與指出和批評,我將虛心向大家求證學(xué)習(xí),共同進(jìn)步。

一、“科學(xué)”的AB實(shí)驗(yàn)的重要性?

在標(biāo)題里面,我強(qiáng)調(diào)了”科學(xué)“兩個(gè)字,為什么要著重強(qiáng)調(diào)這兩個(gè)字,其主要原因有如下2個(gè):

1. 大部分人的所謂AB實(shí)驗(yàn)是不科學(xué)的

在很多互聯(lián)網(wǎng)公司,大家都知道通過AB實(shí)驗(yàn)去驗(yàn)證結(jié)論和做數(shù)據(jù)決策,但是實(shí)際上我發(fā)現(xiàn)絕大多數(shù)運(yùn)營人員只是在做實(shí)驗(yàn),并不是做真正的AB實(shí)驗(yàn),比如很多人都知道AB實(shí)驗(yàn)的核心是要控制變量法和人群同質(zhì),但是他們的實(shí)際操作并沒有真正做到控制變量和實(shí)驗(yàn)人群同質(zhì);他們并沒有掌握如何嚴(yán)謹(jǐn)和科學(xué)的去設(shè)計(jì)一門AB實(shí)驗(yàn);而不嚴(yán)謹(jǐn)、不科學(xué)的AB實(shí)驗(yàn)往往給出的是錯(cuò)誤的決策和結(jié)論;

2. 有些業(yè)務(wù)數(shù)據(jù)提升的結(jié)論并不嚴(yán)謹(jǐn)

我以前服務(wù)過的公司里面經(jīng)常會出現(xiàn)一種好玩的現(xiàn)象,各個(gè)業(yè)務(wù)在年度復(fù)盤的時(shí)候,都會說自己做了哪些策略,然后帶來了百分之幾的提升,所有業(yè)務(wù)都說自己有提升,然后最后老板發(fā)現(xiàn)公司最終的業(yè)績營收并沒有看到提升,其中有些數(shù)據(jù),現(xiàn)在看來并不嚴(yán)謹(jǐn);

以上兩個(gè)問題,包括我自己之前在認(rèn)知水平不夠的情況下也存在(當(dāng)然,我沒有造假修飾過數(shù)據(jù)),我也曾經(jīng)做過一些現(xiàn)在看來并不嚴(yán)謹(jǐn)科學(xué)的實(shí)驗(yàn),以及基于實(shí)驗(yàn)數(shù)據(jù)得出一些現(xiàn)在看來是不嚴(yán)謹(jǐn)?shù)臄?shù)據(jù),在鵝廠工作的經(jīng)歷里,我從很多資深的AB實(shí)驗(yàn)專家中學(xué)習(xí)了如何科學(xué)的設(shè)計(jì)AB實(shí)驗(yàn)和看待實(shí)驗(yàn)結(jié)果數(shù)據(jù)后,才意識到過去存在的問題。

二、AB實(shí)驗(yàn)的常見誤區(qū)

舉個(gè)例子,當(dāng)有人告訴你說:”我設(shè)計(jì)了一個(gè)策略,并做了AB實(shí)驗(yàn)測試,上線之后,付費(fèi)轉(zhuǎn)化率從53%提升到55%,這個(gè)是非常顯著的提升效果“,你覺得這句話會有什么潛在的不夠嚴(yán)謹(jǐn)和科學(xué)問題?比如,53%到55%的提升,能否算的上是顯著的效果提升,有沒有可能僅僅是正常的數(shù)據(jù)波動;又比如對方是如何設(shè)計(jì)這個(gè)實(shí)驗(yàn)得到這個(gè)結(jié)論的,有沒有可能實(shí)驗(yàn)設(shè)計(jì)本身存在問題;

以下我總結(jié)一下常見的誤區(qū):

1. 實(shí)際數(shù)據(jù)提升并不顯著?

影響數(shù)據(jù)提升結(jié)論是否顯著的主要因素是你的實(shí)驗(yàn)的樣本量,比如如果你前面的結(jié)論,如果你的實(shí)驗(yàn)樣本量也就只有10個(gè),你說你提升了這么多,結(jié)論可靠嗎,顯然是不可靠的,但是如果你說你的樣本量AB組各有500萬用戶,那這可能是足夠顯著的;

從統(tǒng)計(jì)學(xué)的角度上看,如果你的樣本量不夠大,那你的數(shù)據(jù)指標(biāo)提升需要足夠大,才能稱得上顯著;如果你的樣本量足夠大,那么即使你的數(shù)據(jù)指標(biāo)提升并沒有那么大,也可能是顯著的;
那么當(dāng)樣本量一定的情況下,我的提升幅度需要到多少,才算顯著呢?統(tǒng)計(jì)學(xué)提供了一些工具,可以幫助大家解決這個(gè)問題,這個(gè)會在后續(xù)分享到;

2. 實(shí)驗(yàn)變量沒有統(tǒng)一

比如對方可能是基于時(shí)間的對比,例如同一個(gè)人群第一季度的平均付費(fèi)轉(zhuǎn)化率是53%,第二季度的平均轉(zhuǎn)化率是55%,那這樣可能是有問題的,因?yàn)榈谝患径群偷诙径?,時(shí)間本身就是一個(gè)不同的變量,有可能你不做這個(gè)策略,也能得到這幾個(gè)結(jié)果;所以你需要先證明這一點(diǎn),比如你說去年第一季度的數(shù)據(jù)和第二季度的數(shù)據(jù)是一樣的沒有發(fā)生變化,并且在這整個(gè)時(shí)間段里面,你并沒有做任何其他的事情;

3. 可能存在幸存者偏差

比如對方有可能實(shí)驗(yàn)組用了一個(gè)優(yōu)質(zhì)一點(diǎn)的人群,對照組用了一個(gè)普通的人群,這樣的話,提升效果自然是比較明顯,這種情況非常的常見,我們把這種問題,稱為幸存者偏差;

4. 實(shí)驗(yàn)人群分包不均勻,不夠隨機(jī)

即使你嚴(yán)格控制了人群的變量,比如實(shí)驗(yàn)組和對照組的人群條件都是最近7天活躍的用戶,然后假如你的用戶id是按照活躍時(shí)間從近到遠(yuǎn)排布的,而你并不知道,然后你按照順序從前到后分人群包,扎樣就可能導(dǎo)致實(shí)驗(yàn)組都是7天里面最近幾天活躍度的,而對照組里面都是后面幾天活躍的,所以你以為你控制變量了,實(shí)際上因?yàn)榉职痪鶆颍嬖趩栴};

三、如何科學(xué)的設(shè)計(jì)一門AB實(shí)驗(yàn)?

1. AB實(shí)驗(yàn)流程概括

AB實(shí)驗(yàn)的整個(gè)過程包括三部分:實(shí)驗(yàn)設(shè)計(jì)、實(shí)驗(yàn)分析、實(shí)驗(yàn)決策,其中各個(gè)部分的具體流程如下:

1.實(shí)驗(yàn)設(shè)計(jì):實(shí)驗(yàn)假設(shè)→實(shí)驗(yàn)指標(biāo)設(shè)計(jì)→設(shè)計(jì)實(shí)驗(yàn)方案(包括設(shè)定人群條件、最小提升目標(biāo)、樣本量)→配置實(shí)驗(yàn)(包括人群分組、AA空跑實(shí)驗(yàn)、上線配置)→數(shù)據(jù)回收;

2.實(shí)驗(yàn)分析:P值檢驗(yàn)→MDE(最小提升效果)檢驗(yàn);
3.實(shí)驗(yàn)決策:實(shí)驗(yàn)結(jié)論和決策、設(shè)置長期對照;

2. 設(shè)計(jì)AB實(shí)驗(yàn)的關(guān)鍵要點(diǎn)

1.合理的計(jì)算實(shí)驗(yàn)樣本量:實(shí)驗(yàn)的樣本量應(yīng)該達(dá)到多少才合適?

2.嚴(yán)格控制實(shí)驗(yàn)變量:如何控制實(shí)驗(yàn)變量?

3.實(shí)驗(yàn)人群分組足夠均勻和隨機(jī),確保“同質(zhì)”:如何分包均勻和確保隨機(jī)性?

4.實(shí)驗(yàn)結(jié)果是否顯著:如何判斷數(shù)據(jù)提升是否顯著?

3. 從0到1實(shí)戰(zhàn)完成一個(gè)AB實(shí)驗(yàn)

接下來我們以如下的一個(gè)實(shí)驗(yàn)場景為例,對比在引導(dǎo)用戶打開APP PUSH通知開關(guān)場景是,圖片彈窗和文字彈窗兩種彈窗方式,哪種的點(diǎn)擊率更好為例,設(shè)計(jì)一門AB實(shí)驗(yàn):

3.1 實(shí)驗(yàn)假設(shè)

從電商行業(yè)的經(jīng)驗(yàn),我們了解到,對于營銷類的場景,圖片彈窗的效果會比文字彈窗的效果會更好,但是考慮到我們的運(yùn)用場景是一個(gè)引導(dǎo)用戶打開PUSH開關(guān)的功能性的場景,用戶會不會對文字類型的彈窗有更高的接受度和點(diǎn)擊欲望,反而圖片型彈窗因?yàn)榇嬖跔I銷嫌疑,用戶反而不想點(diǎn)擊,所以我們的假設(shè)是對于該場景:文字彈窗的點(diǎn)擊效果會明顯比圖片彈窗的好;

3.2 實(shí)驗(yàn)指標(biāo)設(shè)計(jì)

假設(shè)我們用于衡量實(shí)驗(yàn)效果的關(guān)鍵指標(biāo)選擇點(diǎn)擊“去開啟”按鈕的點(diǎn)擊率,也就是按鈕點(diǎn)擊量/彈窗的曝光量,當(dāng)然,實(shí)際情況下,可能我們不僅僅只是關(guān)注這個(gè)指標(biāo),可能還需要關(guān)注后續(xù)鏈路的指標(biāo),但是這里為例避免過于復(fù)雜,讓大家更聚焦在實(shí)驗(yàn)流程本身,我們只設(shè)定這個(gè)關(guān)鍵指標(biāo);

3.3 設(shè)計(jì)實(shí)驗(yàn)方案

接下來,我們需要設(shè)計(jì)一下AB實(shí)驗(yàn)的方案,例如以下我們設(shè)計(jì)了行動組A和對照組B兩個(gè)實(shí)驗(yàn)組,用于實(shí)驗(yàn)對比,具體設(shè)計(jì)實(shí)驗(yàn)方案的步驟如下:

步驟1:設(shè)定實(shí)驗(yàn)組數(shù)量和人群條件,比如這次我們涉及2組實(shí)驗(yàn),實(shí)驗(yàn)人群比如我們選擇最近7天活躍的用戶,這個(gè)環(huán)節(jié)切記行動組和對照組的人群條件一定要一致,保持實(shí)驗(yàn)只有彈窗樣式這一個(gè)變量

步驟2:設(shè)定一個(gè)行動組預(yù)期的最小效果提升目標(biāo)(MDE),比如預(yù)期點(diǎn)擊率最小的提升目標(biāo)是提升10%,預(yù)計(jì)點(diǎn)擊率提升到5.5%,比對照組圖片型彈窗點(diǎn)擊率提升5%;設(shè)定MDE的時(shí)候,主要根據(jù)業(yè)務(wù)的預(yù)期來自己判斷

步驟3:預(yù)估實(shí)驗(yàn)最小樣本量,也就是說,如果我要達(dá)到10%的提升幅度,且該提升幅度可以認(rèn)定為顯著提升,我的實(shí)驗(yàn)組樣本量最低需要到多少;如果實(shí)驗(yàn)樣本量過低,則實(shí)驗(yàn)最后的結(jié)果可能不合理,但是究竟樣本量設(shè)計(jì)多少才比較合適,該問題在統(tǒng)計(jì)學(xué)上是有相應(yīng)的計(jì)算公式的,但是我們這里不需要太去深究,我們直接使用一個(gè)現(xiàn)成的工具來計(jì)算就好;個(gè)人推薦的工具如下工具:https://www.evanmiller.org/ab-testing/sample-size.html,根據(jù)這個(gè)工具可以計(jì)算到,如果點(diǎn)擊率要從5%提升到5.5%并目表現(xiàn)為顯著提升,則該實(shí)驗(yàn)每組實(shí)驗(yàn)組需要的最小樣本量是30244,假設(shè)用戶從實(shí)驗(yàn)投放,到曝光彈窗的曝光率是10%,那就意味著你的每個(gè)實(shí)驗(yàn)組需要的用戶量至少是302440以上,因此,我們在提取人群包的時(shí)候,每個(gè)實(shí)驗(yàn)組至少需要一個(gè)30萬左右的人群包;

3.4 配置實(shí)驗(yàn)

設(shè)計(jì)好方案之后,接著就是按照實(shí)驗(yàn)方案取人群包,以及配置AB實(shí)驗(yàn),通常這樣的配置需要搭配一個(gè)AB實(shí)驗(yàn)平臺,或者是企業(yè)內(nèi)部的推送管理后臺,用于控制觸達(dá)渠道的分發(fā),配置實(shí)驗(yàn)的具體步驟如下:

步驟1:根據(jù)人群條件跑人群包,通過切包工具切分人群,構(gòu)建兩個(gè)實(shí)驗(yàn)組的人群包,對于中小企業(yè)而言,可能不一定有相應(yīng)的切包工具,個(gè)人分享一個(gè)常用的切包工具(公眾號回復(fù)關(guān)鍵詞“切包工具”后領(lǐng)取),切包工具主要用于解決切人群包的時(shí)候的隨機(jī)性問題,如果切包不均勻,可能會導(dǎo)致兩個(gè)實(shí)驗(yàn)組的人群包不同質(zhì),會影響最后實(shí)驗(yàn)的結(jié)果的準(zhǔn)確性;

步驟2:AA空跑實(shí)驗(yàn),空跑實(shí)驗(yàn)的意思是設(shè)計(jì)一個(gè)空跑周期,兩個(gè)人群都不做任何動作,看兩個(gè)人群的數(shù)據(jù)表現(xiàn)是否一致,比如可以看著這兩個(gè)人群自然打開push開關(guān)的數(shù)據(jù)情況;空跑實(shí)驗(yàn)的目的,是用于檢驗(yàn)?zāi)愕膬蓚€(gè)實(shí)驗(yàn)組,是否真的足夠隨機(jī)和同質(zhì),可以提前排除實(shí)驗(yàn)人群不同質(zhì)導(dǎo)致的對實(shí)驗(yàn)結(jié)果的影響;

步驟3:創(chuàng)建實(shí)驗(yàn)和上線配置實(shí)驗(yàn),按照實(shí)驗(yàn)方案的設(shè)計(jì),對行動組A人群采用文字彈窗,對對照組B人群采用圖片彈窗,并實(shí)驗(yàn)運(yùn)行一段周期;

3.5 回收數(shù)據(jù)

實(shí)驗(yàn)周期結(jié)束之后,開始回收兩個(gè)實(shí)驗(yàn)組的效果數(shù)據(jù)情況,假如我們最后回收的數(shù)據(jù)表現(xiàn)如下:實(shí)際回收的數(shù)據(jù),行動組A的點(diǎn)擊率是5.4%,對照組的點(diǎn)擊率是5.0%,點(diǎn)擊率提升幅度8%;那么對于這個(gè)提升結(jié)果,我們應(yīng)該如何去看待,接下來我們看如下實(shí)驗(yàn)結(jié)果分析部分內(nèi)容;

3.6 實(shí)驗(yàn)結(jié)果分析

對于最終的實(shí)驗(yàn)結(jié)果,我們需要評估的是該實(shí)驗(yàn)的提升效果是否顯著,以下我們通過P值和MDE兩個(gè)維度判斷:

1.計(jì)算該實(shí)驗(yàn)結(jié)果的P值,如果P值<5%,則該實(shí)驗(yàn)的提升結(jié)果顯著;我們通過https://www.evanmiller.org/ab-testing/chi-squared.html 這個(gè)在線工具統(tǒng)計(jì)一下目前實(shí)驗(yàn)結(jié)果的P值如何,如下計(jì)算可得該實(shí)驗(yàn)結(jié)果下統(tǒng)計(jì)的P值是2.7%,低于5%,則可以說明該實(shí)驗(yàn)的提升結(jié)果是顯著的,文字彈窗的效果明顯比圖片彈窗效果更好;

2.如果計(jì)算P值>5%,接下來需要對比一下提升幅度和原來我們設(shè)定的最小效果提升目標(biāo)(MDE)的關(guān)系;
假如實(shí)際提升幅度大于最小提升效果目標(biāo),則說明實(shí)際提升比我們的預(yù)期還好,則可能需要再重新加大實(shí)驗(yàn)樣本量,然后繼續(xù)實(shí)驗(yàn)觀察;假如實(shí)際提升幅度小于最小提升效果目標(biāo),則說明該提升結(jié)果確實(shí)不顯著,實(shí)驗(yàn)結(jié)束;

3.7 實(shí)驗(yàn)決策

1.實(shí)驗(yàn)結(jié)論和決策

AB實(shí)驗(yàn)的最終目的是決策,通過實(shí)驗(yàn)之后,你的產(chǎn)品和運(yùn)營策略最終選擇使用什么方案,這是實(shí)驗(yàn)應(yīng)該帶給你的結(jié)論;
以我們前面的實(shí)驗(yàn)為例,我們可以發(fā)現(xiàn),采用文本彈窗的觸達(dá)效果,可能對于提升用戶APP PUSH開關(guān)打開率的效果更好,所以那么我們應(yīng)該放量更多的用戶通過文本彈窗的方式觸達(dá);

2.設(shè)置長期對照實(shí)驗(yàn)

但是到此實(shí)驗(yàn)并不是就結(jié)束了,最后我們還是需要保留一個(gè)長期對照組用于持續(xù)的觀測對比效果,因?yàn)槎唐诘膶?shí)驗(yàn)結(jié)果,不一定會是長期的結(jié)果,所以我們需要保持觀察,因此這時(shí)候建議設(shè)置一個(gè)長期對照實(shí)驗(yàn)就有必要,比如你可以90%的用戶全部使用文本彈窗,然后剩余的10%,各設(shè)置5%vs 5%,用戶持續(xù)對比兩種彈窗樣式的效果,以觀測實(shí)驗(yàn)提升的情況;
設(shè)置對照是運(yùn)營和產(chǎn)品衡量自己的策略是否有產(chǎn)生價(jià)值的重要的方式,甚至在字節(jié)等大廠,還會設(shè)置好一個(gè)全局對照,預(yù)留一部分用戶什么策略都不要觸達(dá),去對比業(yè)務(wù)經(jīng)過一系列動作之后和什么策略都不做的人群的效果對比如何;

四、學(xué)會科學(xué)設(shè)計(jì)AB實(shí)驗(yàn)有什么好處?

1. 避免陷入自以為是的錯(cuò)誤決策,減少試錯(cuò)成本;

現(xiàn)實(shí)的企業(yè)決策里面,有些人習(xí)慣憑感覺拍腦袋決策的,這種顯然不太可取,不過也存在一部分人知道不能拍腦袋決策,他們知道應(yīng)該要做實(shí)驗(yàn)嘗試,但是往往因?yàn)閷?shí)驗(yàn)的方法不對,最終得到了錯(cuò)誤的實(shí)驗(yàn)結(jié)果,然后他們會拿著實(shí)驗(yàn)數(shù)據(jù)跟別人說:“這事我們實(shí)驗(yàn)測試過,這樣做是能有效提升的”,但是最終可能全量上線策略的時(shí)候,并沒有看到顯著的效果差異;

AB實(shí)驗(yàn)最終的目標(biāo)是要帶來實(shí)際的效果的提升的,如果因?yàn)閷?shí)驗(yàn)方式不對,導(dǎo)致按照錯(cuò)誤的決策執(zhí)行,并不能給業(yè)務(wù)帶來最終想要的效果;

2. 學(xué)會更加嚴(yán)謹(jǐn)?shù)目创龑?shí)驗(yàn)結(jié)果,洞察數(shù)據(jù)結(jié)論背后的隱藏條件,避免被不嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)結(jié)論誤導(dǎo);

當(dāng)你知道一個(gè)嚴(yán)格的AB實(shí)驗(yàn)的要求之后,如果有人告訴你“我做了一個(gè)策略,讓我們轉(zhuǎn)化率提升10%,提升效果很明顯”這個(gè)結(jié)論,你可能不會一下子就反應(yīng)覺得“哇,10%好像很厲害的樣子”,反而你會首先思考如下幾個(gè)問題:

  1. 10%是一個(gè)顯著的提升嗎?按照你的實(shí)驗(yàn)結(jié)果,最終的P值是多少?
  2. 你的實(shí)驗(yàn)樣本量是多少?你不會就只實(shí)驗(yàn)了幾個(gè)用戶就得到這個(gè)結(jié)論吧!
  3. 你的行動組和對照組怎么設(shè)計(jì)的,你怎么確保兩個(gè)實(shí)驗(yàn)組的人群是足夠同質(zhì)的?
  4. 你是如何控制這兩個(gè)實(shí)驗(yàn)組不被其他策略影響的?

如果一個(gè)實(shí)驗(yàn)結(jié)論是草率的得出來的,對方基本上無法很好的回答你以上的問題,說明對方根本不知道如何做一個(gè)科學(xué)的AB實(shí)驗(yàn),那么對于他的結(jié)論,你可以認(rèn)為并不太靠譜;而對于能夠充分的解釋以上問題,并且還能告訴你具體的數(shù)據(jù)以及實(shí)驗(yàn)方法,那么對方的結(jié)論則是有更高的可信度的;

3.學(xué)會通過數(shù)據(jù)科學(xué)決策,形成個(gè)人和企業(yè)的決策習(xí)慣和文化

AB實(shí)驗(yàn)是一門通過數(shù)據(jù)科學(xué)決策的思維,學(xué)會AB實(shí)驗(yàn)之后,可以形成自己個(gè)人判斷和決策的方式習(xí)慣,同時(shí)這種方式也可以作為企業(yè)做決策的一種方式和文化,凡是決策不了的問題,那就AB實(shí)驗(yàn)一下吧;

五、AB實(shí)驗(yàn)中如何解決實(shí)驗(yàn)分流問題?

1. 如何實(shí)現(xiàn)實(shí)驗(yàn)人群的分流?

通過“分桶”方式實(shí)現(xiàn)單層分流

通常做一個(gè)實(shí)驗(yàn)可能不止需要2組實(shí)驗(yàn)人群,有時(shí)候可能需要比如10組,那么這個(gè)時(shí)候,我們需要對一個(gè)人群做一個(gè)切割,比如我的目標(biāo)人群有100萬,平均分配成10組,每組10萬,這就是最簡單的分桶的邏輯,也很好理解;業(yè)務(wù)發(fā)展的初期,通常實(shí)驗(yàn)量也不多,通過簡單的分桶的方式基本能滿足業(yè)務(wù)的需求,其中需要重視的是不同分桶人群需要保證必須是隨機(jī)的,并且不同分桶之間不相交,確保他們在統(tǒng)計(jì)上是相似且具備可比較的;

單層分流的局限是實(shí)驗(yàn)用戶無法重復(fù)利用

但是這里顯然會存在一個(gè)問題,假如你針對這一波人群,還需要同時(shí)做3個(gè)不一樣的實(shí)驗(yàn),而且每個(gè)實(shí)驗(yàn)都需要10組,如果采用簡單分桶的方式,你需要將這100萬切分成40個(gè)分組,每組只有2.5萬用戶,最后可能會導(dǎo)致實(shí)驗(yàn)樣本量不夠,那么你就無法在同一時(shí)間進(jìn)行多個(gè)實(shí)驗(yàn);這個(gè)問題,我們通過第二部分分層的方式解決;

通過散列算法確保不同分桶人群的隨機(jī)性

不同分桶人群的隨機(jī)性,通常是通過散列算法來實(shí)現(xiàn)的,常用的散列算法包括MD、SHA、JDB等,不過這些對于產(chǎn)品經(jīng)理和運(yùn)營人員等而言相對過于復(fù)雜,我們也不需要過多去研究,只需要知道這個(gè)概念,如果企業(yè)內(nèi)有專業(yè)的數(shù)據(jù)分析師,可以讓數(shù)據(jù)分析師處理,或者也可以使用一些現(xiàn)成的切包工具,比如前面提到的直接切分人群,這些工具的切分原理也是基于這些散列算法實(shí)現(xiàn)的;

2. 如何提高實(shí)驗(yàn)人群的利用率,在同一時(shí)間做大量的實(shí)驗(yàn)?

用“分層”的方式提高實(shí)驗(yàn)人群利用率

和桶不同的是,層的概念是用于提高同一撥實(shí)驗(yàn)人群的利用率,讓你可以在同一撥人群里面做很多的實(shí)驗(yàn),并且不同的實(shí)驗(yàn)之間能夠相互不影響,確保每個(gè)實(shí)驗(yàn)中的實(shí)驗(yàn)組都是只有一個(gè)變量;

通過分層的方式,可以在同一撥人群基礎(chǔ)上建立出很多的實(shí)驗(yàn)分層,并且同一個(gè)用戶可以出現(xiàn)在不同的分層里面,這樣不同的分層就可以做不同的實(shí)驗(yàn),并且能夠確保不同的分層之間是互不影響的;

那么這里你必然會疑惑,不同的分層之間是如何實(shí)現(xiàn)互不影響的?我們通過如下這張圖可以看到,每一個(gè)實(shí)驗(yàn)層的分一個(gè)分桶的人群,都會平均的分配到另一個(gè)實(shí)驗(yàn)層的每一個(gè)分桶的人群,這樣的話就可以確保一個(gè)實(shí)驗(yàn)層的人群,基本所有分桶的人群都具備其他實(shí)驗(yàn)分層的策略,因此同一個(gè)分層的不同分桶之間,是基本同質(zhì),不受其他實(shí)驗(yàn)影響的;

3. 如何實(shí)現(xiàn)實(shí)驗(yàn)人群的隔離?

用“分域”的方式實(shí)現(xiàn)實(shí)驗(yàn)人群隔離

前面我們講到分層的邏輯,是把每一分層里的每一個(gè)分桶的人群平均分配到下一個(gè)實(shí)驗(yàn)層的不同分桶,但是這個(gè)方式最好是確保同一個(gè)分層里面只有同一類用戶,比如都是青銅等級的用戶,這樣把一個(gè)分桶平均分配到下一層的時(shí)候,下一層的每個(gè)分桶的用戶都是同質(zhì)的,但是如果一個(gè)實(shí)驗(yàn)分層的里的人群出現(xiàn)了兩個(gè)不同的人群,比如既有青銅等級的用戶,又有白銀等級的用戶,那么在平均分配的時(shí)候可能就出現(xiàn)問題,會導(dǎo)致下一個(gè)分層里,一部分分桶分配了青銅用戶,一部分分配了白銀用戶,這樣下一個(gè)分層不同分桶的用戶就會出現(xiàn)明顯的不同質(zhì),分層的效果就會失效;

因此,面對不同的實(shí)驗(yàn)人群,比如不同的用戶等級、不同的活躍度等維度的用戶,我們需要通過“分域”的方式,將不同的人群隔離開,比如青銅、白銀、黃金等級的用戶分別在不同的實(shí)驗(yàn)域,讓不同的人群在不同的域中進(jìn)行實(shí)驗(yàn),這樣才能確保實(shí)驗(yàn)之間不相互影響;

4. 桶、層、域之間的關(guān)系總結(jié)

1.域的作用是隔離人群還有實(shí)驗(yàn),確保不同實(shí)驗(yàn)在不同實(shí)驗(yàn)人群上的影響互不干擾,因此域是通過區(qū)分人群來實(shí)現(xiàn)隔絕分流的,不同的域代表不同的人群;

2.層屬于域的一部分,一個(gè)域內(nèi)可以有多個(gè)分層;層的作用是實(shí)現(xiàn)該域內(nèi)同一個(gè)實(shí)驗(yàn)人群,可以同時(shí)做多個(gè)實(shí)驗(yàn),但是不管你怎么分層,最終只會作用到該域下的同一個(gè)實(shí)驗(yàn)人群;

3.桶屬于層的一部分,一個(gè)層內(nèi)可以用多個(gè)分桶,分桶的作用將該層的用戶實(shí)現(xiàn)切分分流,用于創(chuàng)建不同的實(shí)驗(yàn)組;

5. 桶、層、域的應(yīng)用

桶、層、域是實(shí)際在AB實(shí)驗(yàn)運(yùn)行的過程中會遇到的問題的解決方案,這些概念,是解決AB實(shí)驗(yàn)問題的思路和方案,同時(shí)可以將這些方案設(shè)計(jì)到AB實(shí)驗(yàn)的系統(tǒng)里面,目前市面上很多AB實(shí)驗(yàn)的系統(tǒng),都會對以上的概念有所體現(xiàn),將桶、層、域的概念融入創(chuàng)建AB實(shí)驗(yàn)的流程中;當(dāng)然,對于運(yùn)營人員和產(chǎn)品經(jīng)理來說,我們也可以不需要太深入的了解他們,這部分屬于設(shè)計(jì)AB實(shí)驗(yàn)系統(tǒng)的數(shù)據(jù)人員需要重點(diǎn)了解的,只是如果我們能理解他們的關(guān)系,這會更加有利于幫助自己快速的理解和使用實(shí)驗(yàn)系統(tǒng)。

六、并不是所有的產(chǎn)品和業(yè)務(wù)都需要做AB實(shí)驗(yàn)

在很多大廠的產(chǎn)品業(yè)務(wù),為什么大家都提倡要做AB實(shí)驗(yàn)?

一方面是因?yàn)檫@些產(chǎn)品的用戶體量較大,隨便一個(gè)策略的改動,影響的可能都是大規(guī)模的用戶,一旦策略失誤,造成的損失就不小,所以為了控制影響,大家更傾向于拿一小部分用戶先驗(yàn)證測試策略,得到實(shí)驗(yàn)結(jié)論之后再放大策略的灰度量,這樣即使策略是無效的也不會造成太大的影響;

另一方面大廠的產(chǎn)品,由于用戶體量較高,一個(gè)策略落地之后,不一定能夠顯而易見的看到數(shù)據(jù)變化,感知到策略帶來的影響,即使能感知到,也不一定能歸因定位到是哪個(gè)策略發(fā)揮了效果;基于以上兩點(diǎn),所以AB實(shí)驗(yàn)就非常重要;

然而,并不是所有的產(chǎn)品和業(yè)務(wù)都需要嚴(yán)格的去做AB實(shí)驗(yàn),AB實(shí)驗(yàn)更加適用于規(guī)模相對較高的產(chǎn)品及業(yè)務(wù),數(shù)據(jù)指標(biāo)即使是檢測到較小的變化,也能夠帶來較大的價(jià)值貢獻(xiàn);例如像淘寶等產(chǎn)品,轉(zhuǎn)化率哪怕只是提升0.5%,營收規(guī)模的增長可能都會超過1個(gè)億;

而對于用戶規(guī)模很小,業(yè)務(wù)發(fā)展還不成熟的產(chǎn)品,隨便一個(gè)優(yōu)化策略可能都能帶來明顯的效果提升,則建議別花太多時(shí)間研究AB實(shí)驗(yàn),保持快速的策略迭代,在迭代的過程中,快速驗(yàn)證效果,這樣的方式,實(shí)際上是通過對比不同時(shí)間段的策略的方式在做AB實(shí)驗(yàn),雖然不太嚴(yán)謹(jǐn),但對于小產(chǎn)品而言,實(shí)驗(yàn)策略有沒有效果,通常是顯而易見的,也容易快速的歸因;

作者:三白有話說,公眾號:三白有話說

本文由 @三白有話說 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 寫得好誒,之前只聽說多鄰國AB測試做得好,我沒系統(tǒng)研究過,總算看到一篇不錯(cuò)的好帖子

    來自浙江 回復(fù)
    1. 謝謝呀

      來自廣東 回復(fù)