復(fù)盤:從 0 到 1 設(shè)計 A/B測試系統(tǒng)

Way
3 評論 12685 瀏覽 125 收藏 29 分鐘

寫本文的主要目的在于希望能將理論和實(shí)際產(chǎn)品設(shè)計結(jié)合得更加緊密,幫助大家抓住設(shè)計的重點(diǎn),對于比較深入的統(tǒng)計學(xué)原理不會過多涉及,僅用于輔助理解系統(tǒng),如有深入學(xué)習(xí)興趣的讀者可自行研究。

不知不覺拖更了好久,后臺被催更了好幾次,前陣子比較忙,在給某四大銀做一個私有化的系統(tǒng),再次實(shí)踐后又對相關(guān)系統(tǒng)有了新的認(rèn)知,趁著熱乎這期就先來講講 A/B測試系統(tǒng)吧。

雖然目前已順利上線投產(chǎn),但回想當(dāng)初實(shí)在找了很多資料,包括書籍論文、相關(guān)產(chǎn)品使用資料,以及產(chǎn)品和開發(fā)者社區(qū)。資料雖然不少,但還是存在2 大問題,要么過于理論化以至于難以實(shí)操落地,要么就是過于靠近產(chǎn)品功能的介紹以至于對于產(chǎn)品背后的邏輯理解得不夠深刻,整體都不夠體系化(畢竟要深入和體系化講解篇幅是很長的,這事就交給我吧)。

因此筆者希望本文能對此有個補(bǔ)充,寫本文的主要目的在于希望能將理論和實(shí)際產(chǎn)品設(shè)計結(jié)合得更加緊密,幫助大家抓住設(shè)計的重點(diǎn),對于比較深入的統(tǒng)計學(xué)原理不會過多涉及,僅用于輔助理解系統(tǒng),如有深入學(xué)習(xí)興趣的讀者可自行研究。

當(dāng)然,因?yàn)楣P者現(xiàn)在做的是saas產(chǎn)品,所以在產(chǎn)品形態(tài)上是一個 saas系統(tǒng)模塊,讀完如覺得筆者理解不到位或偏頗之處,歡迎指教。

01 全文內(nèi)容概要

說實(shí)在的,寫這么一篇文肯定篇幅會比較長,所以對全文內(nèi)容做個基本介紹還是比較有必要的。

對于互聯(lián)網(wǎng)人而言,A/B 測試應(yīng)該耳熟能詳,即使沒用過絕大部分也聽過,但正常來說如果沒接觸過,很多人的理解可能仍停留在初中生物時學(xué)到的“對比實(shí)驗(yàn)”。因此先介紹系統(tǒng)背后的基礎(chǔ)原理還是十分必要的,也能幫助大家更好地理解系統(tǒng)設(shè)計背后的目的所在,全文展開的節(jié)奏如下:

  1. 介紹 A/B 測試背后的統(tǒng)計學(xué)原理和試驗(yàn)流程,拋出系統(tǒng)的定位,幫助大家理解系統(tǒng)設(shè)計的目標(biāo);
  2. 結(jié)合對 3 大類涉及 A/B測試功能產(chǎn)品的調(diào)研,對背后不變的產(chǎn)品邏輯和系統(tǒng)架構(gòu)進(jìn)行抽象總結(jié),幫助大家明確各個關(guān)鍵模塊及作用;
  3. 在設(shè)計系統(tǒng)各個關(guān)鍵模塊時,需要重點(diǎn)考慮的地方,屬于落地實(shí)操部分,幫助大家看完后能知道應(yīng)該具體該怎么開始設(shè)計。

02 A/B測試背后的統(tǒng)計學(xué)原理

1. 基礎(chǔ)統(tǒng)計學(xué)概念

某度對于統(tǒng)計學(xué)的定義是:

統(tǒng)計學(xué)是通過搜索、整理、分析、描述數(shù)據(jù)等手段,以達(dá)到推斷所測對象的本質(zhì),甚至預(yù)測對象未來的一門綜合性科學(xué)。

聯(lián)系到A/B測試,其實(shí)它就是通過先對部分用戶設(shè)置不同的方案,并進(jìn)一步對不同方案的數(shù)據(jù)進(jìn)行分析,從而去推測哪個方案在全量發(fā)布后效果是更優(yōu)的,在這個過程中有必要介紹下幾個基礎(chǔ)的統(tǒng)計學(xué)概念。下面以一個 case 為例來說明,假設(shè)現(xiàn)在希望看下改變按鈕顏色能否提高落地頁中的按鈕點(diǎn)擊率,在這個試驗(yàn)中涉及:

  1. 總體:落地頁的全部訪客,不僅包括試驗(yàn)時訪問的那些,也包括后續(xù)訪問網(wǎng)頁的,綠色按鈕、紅色按鈕分別對應(yīng) 2 個總體;
  2. 樣本:在訪問時隨機(jī)分配了不同顏色按鈕的訪客,對應(yīng)顏色的按鈕分別對應(yīng)著一個樣本,這些樣本是總體經(jīng)過抽樣產(chǎn)生的,通常在統(tǒng)計中只有樣本量足夠大,才能更好地確保實(shí)驗(yàn)結(jié)論的有效性,所以 A/B測試系統(tǒng)會提供樣本量計算器,告訴用戶試驗(yàn)應(yīng)該達(dá)多少樣本量或運(yùn)行多行時間才能得出相對有效的結(jié)論;
  3. 抽樣:有多種抽樣方法,包括簡單隨機(jī)抽樣(有放回抽樣、無放回抽樣)、分群抽樣、分層抽樣,核心是要在隨機(jī)原則下從總體取出樣本,并且具有代表性(樣本能夠代表總體);
  4. 總體參數(shù):描述總體特征的參數(shù),在示例中是按鈕點(diǎn)擊率
  5. 統(tǒng)計量:樣本統(tǒng)計計算后得到的統(tǒng)計數(shù)值,在示例中是樣本的點(diǎn)擊率;
  6. 參數(shù)評估:指用樣本統(tǒng)計量來估計總體參數(shù),這里我們通過對比試驗(yàn)的2 個樣本間的數(shù)據(jù),從而評估方案調(diào)整后針對全部用戶的效果。常有包括點(diǎn)估計和區(qū)間估計 2 種方式,一般我們使用的是后者。這也很好理解,當(dāng)我們統(tǒng)計出樣本的點(diǎn)擊率是 20%,如果這時候說確定采用點(diǎn)擊率更高的按鈕顏色后,點(diǎn)擊率大概是20%,這便是點(diǎn)估計,顯然它的誤差是非常大的,所以我們在估計是會給出總體參數(shù)的一個概率范圍,即有多大的可能落在某個范圍,比如說有 90%的可能提升 10%~20%,顯然這樣的估計就會更加準(zhǔn)確科學(xué),通常我們稱之為“置信區(qū)間”,這個區(qū)間的計算有一定的方法,大部分 A/B測試系統(tǒng)都會給用戶提供這個參數(shù)以供參考。

2. 假設(shè)檢驗(yàn)試驗(yàn)

結(jié)合上文提到的落地頁按鈕點(diǎn)擊率試驗(yàn),假如現(xiàn)在通過一周的試驗(yàn),我們發(fā)現(xiàn)綠色按鈕比紅色按鈕的點(diǎn)擊率更高,但事實(shí)真的是這樣嗎?

不,其實(shí)我們提出的只是一個基于試驗(yàn)樣本的“假設(shè)”,但我們其實(shí)更想知道的是“總體參數(shù)”,當(dāng)所有按鈕都改為綠色后,最終針對所有用戶所統(tǒng)計到的結(jié)果也不一定就是我們在試驗(yàn)中得出的結(jié)論。

所以,為了提升結(jié)論的可靠性,我們會基于對這個“假設(shè)”進(jìn)行“檢驗(yàn)”,看看這個“假設(shè)”在應(yīng)用到“總體”時是否靠譜。

怎樣檢驗(yàn)?zāi)兀?/strong>

統(tǒng)計學(xué)提出了它的解決方案:小概率反證法,即統(tǒng)計學(xué)中認(rèn)為小概率的事件很難發(fā)生,我們只需證明某個假設(shè)發(fā)生的概率小于某個值(通常取 0.05),這個值在統(tǒng)計學(xué)中稱為顯著性水平,如果概率小于這個顯著性水平,我們可判斷為這個試驗(yàn)在統(tǒng)計上是顯著的,就可以有一定的把握認(rèn)為這個假設(shè)不會發(fā)生,大部分 A/B測試系統(tǒng)都會給用戶提供這個參數(shù)以供參考。

通常情況下,在進(jìn)行試驗(yàn)時我們往往并不知道新提出的方案對于原方案而言是好是壞,所以我們常常假設(shè)“原方案(對照組)”和“新方案(控制組)”是沒有差異的,當(dāng)我們證明這個假設(shè)小于顯著性水平時,就可以有一定把握可以說原方案與新方案是有差異的,結(jié)合樣本數(shù)據(jù)結(jié)果我們就可以獲得一個相對可行的試驗(yàn)結(jié)論。

PS:上面介紹到的原理部分,為降低理解成本,沒有對統(tǒng)計學(xué)背后的一些更底層的數(shù)學(xué)原理進(jìn)行說明,也沒有對假設(shè)檢驗(yàn)中的基礎(chǔ)概念做解釋,比如原假設(shè)與備擇假設(shè)、棄真與取偽錯誤、單側(cè)與雙側(cè)檢驗(yàn)等,有興趣的讀者可自行了解

小結(jié)

AB測試系統(tǒng)只是站在上述理論的基礎(chǔ)上進(jìn)行了產(chǎn)品化,有了理論基礎(chǔ),我們才能夠在系統(tǒng)中通過各個功能去確保試驗(yàn)的有效性,簡單的對應(yīng)關(guān)系:

  • 抽樣:系統(tǒng)需提供科學(xué)的分流算法來確保試驗(yàn)有效性;
  • 統(tǒng)計量:系統(tǒng)需要建設(shè)好基礎(chǔ)的數(shù)據(jù)埋點(diǎn)和數(shù)據(jù)統(tǒng)計能力,才能完成統(tǒng)計量的計算;
  • 假設(shè):系統(tǒng)需提供試驗(yàn)方案的編輯管理能力,讓用戶能夠創(chuàng)建不同的試驗(yàn)方案,從而形成試驗(yàn)假設(shè);
  • 置信區(qū)間、統(tǒng)計顯著:系統(tǒng)在提供試驗(yàn)樣本統(tǒng)計量數(shù)據(jù)外,還需基于試驗(yàn)統(tǒng)計量類型,基于不同的檢驗(yàn)計算方法去計算出統(tǒng)計指標(biāo),通常為置信區(qū)間以及試驗(yàn)是否統(tǒng)計顯著。

03 系統(tǒng)核心業(yè)務(wù)流程

AB測試系統(tǒng)核心的業(yè)務(wù)流程當(dāng)然是圍繞試驗(yàn)的設(shè)計和分析進(jìn)行的,同時筆者調(diào)研了業(yè)界多個 AB測試產(chǎn)品,各家產(chǎn)品在使用流程上也相差無幾。但不同的產(chǎn)品也提供了一定的方法來提升流程的效率,在設(shè)計時需要多考慮系統(tǒng)應(yīng)該通過提供什么樣的能力來支撐這個業(yè)務(wù)流程,以及怎樣才能夠幫助提升流程效率,幫助運(yùn)營者更快更準(zhǔn)確地得出結(jié)果。

復(fù)盤:從 0 到 1 設(shè)計A/B 測試系統(tǒng)

業(yè)務(wù)流程圖

結(jié)合一個具體 case來說上述業(yè)務(wù)流程,還是采用上文的例子,現(xiàn)在是希望提升落地頁的按鈕點(diǎn)擊率。

  • 確定改進(jìn)點(diǎn):按鈕樣式;
  • 設(shè)計不同方案:設(shè)計了綠色和紅色 兩套方案;
  • 確定衡量指標(biāo):按鈕點(diǎn)擊率;
  • 配置試驗(yàn):配置按鈕顏色為綠色、紅色共兩套落地頁;
  • 分析試驗(yàn)數(shù)據(jù):對比哪個方案的按鈕點(diǎn)擊率更高,是否統(tǒng)計上是顯著的;
  • 如果發(fā)現(xiàn)紅色按鈕比原來綠色按鈕的點(diǎn)擊率還差,則可決定中止試驗(yàn)不繼續(xù)優(yōu)化,或更改為其他顏色繼續(xù)試驗(yàn);
  • 如果發(fā)現(xiàn)紅色按鈕和設(shè)想一樣比原來綠色按鈕的點(diǎn)擊率更好,則可考慮將按鈕顏色徹底改為紅色。

04 系統(tǒng)目標(biāo)

在設(shè)計系統(tǒng)時,我們通常會先定義系統(tǒng)目標(biāo)并拆分階段重點(diǎn),讀過 google 相關(guān)論文的讀者也會發(fā)現(xiàn) google也結(jié)合自己的情況給出了系統(tǒng)的目標(biāo):

  • 更多:google數(shù)據(jù)驅(qū)動的文化使其對試驗(yàn)運(yùn)行數(shù)量的要求比較高,要求系統(tǒng)能夠支持同時運(yùn)行更多的實(shí)驗(yàn);
  • 更快:簡單便捷地創(chuàng)建試驗(yàn);
  • 更好:能夠去規(guī)避無效實(shí)驗(yàn)的運(yùn)行、、發(fā)現(xiàn)有效但不好的試驗(yàn)、能夠提供標(biāo)準(zhǔn)的衡量維度確保對比是有效的。

筆者在設(shè)計自家系統(tǒng)時則定義如下:

(1)要能確保試驗(yàn)有效性

  • 確保試驗(yàn)有效運(yùn)行:確保分流規(guī)則、統(tǒng)計指標(biāo)計算規(guī)則是科學(xué)的;
  • 讓用戶確保試驗(yàn)有效:引導(dǎo)用戶確保樣本量符合要求或提供樣本量計算工具、提供置信區(qū)間和統(tǒng)計顯著性指標(biāo)輔助用戶進(jìn)行判斷。

(2)能支撐到更多有需要的試驗(yàn)場景

  • 讓試驗(yàn)進(jìn)行得更快速;
  • 能夠幫助用戶更快地得出結(jié)論(意味著不用耗費(fèi)更多流量):部分系統(tǒng)提供 MAB算法自動分配各個版本的流量,幫助用戶簡化分析的過程,并在得出優(yōu)勝版本能夠自動全量應(yīng)用。

(3)更便捷快速地完成配置

指使用者能夠有較低的使用和學(xué)習(xí)成本,A/B測試本身需要比較專業(yè)的背景知識,在互聯(lián)網(wǎng)企業(yè)內(nèi)部往往是增長團(tuán)隊(duì)和產(chǎn)品經(jīng)理等角色負(fù)責(zé)。但筆者所設(shè)計的系統(tǒng)面向傳統(tǒng)企業(yè)以及一些有IT部門的企業(yè),企業(yè)內(nèi)是否有配置專業(yè)的人員來實(shí)施,是否有對A/B測試比較了解的人都是問題。所以產(chǎn)品設(shè)計上一方面需要考慮易用性,另一方面也需要考慮讓交付同事能更好地理解以便引導(dǎo)客戶使用。

05 系統(tǒng)架構(gòu)

結(jié)合筆者調(diào)研的結(jié)果,目前會涉及到AB測試系統(tǒng)的公司主要有以下幾類:

(1)AB測試服務(wù)saas軟件供應(yīng)商

以saas 化形式提供AB測試能力,客戶基于簡單對接后即可基于平臺能力進(jìn)行 AB測試,能夠有效降低企業(yè)自己的開發(fā)投入,企業(yè)體量沒達(dá)到一定規(guī)模時或相應(yīng)的團(tuán)隊(duì)建設(shè)沒到位的情況下往往可采取這種方案,這些供應(yīng)商可能同時也會提供其他數(shù)據(jù)分析平臺等其他數(shù)據(jù)服務(wù),針對的目前客戶以有互聯(lián)網(wǎng)相關(guān)業(yè)務(wù)、有 IT研發(fā)能力的企業(yè)為主。

(2)提供 AB測試能力的其他saas 平臺

比如營銷 saas 產(chǎn)品主要針對的營銷場景下的 ab 測試能力提供、用戶運(yùn)營 saas產(chǎn)品主要針對消息推送場景下的 ab 測試能力提供。

(3)需自建 AB測試系統(tǒng)的企業(yè)

這類企業(yè)的公司體量基本都到了一定的規(guī)模,并且有專業(yè)的增長團(tuán)隊(duì)。

在產(chǎn)品形態(tài)上,目前在不同類型產(chǎn)品上看到的總共有 3 種形態(tài):

  • AB測試saas產(chǎn)品一般均以試驗(yàn)管理的形式,在試驗(yàn)報表中查看 AB測試相關(guān)數(shù)據(jù);
  • 營銷 saas 產(chǎn)品則會與營銷流程編輯器結(jié)合,以流程組件的形式提供AB測試能力,在流程數(shù)據(jù)中查看 AB測試相關(guān)數(shù)據(jù);
  • 垂直場景的用戶運(yùn)營工具則是在以高級配置的方式提供AB測試能力,比如可在業(yè)務(wù)功能配置中通過額外的AB測試配置項(xiàng)完成配置,并在業(yè)務(wù)數(shù)據(jù)中可查看 AB測試的相關(guān)數(shù)據(jù)。

但拋開具體的產(chǎn)品形態(tài),由于系統(tǒng)背后的原理、業(yè)務(wù)流程和目標(biāo)都相同的,所以經(jīng)過抽象后的系統(tǒng)架構(gòu)其實(shí)是差不多的,僅在一些細(xì)節(jié)方案上有差異。

復(fù)盤:從 0 到 1 設(shè)計A/B 測試系統(tǒng)

系統(tǒng)架構(gòu)圖

1. 業(yè)務(wù)層

這一層是AB測試的核心功能模塊,用于支持用戶創(chuàng)建 A/B 測試試驗(yàn)。

1.1 樣本設(shè)置

用于設(shè)置進(jìn)入試驗(yàn)的客戶,主要涉及 2 點(diǎn):

(1)樣本篩選

可篩選特定類型的客戶參與試驗(yàn),可與CRM、用戶畫像系統(tǒng)相結(jié)合,可針對某一特定人群進(jìn)行試驗(yàn)。

(2)樣本量設(shè)置

可設(shè)置客戶進(jìn)入試驗(yàn)的占比或數(shù)量,樣本量對于試驗(yàn)有效性有著重要影響,大部分系統(tǒng)都會提供一個樣本量計算公式,結(jié)合用戶設(shè)置的預(yù)期提升效果,告知用戶較合適的樣本量是多少、試驗(yàn)應(yīng)該進(jìn)行多久,讓用戶確保試驗(yàn)有足夠的流量(也看到一些產(chǎn)品會提供一些經(jīng)驗(yàn)值給到用戶,比如讓用戶確保樣本數(shù)量應(yīng)該大于 1000)。

1.2 流量分配

主要作用是決定客戶命中哪個試驗(yàn)、命中的是試驗(yàn)的哪個版本,這塊跟試驗(yàn)的管理結(jié)構(gòu)有關(guān)系,分流模塊需要滿足以下要求:

(1)隨機(jī)均勻分流

分流規(guī)則是系統(tǒng)中比較核心的模塊,有幾個核心的點(diǎn):

  1. 必須確保樣本一致性:確保分配到不同試驗(yàn)方案的用戶樣本特征是一致的,在統(tǒng)計上控制單一變量原則,即所謂“隨機(jī)均勻”;
  2. 確保分流一致性:在分配到不同版本時應(yīng)確保隨機(jī)均勻分布,并且確保分流一致性(即同一客戶多次進(jìn)入同一 個試驗(yàn),訪問的試驗(yàn)版本相同)。

(2)分層分流

當(dāng)需要同時進(jìn)行多個試驗(yàn),且避免試驗(yàn)間會互相干擾時,需要通過分域的形式把一些會互相干擾的試驗(yàn)區(qū)隔開,用戶只能命中其中某個試驗(yàn),通過分層的形式把不會互相干擾的試驗(yàn)區(qū)隔開,用戶可以同時命中不同層的試驗(yàn),通用的 A/B 測試工具都會支持用戶自定義層級規(guī)則和試驗(yàn)所處層級。但也并非必需,需要結(jié)合自身系統(tǒng)場景看是否有并發(fā)多個試驗(yàn)的場景,可查看下方分流模型示意:

復(fù)盤:從 0 到 1 設(shè)計A/B 測試系統(tǒng)

分流模型圖(來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)

  • 分流指定版本:在試驗(yàn)結(jié)束后,用戶可直接指定進(jìn)入試驗(yàn)的客戶進(jìn)入哪個試驗(yàn)版本,為了提升流程效率,大部分產(chǎn)品提供了自動幫助客戶選擇最優(yōu)版本的能力,但大部分只能從單個指標(biāo)維度進(jìn)行評判;
  • 自動分流:基于MBA算法,可自動結(jié)合不同版本方案的試驗(yàn)指標(biāo),自動調(diào)整流量分配規(guī)則,幫助快速選擇出可信賴的優(yōu)化版本,可有效提升試驗(yàn)的效率,目前有提供該能力的主要是一些比較專業(yè)的 ab 測試工具。

1.3 試驗(yàn)配置

(1)版本設(shè)置

可添加不同的試驗(yàn)版本,與對照組版本進(jìn)行對比,不同類型試驗(yàn)版本設(shè)置會有所不同,同時設(shè)置方式也與具體的 A/B測試場景有關(guān),比如:

  • 大部分系統(tǒng)針對 UI層面的優(yōu)化會提供可視化編輯模式,可讓運(yùn)營人員直接在可視化界面完成不同方案的配置;
  • 針對廣告著陸頁場景,則會提供的是鏈接合并跳轉(zhuǎn)的模式,針對不同版本的廣告著陸頁提供不同的URL,用戶訪問時會隨機(jī)跳轉(zhuǎn)到某個版本的鏈接中;
  • 針對算法優(yōu)化等后端優(yōu)化場景,則提供接口給后端服務(wù)調(diào)用。

這一塊也是需要具體考慮,需結(jié)合業(yè)務(wù)場景和自身平臺的情況考慮用戶配置版本的方式。

(2)流量設(shè)置

即設(shè)置分配給各個版本的流量,總和需為100%,需要支持在試驗(yàn)中進(jìn)行調(diào)整,方便使用者結(jié)合試驗(yàn)情況靈活調(diào)整流量分配(一般會先給試驗(yàn)版小流量試跑,然后再進(jìn)一步加大流量)。

(3)指標(biāo)設(shè)置

設(shè)置指標(biāo)后可在數(shù)據(jù)統(tǒng)計中看到不同版本對應(yīng)的指標(biāo)數(shù)據(jù),用于評估不同版本的效果:

  • 主要目標(biāo)與附加目標(biāo):評估方案好壞有時候顯然不可能只從一個維度去評估,并且即使新版本方案在核心指標(biāo)上表現(xiàn)更好,也不排除在其他比較重要的指標(biāo)維度上表現(xiàn)更弱,所以主要目標(biāo)是指本次試驗(yàn)重點(diǎn)要關(guān)注優(yōu)化的指標(biāo),附加指標(biāo)則是其他關(guān)聯(lián)的效果指標(biāo),可幫助我們進(jìn)一步全面地評估方案;
  • 復(fù)合指標(biāo)與自定義指標(biāo):可支持更多的業(yè)務(wù)場景;
  • 自定義指標(biāo):指用戶可以自定設(shè)定指標(biāo),可指定更多事件指標(biāo)以及復(fù)合型指標(biāo),本期暫不考慮。

(4)分層分域

本質(zhì)上是為了解決流量在多個試驗(yàn)的分配問題,考慮的是如何盡可能地分配流量確保每個試驗(yàn)都有足夠的樣本,以及如何避免試驗(yàn)之間互相干擾,這些層和域需要結(jié)合自身情況去做劃分,常見的可劃分為啟動層、UI層、算法層等。比如對于頁面中同一個區(qū)域進(jìn)行試驗(yàn),如果現(xiàn)在在進(jìn)行 2 個試驗(yàn),分別對文字顏色、文字背景做測試,假設(shè)不把這 2 個試驗(yàn)分配在不同域,那可能出現(xiàn)文字顏色和文字背景都是同一顏色,會導(dǎo)致在前端完全不可見,進(jìn)而影響試驗(yàn)。

2. 數(shù)據(jù)統(tǒng)計層

這一層會展示試驗(yàn)數(shù)據(jù),包括試驗(yàn)設(shè)定的各個指標(biāo)數(shù)據(jù)以及統(tǒng)計數(shù)據(jù),使命是幫助用戶更準(zhǔn)確和快速地進(jìn)行決策,選擇最優(yōu)的方案,其中統(tǒng)計類指標(biāo)主要提供 2 個指標(biāo):

  • 一個是置信區(qū)間,通常采用的是置信度為 95%的區(qū)間,用于幫助用戶科學(xué)評估方案效果;
  • 另外一個是統(tǒng)計顯著性指標(biāo),用于告訴用戶當(dāng)前統(tǒng)計得到的結(jié)論在統(tǒng)計學(xué)上是否是顯著有效的,提升決策科學(xué)性。

當(dāng)然,有時候會需要去細(xì)分到不同人群去看效果,可以進(jìn)一步評估方案在不同人群中的效果是如何的,在產(chǎn)品上只需增加一個客戶篩選即可。

3. 數(shù)據(jù)接入層

這一層主要解決試驗(yàn)指標(biāo)統(tǒng)計的問題,與 AB測試系統(tǒng)的應(yīng)用場景相關(guān),要拓展系統(tǒng)使用場景,肯定是得垂直地從數(shù)據(jù)埋點(diǎn)、試驗(yàn)設(shè)置都進(jìn)行拓展,通過同步外部數(shù)據(jù),可以大大拓寬使用場景,比如筆者設(shè)計的是營銷 saas 系統(tǒng),如果能對接交易數(shù)據(jù),場景可以進(jìn)一步拓展為“驗(yàn)證通過更低的優(yōu)惠券折扣是否可促進(jìn)交易轉(zhuǎn)化率”。

4. 服務(wù)接入層

當(dāng)企業(yè)內(nèi)部有多個客戶端、多個系統(tǒng)、多個場景需要對接 AB測試能力時,通過標(biāo)準(zhǔn)接口可快速完能力的部署,有助于可以提升系統(tǒng)的擴(kuò)展開放性。

06 業(yè)務(wù)場景

當(dāng)我們對系統(tǒng)要做的事情以及系統(tǒng)的整體邏輯有所理解后,就需要因地制宜結(jié)合自己負(fù)責(zé)系統(tǒng)的業(yè)務(wù)場景、客戶特點(diǎn)等因素設(shè)計產(chǎn)品的能力分布和形態(tài)。

當(dāng)然,場景肯定是沒法遍歷完的,但可以記下一句話:“當(dāng)你無法衡量它時,你就無法優(yōu)化它”,結(jié)合上文對系統(tǒng)架構(gòu)的介紹,我們知道A/B測試系統(tǒng)底層需依賴數(shù)據(jù)埋點(diǎn)這一基礎(chǔ)設(shè)施,當(dāng)我們能埋的點(diǎn),能統(tǒng)計到的數(shù)據(jù)越多,能調(diào)控的變量更多,系統(tǒng)能支撐的場景也就越豐富。

但筆者還是對常見的AB測試場景做個簡單總結(jié),方便大家參考:

  • 產(chǎn)品優(yōu)化
  • UI層面優(yōu)化:比如調(diào)整頁面布局,調(diào)整文案等
  • 功能體驗(yàn)優(yōu)化
  • 算法層面:比如推薦規(guī)則優(yōu)化、列表展示規(guī)制,提高內(nèi)容點(diǎn)擊率
  • 營銷優(yōu)化
  • 廣告落地頁:營銷文案優(yōu)化,提升按鈕點(diǎn)擊率
  • 營銷活動流程、策略優(yōu)化等等

其中 AB測試saas 產(chǎn)品無可置疑肯定基本都可滿足上述場景,營銷saas產(chǎn)品中則會圍繞活動內(nèi)容、消息觸達(dá)、權(quán)益策略、活動流程等營銷相關(guān)的場景做優(yōu)化,垂直類場景僅支持自身產(chǎn)品場景的優(yōu)化,比如“某策”能進(jìn)行觸達(dá)與否是否影響最終轉(zhuǎn)化的 ab 測試。

07 落地細(xì)節(jié)注意

1. 分流模塊

分流算法的實(shí)現(xiàn)方法網(wǎng)絡(luò)上大把,推薦大家可以參考一下 google 的論文,具體實(shí)現(xiàn)上就是通過一致性哈希算法計算用戶 id 、層 id 后進(jìn)行取模即可,這樣既可實(shí)現(xiàn)上文我們提到對于分流需要注意的關(guān)鍵點(diǎn)。但這里需要注意的是要結(jié)合我們設(shè)計出的產(chǎn)品形態(tài),與上文的產(chǎn)品架構(gòu)進(jìn)行對應(yīng),考慮需要加什么因子加入哈希算法因子中。

當(dāng)然,一些平臺為了確保樣本的一致性也提出了一種驗(yàn)證性的方法,比如微博廣告系統(tǒng)提到的一個解決方案:

在廣告系統(tǒng)中,用戶是通過多維的畫像向量(a,b,c,…,n)來進(jìn)行刻畫的,如果流量劃分是均勻的,意味著用戶的每一個畫像向量分量在該流量劃分條件下是均勻,更進(jìn)一步,多個畫像向量分量的組合在該流量劃分條件下也是均勻的。通過進(jìn)行用戶畫像向量單個分量和若干個畫像向量分量的組合的均勻性驗(yàn)證,即可來反映該流量的劃分的均勻性。

2. 試驗(yàn)指標(biāo)模塊

這塊目前也比較成熟,在代碼上有一些已經(jīng)封裝好的計算方法可直接供開發(fā)去調(diào)用,目前 adobe Target產(chǎn)品使用的是 t 檢驗(yàn)的方式來計算置信區(qū)間和 P 值(p 值小于 0.05即證明本次試驗(yàn)是統(tǒng)計顯著的),具體不成問題,問題主要在于公司內(nèi)部目前是否一套比較完善的數(shù)據(jù)采集處理機(jī)制。

08 總結(jié)

結(jié)合全文,相信讀者對于 AB測試系統(tǒng)已經(jīng)有了比較完整的認(rèn)識,大的原理和邏輯基本不變,變的是大家需要結(jié)合自身業(yè)務(wù)場景、自身內(nèi)部系統(tǒng)情況去因地制宜,尤其是要做好業(yè)務(wù)場景的梳理,即可從目前已經(jīng)擁有的數(shù)據(jù)進(jìn)行反推,也可從業(yè)務(wù)需求進(jìn)行正推。

但是,需要提醒的是,至此我們也只是設(shè)計出了一個能用的系統(tǒng)而已。

AB測試的落地還需要依賴使用的組織和人,公司組織層面上是否有數(shù)據(jù)驅(qū)動的意識、執(zhí)行人員層面是否具備做AB測試的專業(yè)知識、支持做AB測試的場景是否有足夠的價值吸引力、是否具備足夠的數(shù)據(jù)量來做 AB 測試,這些因素都會影響到最終系統(tǒng)的落地效果。

如果碰巧你做的是 saas 系統(tǒng),面向的客戶可能是傳統(tǒng)企業(yè)或傳統(tǒng)銀行這類有研發(fā)能力但數(shù)據(jù)驅(qū)動意識不強(qiáng)的企業(yè),更是由于考慮清楚上面提到的幾點(diǎn),好好評估客戶是否有落地A/B測試的能力。

專欄作家

Way,公眾號:營銷產(chǎn)品研習(xí)社,人人都是產(chǎn)品經(jīng)理專欄作家。某國民辦公軟件產(chǎn)品人,多年數(shù)字營銷、企業(yè)服務(wù)、增長產(chǎn)品經(jīng)驗(yàn)。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 講解的還是很清楚的!不過目前遇到一個問題,想和樓主探討下,就是如何把a(bǔ)b測試體系很好的融合到業(yè)務(wù)里去并且能夠管控整體實(shí)驗(yàn)?比如ab組用戶分別發(fā)送不同優(yōu)惠券或者看到不同的活動利益點(diǎn),如果要單獨(dú)在ab測試系統(tǒng)里進(jìn)行配置的話流程會變的很繁瑣。

    回復(fù)
  2. 不知所云呢

    回復(fù)
    1. 具體點(diǎn)

      回復(fù)