如何平衡實(shí)驗(yàn)效率與準(zhǔn)確性?關(guān)鍵點(diǎn)在這里

0 評論 723 瀏覽 3 收藏 13 分鐘

在產(chǎn)品的工作流程中,其實(shí)也要做不少的實(shí)驗(yàn)和測試,比如AB測試、黑盒測試等。不少人認(rèn)為實(shí)驗(yàn)的結(jié)果和準(zhǔn)確性是靠方法和執(zhí)行,實(shí)際上,界定實(shí)驗(yàn)受眾和樣本量才是關(guān)鍵,魔鬼往往藏在細(xì)節(jié)中……

很多人認(rèn)為實(shí)驗(yàn)的成功取決于創(chuàng)意和執(zhí)行。但其實(shí),關(guān)鍵在于如何界定實(shí)驗(yàn)受眾和樣本量。魔鬼往往藏在細(xì)節(jié)中……

01 確定實(shí)驗(yàn)受眾

1. 實(shí)驗(yàn)受眾的選擇標(biāo)準(zhǔn)

(1)全體用戶 vs. 特定條件的用戶

確定實(shí)驗(yàn)受眾主要回答兩個(gè)問題:

  1. 哪些用戶會被包含在實(shí)驗(yàn)中
  2. 需要多大樣本數(shù)和多長時(shí)間才能得到可信的結(jié)果

針對第一個(gè)問題,具體情況需具體分析。

有時(shí)希望所有用戶都參與實(shí)驗(yàn),就無需特別設(shè)置受眾;如果只想讓特定條件的用戶參與,才需要設(shè)置實(shí)驗(yàn)受眾。

設(shè)置實(shí)驗(yàn)受眾的目的,是針對某個(gè)用戶群體生成更精細(xì)的產(chǎn)品優(yōu)化方案。

第二個(gè)問題,本文后續(xù)會展開說明。

(2)案例分析:新聞APP廣告點(diǎn)擊率實(shí)驗(yàn)

舉個(gè)例子,一個(gè)新聞APP的用戶分兩類:看新聞賺零錢的,和喜歡游戲玩樂的。該APP想測試不同廣告banner的點(diǎn)擊率。

假設(shè)是,”喜歡玩樂”的人看到”葛優(yōu)躺”的banner,點(diǎn)擊率會更高。所以進(jìn)行這個(gè)實(shí)驗(yàn)時(shí),就應(yīng)該單獨(dú)摘取”喜好玩樂”的用戶。

針對”喜歡玩樂”的用戶,分別投放”葛優(yōu)躺”創(chuàng)意banner和其他banner,測試點(diǎn)擊效果。

2. 實(shí)驗(yàn)受眾的分類方法

(1)默認(rèn)分組:操作系統(tǒng)、iOS版本

通過第三方AB測試工具設(shè)置實(shí)驗(yàn)受眾非常容易。工具里有一些默認(rèn)的受眾分組可供選擇,比如操作系統(tǒng)、iOS版本等。

假設(shè)某個(gè)實(shí)驗(yàn)只針對iOS 12用戶,比如測試一個(gè)自動(dòng)填表單的功能。那進(jìn)行實(shí)驗(yàn)時(shí),就可以選擇默認(rèn)方式,只針對iOS 12用戶,因?yàn)槠渌脩艟涂床坏竭@個(gè)功能。

(2)自定義分組:特定渠道來源、產(chǎn)品使用情況

除了默認(rèn)分組,還可以定制分組。產(chǎn)品經(jīng)理或增長黑客提需求給研發(fā),由研發(fā)來完成自定義受眾分組。

比如只想針對某個(gè)渠道來源的用戶(如信息流廣告或百度搜索)給出不同的首頁設(shè)置,就可以通過自定義受眾方式完成設(shè)置。

再比如,招行有各種用戶:有的有信用卡,有的買了理財(cái)。

如果招行想在首頁做個(gè)實(shí)驗(yàn),但只針對有基金賬號的用戶,也可以通過自定義受眾分組找出這部分人,針對性地做實(shí)驗(yàn)。

02 估計(jì)所需樣本數(shù)

1. 樣本數(shù)的重要性

我們再來看第二個(gè)問題:如何預(yù)估實(shí)驗(yàn)所需的樣本數(shù)。這里有個(gè)例子,一個(gè)公司想測試把首頁的藍(lán)色按鈕改成紅色,看看點(diǎn)擊率如何。

實(shí)驗(yàn)上線3小時(shí)后,初步統(tǒng)計(jì)100個(gè)用戶樣本數(shù)據(jù),發(fā)現(xiàn)藍(lán)按鈕的轉(zhuǎn)化率是20%,紅按鈕只有12%。此時(shí)很多人就要下結(jié)論了:藍(lán)按鈕更好。

但等等,這個(gè)樣本數(shù)太小了!不可能根據(jù)這么小的樣本得出可靠結(jié)論。

于是公司繼續(xù)實(shí)驗(yàn)。上線3天后,樣本數(shù)已經(jīng)比一開始大很多了,上千個(gè)樣本,點(diǎn)擊數(shù)也有好幾百。

這時(shí)藍(lán)按鈕的轉(zhuǎn)化率掉到6%,紅按鈕的轉(zhuǎn)化率升到9%。感覺差不多了,紅按鈕應(yīng)該更好,但還不能完全確定。

如果實(shí)驗(yàn)跑300天,樣本數(shù)非常大??梢钥吹剑瑑煞N按鈕的轉(zhuǎn)化率都有所下降,但藍(lán)按鈕穩(wěn)定在4.8%,紅按鈕穩(wěn)定在7.2%。有了如此大的樣本,才可以比較有把握地得出結(jié)論。

但在實(shí)際的操作中,不可能等 300 天再對一個(gè)實(shí)驗(yàn)進(jìn)行分析得出結(jié)論。

可見,只有精確界定實(shí)驗(yàn)受眾與合理預(yù)估樣本量,才能確保實(shí)驗(yàn)快速迭代與結(jié)果的可靠性。

2. 影響樣本數(shù)的因素

如果從結(jié)果的可靠性出發(fā)的話,樣本量越大,實(shí)驗(yàn)時(shí)間越長,那么實(shí)驗(yàn)結(jié)果就越可靠。

但是如果從實(shí)際工作出發(fā),樣本量越小,實(shí)驗(yàn)時(shí)間越短,才能保證快速上線新實(shí)驗(yàn),試錯(cuò)的成本也越小。

所以想要在這兩者之間找一個(gè)平衡,其實(shí)就是要找到一個(gè)最小的樣本量,保證達(dá)到實(shí)驗(yàn)結(jié)果可靠,但是又不會浪費(fèi)過多的時(shí)間和樣本數(shù)。

影響實(shí)驗(yàn)所需樣本數(shù)有三大因素:原版本(對照組)的轉(zhuǎn)化率、新版本(實(shí)驗(yàn)組)的轉(zhuǎn)化率,以及統(tǒng)計(jì)顯著性要求。

(1)對照組和實(shí)驗(yàn)組的轉(zhuǎn)化率

兩組測試的轉(zhuǎn)化率越小,所需的樣本量就越大;反之,兩組的轉(zhuǎn)化率越大,所需樣本量就越小。因?yàn)?strong>需要足夠的轉(zhuǎn)化用戶樣本數(shù),這個(gè)很好理解。

同時(shí),實(shí)驗(yàn)組相比對照組轉(zhuǎn)化率提升幅度越大,需要的樣本量就越?。环粗?,提升幅度越小,比如從1%提高到1.05%,檢測的敏感度要求就越高,需要的樣本量就越大。

(2)統(tǒng)計(jì)顯著性的要求

什么是統(tǒng)計(jì)顯著性?其實(shí)就是進(jìn)行增長實(shí)驗(yàn)的時(shí)候,通過檢驗(yàn)對照組和實(shí)驗(yàn)組的轉(zhuǎn)化率差異,來確認(rèn)這個(gè)差別是真實(shí)存在的,還是隨機(jī)誤差導(dǎo)致的。這就是”統(tǒng)計(jì)顯著性”的概念。

如果檢驗(yàn)發(fā)現(xiàn)某個(gè)指標(biāo)的轉(zhuǎn)化率差異,且統(tǒng)計(jì)顯著性達(dá)到95%,就說明有95%的可能性這個(gè)差異是真實(shí)存在的。也就是說實(shí)驗(yàn)組確實(shí)比對照組好,只有5%的可能性是隨機(jī)誤差導(dǎo)致的。

統(tǒng)計(jì)顯著性越高,隨機(jī)誤差的可能性越低,結(jié)果就越可靠。一般做增長實(shí)驗(yàn),建議至少要求95%的統(tǒng)計(jì)顯著性。

3. 實(shí)用工具:AB測試樣本計(jì)算器

介紹一個(gè)工具:AB測試樣本計(jì)算器,網(wǎng)址是https://www.eyeofcloud.com/abtest-widget/124.html

它主要有三個(gè)輸入字段:原始版本(對照組)的轉(zhuǎn)化率、優(yōu)化版本(實(shí)驗(yàn)組)的轉(zhuǎn)化率,以及統(tǒng)計(jì)顯著性要求(可以在90%-100%之間選擇)。

輸入這三個(gè)數(shù)字后,它會自動(dòng)計(jì)算出每個(gè)版本所需的樣本數(shù)量。

比如,原始版本轉(zhuǎn)化率15%,優(yōu)化版本轉(zhuǎn)化率18%,統(tǒng)計(jì)顯著性要求95%,它會算出每個(gè)版本需要1700個(gè)樣本。

如何平衡實(shí)驗(yàn)效率與準(zhǔn)確性?關(guān)鍵點(diǎn)在這里

如果新版本的預(yù)期轉(zhuǎn)化率與原始版本差別很小,比如只有16%,那每個(gè)版本所需的樣本數(shù)就會大幅增加。

如何平衡實(shí)驗(yàn)效率與準(zhǔn)確性?關(guān)鍵點(diǎn)在這里

03 估計(jì)實(shí)驗(yàn)時(shí)長

1. 實(shí)驗(yàn)時(shí)長的計(jì)算方法

學(xué)會預(yù)估實(shí)驗(yàn)樣本后,我們進(jìn)一步預(yù)估實(shí)驗(yàn)需要多長時(shí)間。也就是收集到足夠樣本以確認(rèn)統(tǒng)計(jì)顯著性所需的時(shí)間。

計(jì)算公式很簡單:預(yù)估實(shí)驗(yàn)時(shí)長=實(shí)驗(yàn)總樣本數(shù)(各版本所需樣本數(shù)之和)÷實(shí)驗(yàn)頁面或路徑的日訪問量

舉例,如果分兩個(gè)版本實(shí)驗(yàn),每個(gè)版本所需樣本總量是2900,則所需總樣本是2900*2(兩個(gè)版本),即5800個(gè)。

假設(shè)該頁面每日訪問量是580,那預(yù)計(jì)需要實(shí)驗(yàn)10天才能得到統(tǒng)計(jì)顯著的結(jié)論。

如果要分4個(gè)版本測試,所需總樣本加倍,預(yù)估實(shí)驗(yàn)時(shí)間也就加倍到20天。

2. 實(shí)驗(yàn)設(shè)計(jì)的合理性檢查

(1)樣本數(shù)量與實(shí)驗(yàn)時(shí)長的平衡

為什么要預(yù)估實(shí)驗(yàn)樣本和時(shí)長?就是為了檢查實(shí)驗(yàn)設(shè)計(jì)是否合理。

通過預(yù)估,我們可以知道達(dá)到統(tǒng)計(jì)顯著需要多大樣本,有沒有那么多流量或用戶量,實(shí)驗(yàn)要跑多久,時(shí)間是否過長。

如果一個(gè)200多天才能完成的實(shí)驗(yàn),基本就等于判了死刑。

(2)反思:小流量情況下的實(shí)驗(yàn)設(shè)計(jì)

所以,如果發(fā)現(xiàn)實(shí)驗(yàn)樣本不夠或時(shí)間冗長,就得想辦法:

a.減少實(shí)驗(yàn)版本數(shù)。能不能減少實(shí)驗(yàn)版本數(shù)?比如不要測四個(gè)版本,只測兩個(gè)版本,版本數(shù)越少,所需總樣本就越小,所需時(shí)間也越短。

b.更換實(shí)驗(yàn)頁面。假如想測試在下單轉(zhuǎn)化路徑中加入其他用戶的推薦,如果放在最后幾步,那里流量可能很少,不如放到產(chǎn)品詳情頁,同樣的思路,那里的流量會大很多,有助于快速得出結(jié)論。

c.增加流量。如果面臨樣本量太小的問題,是不是應(yīng)該先設(shè)法吸引更多用戶,留存更多用戶,再去做實(shí)驗(yàn)?

d.加大改動(dòng)幅度。在小流量情況下做一些很小的改動(dòng),預(yù)期變化很小,其實(shí)意義不大。因?yàn)榱髁炕蛴脩魯?shù)越少,實(shí)驗(yàn)改動(dòng)就要越大,小修小補(bǔ)作用不明顯。

04 大公司與小公司的實(shí)驗(yàn)策略

我們經(jīng)常聽說Facebook、抖音每時(shí)每刻都有成千上萬個(gè)實(shí)驗(yàn)在跑,Google把一個(gè)藍(lán)色按鈕測了20多個(gè)色號,得出了非常好的結(jié)果。

背后的邏輯是,這些產(chǎn)品的用戶量巨大,可以進(jìn)行大量細(xì)小的實(shí)驗(yàn)。即使每個(gè)實(shí)驗(yàn)的結(jié)果提升不大,但基數(shù)龐大,最終對利潤和營收的貢獻(xiàn)也很可觀。

但如果你在一個(gè)小公司,流量和用戶沒那么多,也去測20個(gè)按鈕色號,很可能的結(jié)果是,等到地老天荒也沒等到統(tǒng)計(jì)顯著的結(jié)果,公司都黃了。

所以建議流量和用戶少的情況下,要做大的改動(dòng),同時(shí)想辦法提升用戶基數(shù)和流量。

最后總結(jié)一下,”要致力于品質(zhì)的提升,而不是數(shù)量的增加。”這句話同樣適用于AB實(shí)驗(yàn)設(shè)計(jì)。

通過精細(xì)化設(shè)定實(shí)驗(yàn)受眾,合理預(yù)估樣本量和實(shí)驗(yàn)時(shí)間,可以在保證數(shù)據(jù)質(zhì)量的前提下,有效地減少實(shí)驗(yàn)的盲目性,提高實(shí)驗(yàn)的成功率和效率,進(jìn)而為產(chǎn)品和用戶體驗(yàn)的優(yōu)化提供可靠的數(shù)據(jù)支持。

本文由 @小黑哥 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!