新疫苗實驗刷屏,科學(xué)的AB測試是如何混淆視聽的?

0 評論 2233 瀏覽 9 收藏 22 分鐘

編輯導(dǎo)讀:AB測試原本是互聯(lián)網(wǎng)的一種工作方式,在是為Web或App界面制作兩個或多個版本,分別讓組成成分相同(相似)的目標(biāo)人群隨機(jī)訪問這些版本,收集各群組的用戶體驗數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù),最后分析、評估出最好版本,正式采用?,F(xiàn)在被應(yīng)用到各行業(yè),新疫苗的研發(fā)和使用也有涉及。

世界上有三種謊言:謊言、該死的謊言、統(tǒng)計數(shù)字。

There are three kinds of lies:lies, damned lies, and?statistics.

01 全世界矚目的兩個對照試驗

這周頻繁被2組對照實驗刷屏,都和抗Covid-19有關(guān)。國際上對疫情的報道不斷,但也沒有這兩組實驗的結(jié)果來得刺激。

1. 口罩實驗

第一個刷屏的實驗,是來自丹麥的 “口罩防護(hù)效果” 對照實驗,如下圖所示。

2020年11月18日, 醫(yī)學(xué)內(nèi)科領(lǐng)域頂級期刊《Annals of Internal Medicine》發(fā)表了一篇“驚世駭俗”的論文, 這個論文提出了一個觀點“戴口罩對于防護(hù)新冠沒用”。這篇論文已經(jīng)在71 個國際主流媒體上被報道, 推特上已經(jīng)有55,994個轉(zhuǎn)發(fā)和討論帖。

文中詳細(xì)描述了,在丹麥進(jìn)行的、關(guān)于戴口罩預(yù)防新冠感染的隨機(jī)對照試驗:6000 人隨機(jī)分成兩組,做了兩個月試驗,外出保持社交距離并戴口罩組的感染率是 1.8% ,外出保持社交距離不佩戴口罩的對照組感染率是 2.1% 。因為兩組的感染率差異不顯著,結(jié)果不具有統(tǒng)計學(xué)意義。因此,在這組實驗中,結(jié)論是?“戴口罩的防護(hù)作用是無效的”。

2. 新疫苗實驗

第二個刷屏的實驗,是登上各大主流媒體重磅頭條的“最新疫苗有效性”對照實驗,如下圖所示。

同樣是11月18日,藥品制造商輝瑞公司宣布最新實驗結(jié)果:他們研制的冠狀病毒疫苗有效性為95%,且沒有嚴(yán)重副作用。Covid-19 疫情在全球范圍內(nèi)急劇上升期間,這組完整的疫苗試驗結(jié)果給各國都打了一劑強(qiáng)心針。

這項試驗包括近 44,000 名志愿者,其中一半人注射了疫苗、另一半人注射的是鹽水(安慰劑)。然后,持續(xù)觀察每組有多少人患上 Covid-19。最終,在 170 例感染了 Covid-19的患者中,安慰劑組占 162 例,疫苗組僅占 8 例。實驗初步證明,該疫苗可以預(yù)防輕度和重度形式的 Covid-19。如果疫苗的授權(quán)審批通過,輝瑞公司將全面投入量產(chǎn)。

02 被大眾“誤讀”的三組數(shù)據(jù)

對照實驗(A/B測試)一直是科學(xué)陣地牢不可破的根基,它讓我們更接近事情的真相,統(tǒng)計數(shù)據(jù)的價值也被充分發(fā)揮出來。但是,很多實驗結(jié)果在向大眾傳播時,信息容易被誤讀,甚至?xí)蔀檎`導(dǎo)大家的工具。究其原因,只有一個:對A/B測試的理解不準(zhǔn)確。統(tǒng)計數(shù)字從來不會說謊,說謊的是它們被解讀的方式。

1. 1.8% VS 2.1%

前面提到,在丹麥進(jìn)行的、關(guān)于戴口罩預(yù)防新冠感染的隨機(jī)對照試驗中,6000 人隨機(jī)分成兩組,試驗進(jìn)行了兩個月,戴口罩組的感染率是 1.8%,不戴口罩組的感染率是 2.1%。在統(tǒng)計學(xué)上,這兩組數(shù)據(jù)的差異沒有顯著性。所以,很多人就認(rèn)為,口罩很雞肋,對于防護(hù)病毒是無效的。

首先,在此研究進(jìn)行的時候,新冠病毒感染在丹麥還很罕見,且丹麥的人口密集度低,口罩的作用本來就具有很大局限性,以至于該項研究得出的結(jié)論并不能反映:1. 在新冠爆發(fā)期間,戴口罩的作用;2. 在人口密集的地區(qū),帶口罩的作用。

其次,帶面罩組有 42 名參與者(1.8%)、對照組有 53 名(2.1%)參與者感染,組間差異為 -0.3 百分點,這個百分點雖然不能說明顯著性差異,但是如果換個角度解讀,我們卻能發(fā)現(xiàn)這組數(shù)據(jù)的可疑之處。

截至目前,丹麥實際的人群感染率約為 3/1000,如果試驗擴(kuò)展到從整個丹麥人口中隨機(jī)抽取 6000 人,非口罩組的感染人數(shù)大致為 9 個,這個數(shù)字遠(yuǎn)遠(yuǎn)低于實驗中的53例。就算口罩可以降低 50% 的感染率(這已經(jīng)相當(dāng)高了,現(xiàn)實中不可能),那么,這個假想的實驗中,口罩組最多可以減少 4.5 例感染。

而現(xiàn)實中的口罩組,感染人數(shù)竟然比對照組少了 11 例,這得多大的預(yù)防效果才能存在如此之大的人數(shù)差異呀?可見,這組實驗結(jié)論的漏洞很大。

這還沒有算上,被招募者的 6000 人,其職業(yè)、行動軌跡、行為習(xí)慣和身體素質(zhì)都存在很大差異,如上圖所示,僅職業(yè)不明的人群就占了總實驗人數(shù)的 22% 。個體存在的差異會影響最終驗證的結(jié)果,實驗中參雜了太多的無關(guān)變量,導(dǎo)致實驗結(jié)果很難被相信。

2. 大樣本量?6000

姑且不談現(xiàn)實中口罩的應(yīng)用場景,這里僅深究一下 6000 的 “大樣本量” 是否真的合理?

換句話說,3000 對 3000 的實驗設(shè)計,是否具有預(yù)測價值呢?丹麥平均的感染率約為千分之三,依舊假設(shè)人群感染率為 3/1000,就算口罩的作用可以降低 1/3 的感染率(降低 1/3 已經(jīng)是很強(qiáng)的作用了)。那么實驗終點,非口罩組和口罩組預(yù)期感染人數(shù)分別是 9 例和 6 例,這一數(shù)字并不具備顯著性。即使預(yù)期感染率達(dá)到 5/1000 (相當(dāng)于武漢的感染率),那么非口罩組預(yù)期感染人數(shù) 15 例,口罩組為 10 例,粗略計算, p=0.42,還是沒有顯著差異……

直到感染率達(dá)到 2% 的極高水平,非口罩組為 60 例,口罩組為40 例,p= 0.01 ——這時候才達(dá)到統(tǒng)計學(xué)顯著性水平。可見,6000 人的設(shè)置并沒有結(jié)合實際的人群低感染率來進(jìn)行設(shè)計,只需稍微深究一下,就知道禁不起推敲。

換句話說,不是什么情況下,都適合做對照實驗的。對照實驗并不是萬金油,必須和現(xiàn)實情況密切結(jié)合。如果實際需求的樣本量很大、現(xiàn)實卻只能收集很少的樣本數(shù)據(jù)時,這樣完成的實驗結(jié)果,不僅不能說明問題,還很可能造成統(tǒng)計學(xué)上的某種誤導(dǎo)。

3. 新疫苗功效高達(dá)?95%

上文還提到了有關(guān)“新疫苗”的試驗,其結(jié)論也被很多人理解為,如果注射一支疫苗,就可以將感染機(jī)率降低 95%。實際上,這個數(shù)字也很有誤導(dǎo)性。95% 這個數(shù)字是怎么來的呢?

以輝瑞公司的實驗為例,首先招募了 43,661 名志愿者,研究人員等待 170 人出現(xiàn) Covid-19 癥狀,并獲得陽性測試結(jié)果。在這 170 個陽性結(jié)果中,有 162 個屬于接受了安慰劑的對照組,只有 8 個是屬于接受了疫苗的實驗組。

然后,科學(xué)家對這兩部分患者之間的相對差異做了定義:如果疫苗組和安慰劑組之間的感染人數(shù)沒有差異,則功效為0%;如果疫苗組無人感染,則功效為100%。

通過計算,我們得出 (100% – 8/162) = 95%,這個數(shù)字無疑是證明疫苗有效的有力證據(jù)。但是這個數(shù)字并不能說明:一旦接種疫苗后,生病的幾率是多少。同理,它也不能說明大規(guī)模接種疫苗后,接種人群的疫情降低程度。

現(xiàn)實中,接種疫苗后的情況并不好估計,因為參加試驗的人員不能反映整個人群的復(fù)雜情況,在實際情況中,人們可能會遇到各種各樣的健康和反應(yīng)的差異,僅僅是一次大規(guī)模臨床實驗,根本不能說明其效果。之所以大概率會被推行,是因為事出緊急,疫苗的正面作用一旦被認(rèn)可,就很可能做大規(guī)模的接種。畢竟,減少病毒的傳播是第一要務(wù)。

但是,如果人們接種了疫苗,然后放松了戴口罩或其他安全衛(wèi)生措施,則很有可能增加冠狀病毒傳播給他人的機(jī)率,更何況還存在相當(dāng)數(shù)量的無癥狀感染者。因此,慎重對待特別積極的實驗結(jié)果,才是更科學(xué)的思考方式。

03 給營銷A/B測試的啟示

A/B測試在廣告投放、轉(zhuǎn)化迭代、優(yōu)惠策略等眾多的營銷場景中,被廣泛應(yīng)用著。一說如何提高營銷 ROI,營銷人最先想到的就是“做個 A/B 測試吧,咱用數(shù)據(jù)說話?!钡?,營銷中如何讓測試數(shù)據(jù)說出正確的話,而不是像以上兩個實驗?zāi)菢樱瑢θ水a(chǎn)生不必要的誤導(dǎo)呢?

1. 測試不是打輔助,測試就是策略本身

與傳統(tǒng)決策流程中的歸納后驗式不同,A/B測試是一種先驗的實驗體系,屬于預(yù)測型結(jié)論。和疫苗實驗類似,得出的結(jié)論很難對全量流量做出預(yù)測,但是卻可以作為權(quán)衡利弊的籌碼,幫助你做出重大決策。

這也就帶來了一個問題,很多人認(rèn)為做完A/B測試,驗出結(jié)果好壞,這個測試就可以結(jié)束了,殊不知營銷的多變因素不亞于疫苗的接種情況,會遇到各種各樣的差異性問題。這就需要營銷人員持續(xù)地做測試,將測試作為一種手段和策略,而不是只給決策打個輔助,偶爾才用一下。

此外,將A/B測試當(dāng)作策略、而非輔助,還有兩個重要原因:

  • 很多時候,做A/B實驗時,會不自覺對用戶進(jìn)行篩選,這個時候得出的ROI較高,一旦擴(kuò)量到全部用戶,ROI可能就會降低(類比疫苗實驗)。因此在說某個策略的ROI時,需要注意,是否是小規(guī)模用戶的效率,而不是整體用戶的ROI。這個時候,就需要做持續(xù)不斷的測試,才有可能不斷接近目標(biāo)ROI。
  • 還有一種新奇效應(yīng)遞減的情況,也很常見。在出某個新營銷頁面的時候,用戶可能會比較感興趣,這個時候效果最好。但是過一段時間,用戶的新奇感就會消失,需要營銷人員做持續(xù)、快速的創(chuàng)意測試,以防止因版本效果衰減而帶來的轉(zhuǎn)化率大幅波動。

【例子】:

某頭部在線教育企業(yè)的課程,在移動端推廣效率成為其市場部門非常重視的核心指標(biāo)之一。為提高用戶的購買轉(zhuǎn)化,營銷和產(chǎn)品部門合作,決定通過A/B測試找到優(yōu)化方案。

第一次測試,修改主標(biāo)題,原版本的 “60萬好老師”改為“名師1對1輔導(dǎo)”,轉(zhuǎn)化率提升 3% 左右,采用試驗版本。

第二次測試,改副標(biāo)題,結(jié)果原版本的“預(yù)約免費(fèi)試聽課”比測試版的“尋找自己的1對1老師”,轉(zhuǎn)化效果要好 4.7%,于是繼續(xù)采用原版本。

第三次測試最有趣,修改了按鈕上的引導(dǎo)語。在按鈕的點擊轉(zhuǎn)化方面,原始版本“免費(fèi)試聽”比試驗版本“快速預(yù)約”高 10%。但是,在后續(xù)的實際購買轉(zhuǎn)化追蹤數(shù)據(jù)顯示,試驗版本比原始版本高出 9%!

對于這個試驗結(jié)果,該品牌根據(jù)這個產(chǎn)品在市場上的發(fā)展階段,進(jìn)行了綜合評估,最終還是決定最終的試驗版本,盡管點擊率差一些,但是轉(zhuǎn)化收益最優(yōu)。

可見,持續(xù)的測試、并根據(jù)實際業(yè)務(wù)情況做出優(yōu)化,應(yīng)該成為營銷人的日常策略。因為總是有隨市場變化的因素,今天表現(xiàn)好的元素也不一定明天還好,效果是動態(tài)的,測試也同樣需要動態(tài)中進(jìn)行。

更何況每次測試都可以得到一些新的積累,比如這個案例中,如果這個課程產(chǎn)品是剛起步階段,需要更多地拉新用戶,那么營銷人員就應(yīng)該選擇原始版本——能獲取更多潛在用戶的資料。

2. 測試結(jié)果要綜合看,維度不能單一

通常,我們會從一個固定的測量維度來評估測試結(jié)果。但是如果只考慮一個維度也意味著脫離了情景來看實驗數(shù)據(jù)。比如,疫苗實驗的結(jié)果中,就沒有考慮到無癥狀感染者的情況,很可能導(dǎo)致結(jié)論有偏差。

數(shù)字結(jié)果是一方面,但是其背后的業(yè)務(wù)含義更加重要,不能忽略。比如,在不同的情景下,你可能需要對相同的A/B測試結(jié)果,做出不同的決策。

一個營銷活動,在進(jìn)行不同優(yōu)惠策略的A/B測試時發(fā)現(xiàn),A版比B版的用戶總活躍度高出 5%,但是卻同時降低了其中年輕用戶的活躍度占比,那么應(yīng)該推廣哪個版本好呢?

情景一,這是一個中老年購買力占主導(dǎo)的營銷活動,顯然更傾向于總活躍度的提升,至于年輕人,反正也沒有實際購買欲望,可以在這次活動中忽略掉。

情景二,這是一個青年人購買力占主導(dǎo)的營銷活動,總活躍度提升,但年輕人活躍度度下降,很可能影響實際的成單率,A、B版本的選擇,必須重新進(jìn)行評估。

此外,維度不能單一,還包括避免習(xí)慣性地將測試結(jié)果當(dāng)作一個絕對整體來看待。一般而言,從某個固定的測量維度來評估測試的結(jié)果是沒錯的,這樣做通常可以避免在多個維度中挑選最符合“需要”的數(shù)據(jù),而故意忽視不符合假設(shè)的結(jié)果。

但同樣,僅考慮一個維度也意味著脫離了情景來看試驗數(shù)據(jù)——不同的情景,很可能意味著對A/B測試結(jié)果截然不同的解釋。

【例子】:

幾年前 Airbnb 對搜索頁進(jìn)行了改版設(shè)計。搜索頁是 Airbnb 業(yè)務(wù)流程中非常重要的一個頁面,決定后續(xù)的轉(zhuǎn)化情況。

搜索頁改版前后的變化如圖,新版更強(qiáng)調(diào)房源的圖片(Airbnb為房主提供專業(yè)的攝影服務(wù))及標(biāo)記了房源所在位置的地圖。為了這次改版,團(tuán)隊投入了很多資源,設(shè)計人員和產(chǎn)品人員都預(yù)測新版肯定會表現(xiàn)更好,定性研究也表明新版本更好。

但針對搜索頁的A/B測試結(jié)果卻顯示,新版轉(zhuǎn)化率并沒有更好。這個結(jié)果讓人大跌眼鏡,因此分析團(tuán)隊將數(shù)據(jù)細(xì)分到不同的情景中,來查找結(jié)果背后的真正原因。

經(jīng)過分析后發(fā)現(xiàn),問題出在 IE 瀏覽器上。如上圖,除了來自 IE 的訪問以外,新版在其他主流瀏覽器上的表現(xiàn)都是優(yōu)于原版的。這個縱向的深入分析,幫助團(tuán)隊找到真正的問題:搜索頁的改版很有效果,但是代碼實現(xiàn)存在嚴(yán)重問題。在修復(fù)相關(guān)的問題后,源自IE的數(shù)據(jù)也有了超出 2% 的增長。

這個案例是A/B測試中一個被人津津樂道的案例,可以看出,從多個維度對測試結(jié)果進(jìn)行解釋,是很有需要的。營銷人員都應(yīng)該嘗試將數(shù)據(jù)分解到不同的維度,然后去理解不同維度下測試的實際效果。

最后,需要強(qiáng)調(diào)一點,A/B測試雖好,但是如果使用不當(dāng)、或解釋不當(dāng),都可以成為增加營銷阻力的因素。這就需要營銷人避免在分析結(jié)果時出現(xiàn)自欺欺人的傾向。

我們都理解,測試過程很費(fèi)時費(fèi)力,有的改版結(jié)果,測試后發(fā)現(xiàn)很打臉。這種情況下,很多營銷人為了找到有利的結(jié)果,會刻意去分解數(shù)據(jù),然后在多個維度中挑選“最符合需要的”數(shù)據(jù),或者和上文中的兩個“刷屏”的抗疫實驗一樣,為了證明某個假設(shè)而只突出部分?jǐn)?shù)據(jù)或片面解讀。

例如,盡管我們都知道A/B測試的最終還是要落腳于優(yōu)化整體營銷ROI,而不是為了單純優(yōu)化某個指標(biāo)。但是,當(dāng)某個指標(biāo)表現(xiàn)及其搶眼的時候,可能會導(dǎo)致優(yōu)化者的短視。比如,過分注重某一層的轉(zhuǎn)化率,從而在設(shè)計引導(dǎo)上急功近利或花樣百出,甚至強(qiáng)迫用戶去做出點擊,而不管后續(xù)轉(zhuǎn)化的質(zhì)量。

還是那句,A/B測試從來不會說謊,說謊的是它們被解讀的方式。想獲得消費(fèi)者洞見和營銷優(yōu)化策略,就要遵循科學(xué)的方式、做好充分的解讀,數(shù)字太漂亮或太反常,都要保持十二分的警惕。

#專欄作家#

Agnes;微信公眾號:靈蹊營銷筆記,人人都是產(chǎn)品經(jīng)理專欄作家。關(guān)注智能營銷領(lǐng)域,擅長發(fā)現(xiàn)最新的營銷技術(shù)及工具,并發(fā)掘行業(yè)前沿案例。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!