如何分析A/B實(shí)驗(yàn)結(jié)果
互聯(lián)網(wǎng)行業(yè)中,數(shù)據(jù)驅(qū)動的決策模式已成為主流。但在實(shí)際操作中,如何確保數(shù)據(jù)的有效性及其對增長的直接影響呢?本文將通過一個(gè)系統(tǒng)化的步驟框架,指導(dǎo)如何通過A/B測試精確地驅(qū)動業(yè)務(wù)增長。
01 分析和應(yīng)用實(shí)驗(yàn)結(jié)果的重要性
分析和應(yīng)用實(shí)驗(yàn)結(jié)果是增長實(shí)驗(yàn)流程中的最后一步,但卻是至關(guān)重要的環(huán)節(jié)。
這一步驟直接決定了整個(gè)增長實(shí)驗(yàn)是否成功,以及能否為業(yè)務(wù)增長帶來真正的價(jià)值。
分析和應(yīng)用實(shí)驗(yàn)結(jié)果的主要目的有三個(gè)方面:
第一,給出一個(gè)系統(tǒng)性的框架來分析實(shí)驗(yàn)結(jié)果,確保分析過程的嚴(yán)謹(jǐn)性和全面性;
第二,得出可信的結(jié)論,判斷實(shí)驗(yàn)是否成功以及成敗的原因;
第三,最大化實(shí)驗(yàn)的影響,將成功實(shí)驗(yàn)的洞察應(yīng)用到產(chǎn)品優(yōu)化的方方面面。
只有做到這三點(diǎn),才能真正發(fā)揮增長實(shí)驗(yàn)的價(jià)值,推動業(yè)務(wù)的快速增長。
02 評估結(jié)果可信性
評估結(jié)果可信性是分析和應(yīng)用實(shí)驗(yàn)結(jié)果的第一步,在對實(shí)驗(yàn)結(jié)果進(jìn)行分析之前,我們必須先評估結(jié)果的可信性。
這是整個(gè)分析過程的基礎(chǔ),如果實(shí)驗(yàn)結(jié)果本身就存在問題,缺乏可信性,那么無論后續(xù)如何分析都可能得出錯(cuò)誤的結(jié)論,從而影響決策的正確性。
因此評估可信性是分析和應(yīng)用實(shí)驗(yàn)結(jié)果的第一步,也是極其重要的一步。
1. 評估方式
評估結(jié)果可信性的核心標(biāo)準(zhǔn)是統(tǒng)計(jì)顯著性。
所謂統(tǒng)計(jì)顯著,就是指實(shí)驗(yàn)組和對照組的差異是由實(shí)際因素導(dǎo)致的,而不是由于隨機(jī)誤差等偶然因素導(dǎo)致的。
只有達(dá)到統(tǒng)計(jì)顯著的結(jié)果,才能被認(rèn)為是可信的,才能作為下一步分析的依據(jù)。
否則,我們就有可能對偶然現(xiàn)象做出過度解讀,得出錯(cuò)誤結(jié)論。
上一篇文章已經(jīng)詳細(xì)闡述如何計(jì)算統(tǒng)計(jì)顯著性,本文就不再贅述了。
2. 評估結(jié)果可信性的常見坑
在評估結(jié)果可信性的過程中,我們需要避免一些常見的誤區(qū)和陷阱,否則可能會對實(shí)驗(yàn)結(jié)論產(chǎn)生偏差。
(1) 實(shí)驗(yàn)跑的時(shí)間不夠長,導(dǎo)致結(jié)果出問題
a. 實(shí)驗(yàn)剛上線就分析早期指標(biāo),過早下結(jié)論
一個(gè)常見的坑就是實(shí)驗(yàn)剛剛開始沒多久,我們就迫不及待地去看那些早期指標(biāo)數(shù)據(jù)。
由于實(shí)驗(yàn)初期樣本量還很小,數(shù)據(jù)的波動性會非常大,很容易產(chǎn)生誤導(dǎo)。如果這時(shí)候掉以輕心,就可能會對階段性的優(yōu)勢或劣勢做出錯(cuò)誤判斷。
因此我們一定要忍住,等到數(shù)據(jù)累積到一定程度,結(jié)果相對穩(wěn)定了再下定論。
b. 實(shí)驗(yàn)結(jié)束過早,只包含高頻用戶,沒收集足夠樣本
另一個(gè)坑是實(shí)驗(yàn)停得太早。有些實(shí)驗(yàn)可能在達(dá)到統(tǒng)計(jì)顯著后就被急忙叫停了,但由于時(shí)間還不夠長,覆蓋的用戶還不夠全面,導(dǎo)致只有一些高頻用戶的數(shù)據(jù)被納入實(shí)驗(yàn),缺少了中低頻用戶的反饋。
這樣的結(jié)果是片面的,無法代表整體用戶的真實(shí)反應(yīng)。這一點(diǎn)在一些長周期的決策指標(biāo)上尤為重要,比如月留存率等。舉兩個(gè)例子:
第一個(gè)例子是 Airbnb 的搜索價(jià)格過濾器的測試,把搜索頁上的價(jià)格過濾器上限從 300 美金調(diào)大到了 1000 美金,想知道這樣的變化是不是能讓預(yù)定數(shù)增加?
實(shí)驗(yàn)流量非常大,7天之后發(fā)現(xiàn)新版本提升顯著,但是繼續(xù)運(yùn)行 30 天后卻發(fā)現(xiàn)最終和對照組差別不大。
這在統(tǒng)計(jì)學(xué)上其實(shí)有一個(gè)名稱叫做新奇效應(yīng),也叫做均值回歸。
在增長實(shí)驗(yàn)的早期,很多時(shí)候用戶會因?yàn)樾缕嫒リP(guān)注新的改動,但是過一段時(shí)間可能就消失了。
這也提示我們在進(jìn)行增長實(shí)驗(yàn)的時(shí)候,千萬不要用最早期的指標(biāo)來下結(jié)論,而是要耐心的讓它跑夠時(shí)間,達(dá)到統(tǒng)計(jì)顯著,甚至再多跑一段時(shí)間,幫助我們能夠最終確認(rèn)實(shí)驗(yàn)的結(jié)果。
第二個(gè)例子是某健身APP,它對課程選擇頁面進(jìn)行了 AB 測試。
這個(gè)健身 APP 有三類用戶,高頻率的用戶是每天都來,大概占30%;
中頻率的用戶是每周至少來一次,大概占50%;
低頻率的用戶大概每兩周來至少一次,占整個(gè)用戶的20%;
由于這個(gè)產(chǎn)品的用戶量也很大,僅僅跑了3天,這個(gè)實(shí)驗(yàn)結(jié)果就達(dá)到了統(tǒng)計(jì)顯著,就得出結(jié)論說新版本更好。
但是真的是這樣嗎?大家可以想象一下,如果實(shí)驗(yàn)只跑了 3 天的話:
首先,在實(shí)驗(yàn)里包含的絕大部分是高頻用戶,大部分的中頻用戶和低頻用戶可能還沒有進(jìn)入實(shí)驗(yàn)。
其次,沒有考慮到周中和周末這個(gè)可能對用戶行為產(chǎn)生影響的因素,所以這個(gè)實(shí)驗(yàn)犯的錯(cuò)誤就是以偏概全。
所以我們在進(jìn)行 AB 測試增長實(shí)驗(yàn)的時(shí)候,要仔細(xì)地衡量跑實(shí)驗(yàn)的時(shí)間,盡量讓所有的用戶都有機(jī)會能夠進(jìn)入到這個(gè)實(shí)驗(yàn)里,而不僅僅是根據(jù)一小部分用戶的行為得出結(jié)論。
(2) 實(shí)驗(yàn)設(shè)置不合理,導(dǎo)致結(jié)果不可信
a.中途更改實(shí)驗(yàn)設(shè)置
有時(shí)候?qū)嶒?yàn)跑到一半,我們會心癢癢,想要修改一些實(shí)驗(yàn)設(shè)置,比如調(diào)整流量分配比例等。
但這樣做會導(dǎo)致前后數(shù)據(jù)缺乏一致性和連貫性,從而失去了可比性。
所以一旦實(shí)驗(yàn)開始,任何設(shè)置就都不應(yīng)該再修改了。
同樣舉一個(gè)例子,微軟的員工在做實(shí)驗(yàn)的時(shí)候就犯過一個(gè)錯(cuò)誤:
周五的時(shí)候他們給測試中的一個(gè)版本分配了 1% 的流量,周六的時(shí)候又把流量增加到了50%,雖然在周五和周六這兩天單獨(dú)來看,新版本的轉(zhuǎn)化率都比原版本高,但是當(dāng)數(shù)據(jù)被匯總的時(shí)候,新版本的轉(zhuǎn)化率反而變低了。
所以如果微軟的工作人員按照這個(gè)結(jié)果來作出結(jié)論的話,就會做出一個(gè)錯(cuò)誤的結(jié)論。
這在統(tǒng)計(jì)學(xué)上也有一個(gè)名詞叫做辛普森悖論——某個(gè)條件下的兩組數(shù)據(jù)分別討論的時(shí)候是一個(gè)結(jié)果,但是合起來的時(shí)候卻發(fā)生了相反的結(jié)論。
因此大家在做增長實(shí)驗(yàn) AB 測試的時(shí)候,開始實(shí)驗(yàn)之后不要去更改實(shí)驗(yàn)的設(shè)置,流量的分配,否則就可能對實(shí)驗(yàn)結(jié)果產(chǎn)生影響。
b. 同時(shí)跑多個(gè)實(shí)驗(yàn),互相干擾
如果同一時(shí)間在同一流程中同時(shí)進(jìn)行多個(gè)實(shí)驗(yàn),就可能出現(xiàn)交叉污染,不同實(shí)驗(yàn)相互影響。
比如同時(shí)在注冊流程的不同步驟各做一個(gè)實(shí)驗(yàn),就可能導(dǎo)致用戶分流出現(xiàn)問題。
因此在實(shí)驗(yàn)的規(guī)劃和執(zhí)行中,要合理安排實(shí)驗(yàn)時(shí)間和頁面,避免各個(gè)實(shí)驗(yàn)”打架”。
c. 實(shí)驗(yàn)版本與設(shè)計(jì)不同
有時(shí)候我們會發(fā)現(xiàn),開發(fā)上線的實(shí)驗(yàn)版本與產(chǎn)品設(shè)計(jì)稿存在出入,或者開發(fā)自作主張修改了一些設(shè)計(jì),這就會導(dǎo)致實(shí)驗(yàn)結(jié)果出現(xiàn)偏差。
因此除了前期要做好設(shè)計(jì)評審,在實(shí)驗(yàn)開發(fā)過程中也要及時(shí)復(fù)核,確保嚴(yán)格按照設(shè)計(jì)方案執(zhí)行。
(3) 無法有效分析結(jié)果或得出錯(cuò)誤結(jié)論
a. 實(shí)驗(yàn)設(shè)計(jì)不完善,沒設(shè)置好指標(biāo)或只關(guān)注單一指標(biāo)
實(shí)驗(yàn)設(shè)計(jì)階段考慮得不全面,沒有設(shè)置好評估指標(biāo)體系,或者只盯著某一個(gè)單一指標(biāo),就可能導(dǎo)致我們對實(shí)驗(yàn)的整體效果評估不準(zhǔn),得出片面的結(jié)論。
因此前期一定要認(rèn)真設(shè)計(jì)指標(biāo),確保關(guān)鍵指標(biāo)和輔助指標(biāo)全面覆蓋。
b. 人為因素干擾實(shí)驗(yàn),如大促銷等
有時(shí)候我們會在一些特殊時(shí)間段進(jìn)行實(shí)驗(yàn),比如電商大促期間測試優(yōu)化注冊流程。
但節(jié)假日大促會給實(shí)驗(yàn)數(shù)據(jù)帶來極大的偶然性,用戶行為與平時(shí)相比會出現(xiàn)很大波動。
因此我們要盡量避開這些特殊時(shí)段,選擇相對穩(wěn)定的時(shí)間區(qū)間來做實(shí)驗(yàn),這樣得出的結(jié)論才更有說服力。
c. 做實(shí)驗(yàn)的人員有偏好,選擇性看結(jié)果
我們每個(gè)人或多或少都會帶有主觀偏好。在分析數(shù)據(jù)的時(shí)候,難免會更多地關(guān)注那些支持自己觀點(diǎn)的數(shù)據(jù),而忽視那些相悖的數(shù)據(jù)。
這種有意無意的選擇性偏差,可能會扭曲我們對數(shù)據(jù)的客觀判斷,使得分析結(jié)果失真。
因此我們在做實(shí)驗(yàn)分析時(shí),一定要秉持客觀中立的原則,用開放的心態(tài)看待每一個(gè)細(xì)節(jié),不預(yù)設(shè)立場。
03 分析實(shí)驗(yàn)結(jié)果
1. 分析實(shí)驗(yàn)結(jié)果概述
在確認(rèn)了實(shí)驗(yàn)結(jié)果具有統(tǒng)計(jì)顯著性,可以作為有效數(shù)據(jù)之后,我們就進(jìn)入到了分析實(shí)驗(yàn)結(jié)果的環(huán)節(jié)。
分析實(shí)驗(yàn)結(jié)果是整個(gè)實(shí)驗(yàn)分析與應(yīng)用流程中的第二步,它為最終的決策應(yīng)用奠定了直接基礎(chǔ)。
這一步的主要任務(wù),就是要搞清楚實(shí)驗(yàn)最后是成功了還是失敗了,如果失敗了,原因出在哪里。
只有解決了這兩個(gè)問題,我們才能為后續(xù)的實(shí)驗(yàn)迭代或者產(chǎn)品化決策提供有價(jià)值的依據(jù)。
2. 主要回答實(shí)驗(yàn)是否成功,若失敗原因何在
判斷實(shí)驗(yàn)是否成功,是分析環(huán)節(jié)的首要任務(wù)。
如果實(shí)驗(yàn)組表現(xiàn)出了顯著的正向優(yōu)勢,達(dá)到了我們預(yù)期的效果,那么就可以初步判定實(shí)驗(yàn)是成功的。
如果沒有達(dá)到預(yù)期,或者出現(xiàn)了負(fù)面影響,那么我們就要判定實(shí)驗(yàn)是失敗的。
對于失敗的實(shí)驗(yàn),我們還要進(jìn)一步分析原因。是對用戶行為的預(yù)判出現(xiàn)了偏差?是實(shí)驗(yàn)素材或者體驗(yàn)存在問題?還是實(shí)驗(yàn)效果只在某些特定人群中顯現(xiàn),而總體效果被稀釋了?
只有找出癥結(jié)所在,才能為失敗的實(shí)驗(yàn)”把脈問診”,指導(dǎo)后續(xù)的優(yōu)化方向。
增長實(shí)驗(yàn)的核心在于通過數(shù)據(jù)驗(yàn)證假設(shè),實(shí)現(xiàn)產(chǎn)品的優(yōu)化和業(yè)務(wù)的增長。
3. 要全面衡量三類實(shí)驗(yàn)指標(biāo)
(1) 核心指標(biāo):最關(guān)鍵,看是否按預(yù)期提升
要客觀評估一個(gè)實(shí)驗(yàn)的效果,僅看某一個(gè)指標(biāo)是不夠的,我們要建立起一套全面的指標(biāo)評估體系。其中最關(guān)鍵的是核心指標(biāo),它直接反映了本次實(shí)驗(yàn)的主要目標(biāo)。
如果核心指標(biāo)出現(xiàn)了顯著提升,達(dá)到了我們的預(yù)期,那么就說明實(shí)驗(yàn)是有效的。如果沒有變化,或者出現(xiàn)了下降,那么就說明實(shí)驗(yàn)是失敗的,我們需要反思優(yōu)化思路是否有問題。
(2) 輔助指標(biāo):看變化是否符合預(yù)期,與核心指標(biāo)趨勢是否一致
除了核心指標(biāo),我們還需要觀察一些輔助指標(biāo)的變化情況。這些指標(biāo)雖然不是直接的優(yōu)化目標(biāo),但它們能夠幫助我們更好地解釋核心指標(biāo)的變化原因。
比如我們在做一個(gè)提升直播間購買轉(zhuǎn)化率的實(shí)驗(yàn),核心指標(biāo)是”購買轉(zhuǎn)化率”,而”直播間平均停留時(shí)長”就可以作為一個(gè)輔助指標(biāo)。
如果我們發(fā)現(xiàn)實(shí)驗(yàn)組的購買轉(zhuǎn)化率提升了,同時(shí)平均停留時(shí)長也有所增加,那就說明我們的優(yōu)化措施提升了用戶的觀看興趣和參與度,從而間接帶動了購買的發(fā)生。
但如果停留時(shí)長不升反降,購買轉(zhuǎn)化率卻上漲了,這就有悖常理,我們就要重點(diǎn)排查數(shù)據(jù)異常的原因。
所以通過觀察輔助指標(biāo)與核心指標(biāo)的一致性,可以幫助我們完善對實(shí)驗(yàn)機(jī)理的洞察。
(3) 反向指標(biāo):看是否有明顯負(fù)面影響,影響是否可接受
任何一項(xiàng)優(yōu)化,都可能帶來一些負(fù)面影響。提升購買轉(zhuǎn)化率的同時(shí),可能會帶來客單價(jià)的下降;改進(jìn)了推薦算法,可能會導(dǎo)致用戶刷屏?xí)r間變長。
因此我們在實(shí)驗(yàn)分析時(shí),除了看正向指標(biāo),也要觀測反向指標(biāo)。通過反向指標(biāo)的量化分析,我們可以直觀地評估實(shí)驗(yàn)的負(fù)面效應(yīng)。
如果發(fā)現(xiàn)負(fù)面影響顯著且超出了預(yù)期,那就需要謹(jǐn)慎考慮實(shí)驗(yàn)是否值得繼續(xù)。但有時(shí)為了核心指標(biāo)的提升,一些可控范圍內(nèi)的負(fù)面影響,也是可以接受和容忍的。
關(guān)鍵是要對不同指標(biāo)進(jìn)行權(quán)衡,協(xié)調(diào)兼顧,避免顧此失彼。
4. 可考慮短期和長期兩種觀測周期
(1) 短期觀測:實(shí)驗(yàn)達(dá)到統(tǒng)計(jì)顯著即可得出結(jié)論
大多數(shù)情況下,當(dāng)一個(gè)實(shí)驗(yàn)達(dá)到了預(yù)設(shè)的統(tǒng)計(jì)顯著性要求,并且積累了足夠的樣本量后,我們就可以得出可靠的結(jié)論了。
這適用于那些優(yōu)化效果比較直接、立竿見影的實(shí)驗(yàn)項(xiàng)目。比如一個(gè)Banner的文案優(yōu)化實(shí)驗(yàn),當(dāng)各組的點(diǎn)擊量達(dá)到顯著性差異時(shí),我們就可以判定優(yōu)勝版本了。
這種短期即可見效的指標(biāo),通常觀察周期在1-2周左右。
(2) 長期觀測:實(shí)驗(yàn)停止后還需觀察一段時(shí)間,監(jiān)測對重要指標(biāo)的影響
但對于一些重點(diǎn)優(yōu)化項(xiàng)目,尤其是涉及到產(chǎn)品核心體驗(yàn)、影響用戶長期價(jià)值的項(xiàng)目,我們在實(shí)驗(yàn)期結(jié)束后,還需要對其進(jìn)行長期的跟蹤監(jiān)測。
比如優(yōu)化App的啟動速度,短期內(nèi)各項(xiàng)指標(biāo)表現(xiàn)都不錯(cuò)。但我們還需要持續(xù)觀察一段時(shí)間,看看用戶的次日留存、周留存等長期指標(biāo)是否真的因?yàn)閱铀俣鹊奶嵘@得了改善。
又比如上線了一個(gè)新功能,短期數(shù)據(jù)顯示活躍有所提升。但還要觀察一段時(shí)間,看看提升是否只是新鮮感導(dǎo)致的曇花一現(xiàn),還是真的激發(fā)了用戶的內(nèi)在需求。
像Pinterest 這樣一個(gè)圖片流的網(wǎng)站,它在進(jìn)行新用戶激活實(shí)驗(yàn)的時(shí)候,至少都要等 28 天的時(shí)間觀察用戶的次月留存率,才會最終做出結(jié)論。
這就是長期觀測的重要性。它能幫我們洞察優(yōu)化效果的”延遲性”影響,全面評估價(jià)值。
5. 實(shí)驗(yàn)結(jié)果有四種狀態(tài)
(1) 指標(biāo)大幅提升+統(tǒng)計(jì)顯著:實(shí)驗(yàn)組獲勝,改進(jìn)方向正確
這是最理想的一種實(shí)驗(yàn)結(jié)果。它表明我們的優(yōu)化思路是正確的,實(shí)驗(yàn)版本的體驗(yàn)明顯好于對照組,能夠顯著提升關(guān)鍵指標(biāo)。
當(dāng)出現(xiàn)這種結(jié)果時(shí),我們就要果斷地采納實(shí)驗(yàn)版本,并思考如何進(jìn)一步放大它的效果。
(2) 指標(biāo)小幅提升+統(tǒng)計(jì)顯著:實(shí)驗(yàn)組獲勝,但提升空間不大
這種結(jié)果表明我們的優(yōu)化思路雖然是對的,但提升幅度有限。各種原因都可能導(dǎo)致這一點(diǎn),比如優(yōu)化空間本身就不大,或者投入產(chǎn)出比不夠好等。
在這種情況下,我們要權(quán)衡實(shí)驗(yàn)方案的優(yōu)先級。如果還有其他潛力更大的優(yōu)化方向,我們可能就要先去做那些”大頭”,而把這個(gè)實(shí)驗(yàn)方案暫時(shí)擱置。
當(dāng)然,積小勝為大勝,日拱一卒也能成就千里長城。關(guān)鍵要把握投入產(chǎn)出的平衡。
(3) 指標(biāo)下降+統(tǒng)計(jì)顯著:對照組獲勝,改進(jìn)方向錯(cuò)誤
如果實(shí)驗(yàn)組不僅沒有帶來正向提升,還出現(xiàn)了顯著下降,說明我們的優(yōu)化思路可能存在問題,改進(jìn)的方向可能是錯(cuò)誤的。
這時(shí)一定不要灰心,因?yàn)槊恳淮问《即砹艘粋€(gè)排除項(xiàng)。要客觀地分析,究竟是需求假設(shè)有誤,還是體驗(yàn)實(shí)現(xiàn)不到位,然后總結(jié)教訓(xùn),調(diào)整優(yōu)化方向。
相比那些毫無波瀾的實(shí)驗(yàn),有明顯負(fù)向作用的實(shí)驗(yàn)其實(shí)更有價(jià)值,它們能給我們更多啟發(fā)。
(4) 無統(tǒng)計(jì)顯著差異:對照組獲勝,改動的元素可能是無關(guān)緊要的
還有一種常見的實(shí)驗(yàn)結(jié)果,就是實(shí)驗(yàn)組和對照組之間沒有統(tǒng)計(jì)顯著的差異。兩組數(shù)據(jù)太過接近,沒有明顯的差異性。
這通常表明,此次改動的細(xì)節(jié)可能是一些無關(guān)痛癢的點(diǎn),并不足以對用戶體驗(yàn)或者行為產(chǎn)生實(shí)質(zhì)影響。
基于這個(gè)認(rèn)知,后續(xù)設(shè)計(jì)優(yōu)化方案時(shí),就要把精力聚焦在那些真正的關(guān)鍵點(diǎn)和痛點(diǎn)上,去做一些動作更大、影響更深的改進(jìn),而非在細(xì)枝末節(jié)上糾纏。
6. 分析實(shí)驗(yàn)失敗的原因
(1) 細(xì)分漏斗,找出與假設(shè)不一致的環(huán)節(jié)
實(shí)驗(yàn)失敗并不可怕,可怕的是不去分析失敗的原因。
例如某APP對注冊流程進(jìn)行了 A/B 測試,結(jié)果發(fā)現(xiàn)對照組轉(zhuǎn)化率是27%,實(shí)驗(yàn)組是23%,以為舊版本獲勝。
但運(yùn)營人員進(jìn)一步的分析,按照平臺進(jìn)行拆解,發(fā)現(xiàn)在移動端是對照組的表現(xiàn)更好,而在桌面端其實(shí)是實(shí)驗(yàn)組的表現(xiàn)更好,所以在不同的平臺上,實(shí)驗(yàn)結(jié)果是不一致的。
針對這一洞察,運(yùn)營人員就在想是不是實(shí)驗(yàn)組的設(shè)計(jì)對于移動端不夠友好?
細(xì)查之后就發(fā)現(xiàn)實(shí)驗(yàn)組的頁面太長了,導(dǎo)致在手機(jī)上,最主要的這個(gè)按鈕下一步被推到了第二屏,用戶需要滑動才能夠看到。
解決此問題后繼續(xù)進(jìn)行實(shí)驗(yàn),結(jié)果實(shí)驗(yàn)組的轉(zhuǎn)化率有了大幅度的提升,在各個(gè)平臺上都比對照組的表現(xiàn)更好。
(2) 對實(shí)驗(yàn)結(jié)果分群,看不同用戶群體表現(xiàn)是否一致
除了漏斗縱向拆解,我們還可以進(jìn)行用戶橫向劃分。用戶并非鐵板一塊,不同屬性的用戶群體,對同一個(gè)改動的反應(yīng)可能大不一樣。
比如嘗試了一個(gè)大幅簡化購物流程的優(yōu)化,但整體轉(zhuǎn)化率并沒有提升。這時(shí)我們可以用RFM模型把用戶分層,看看不同價(jià)值層級的用戶表現(xiàn)如何。
可能會發(fā)現(xiàn),盡管總體指標(biāo)沒變化,但新用戶的轉(zhuǎn)化率提升了,而老用戶的轉(zhuǎn)化率卻下降了。
這就提示我們,簡化購物流程可能更有利于新用戶的引導(dǎo)和教育,但可能影響了老用戶的購物效率。
(3) 直接與用戶做定性訪談,觀察反饋
除了定量分析,定性反饋也必不可少。尤其是對于一些偏重體驗(yàn)和感受的改動,我們很難通過數(shù)據(jù)完全說明問題。這時(shí)候,與用戶直接對話就很重要了。
通過訪談或者問卷,我們可以直接聽取用戶對新舊兩個(gè)版本的主觀感受。他們的困惑、不適和抱怨,往往能帶給我們意想不到的啟發(fā)。
(4) 通過后續(xù)實(shí)驗(yàn)驗(yàn)證新的假設(shè)
實(shí)驗(yàn)失敗,往往意味著我們原有的優(yōu)化假設(shè)可能有問題,但同時(shí)也可能激發(fā)我們產(chǎn)生一個(gè)新的想法。這時(shí)候,最科學(xué)的做法就是用實(shí)驗(yàn)的方法,去嚴(yán)謹(jǐn)?shù)仳?yàn)證我們的新假設(shè)。
例如某電商網(wǎng)站,依靠賣某種商品作為主要的營收來源,而這個(gè)商品在網(wǎng)站上品類的入口本來是放在右上角,運(yùn)營人員下把它改到左上角,因?yàn)橛X得這樣更醒目,但是沒想到做了這個(gè)變化之后,這個(gè)商品的點(diǎn)擊率下降了非常的多。
同樣它通過新老用戶分解發(fā)現(xiàn)其實(shí)問題都出在老用戶身上,因?yàn)槔嫌脩袅?xí)慣了原來的位置,找不到了之后就沒法點(diǎn)擊了,所以他進(jìn)行了后續(xù)的實(shí)驗(yàn),提前給老用戶通知,然后引導(dǎo)他們?nèi)c(diǎn)擊這個(gè)新的位置,結(jié)果在新的版本里面,老用戶的這個(gè)商品的點(diǎn)擊率也上升了。
實(shí)驗(yàn)是一個(gè)探索的過程,每多迭代一次,我們對真相的認(rèn)知就更進(jìn)一步。
04 決定實(shí)驗(yàn)下一步
1. 決定實(shí)驗(yàn)下一步是流程的第三步
當(dāng)我們分析完實(shí)驗(yàn)數(shù)據(jù),得出了實(shí)驗(yàn)成敗的結(jié)論,并找到了背后的原因后,就要基于這些洞見來決定實(shí)驗(yàn)的下一步走向了。
這是我們實(shí)驗(yàn)分析與應(yīng)用流程中的第三步,直接關(guān)系到價(jià)值的最終變現(xiàn),意義重大。
2. 主要回答是否產(chǎn)品化應(yīng)用、是否放棄實(shí)驗(yàn)、是否繼續(xù)迭代優(yōu)化
實(shí)驗(yàn)后的決策無非三種走向:
如果實(shí)驗(yàn)非常成功,就要考慮盡快把優(yōu)化方案應(yīng)用到全部產(chǎn)品中,擴(kuò)大價(jià)值;
如果實(shí)驗(yàn)失敗,可以直接放棄這個(gè)優(yōu)化想法,把資源投入到其他項(xiàng)目中;
如果實(shí)驗(yàn)結(jié)果不盡如人意,但我們又有了新的優(yōu)化思路,那就需要進(jìn)一步細(xì)化假設(shè),繼續(xù)實(shí)驗(yàn)迭代。
選擇哪一種方向,取決于實(shí)驗(yàn)的效果、投入產(chǎn)出比、優(yōu)先級排序等多重因素。
3. 實(shí)驗(yàn)完成后的下一步選擇
(1) 實(shí)驗(yàn)成功,產(chǎn)品化應(yīng)用并最大化影響
一個(gè)成功的實(shí)驗(yàn)項(xiàng)目,下一步就是要推廣應(yīng)用,把效果擴(kuò)大化。但我們不能簡單地就直接全量上線新方案,而是要通過小規(guī)模滾動發(fā)布逐步產(chǎn)品化。
成熟的產(chǎn)品迭代流程中,都有一個(gè)灰度發(fā)布的環(huán)節(jié)。我們先在5%的流量上做小規(guī)模測試,沒問題后擴(kuò)大到10%、20%,最后再逐步擴(kuò)大到全部用戶。這個(gè)過程就是產(chǎn)品化應(yīng)用的”小步快跑”策略。它可以幫助我們及早發(fā)現(xiàn)問題,及時(shí)止損。
(2) 實(shí)驗(yàn)失敗,選擇放棄并清理實(shí)驗(yàn)代碼
對于一個(gè)失敗的實(shí)驗(yàn),果斷放棄是一種智慧。一個(gè)早早失敗的項(xiàng)目,能夠幫助我們及時(shí)止損,把資源釋放出來做更有價(jià)值的事情。
但在放棄實(shí)驗(yàn)時(shí),我們也要注意做好實(shí)驗(yàn)現(xiàn)場的”清理”工作。實(shí)驗(yàn)的相關(guān)代碼分支、配置項(xiàng)等,都要及時(shí)歸檔或刪除,避免沉淀下來成為歷史包袱。
同時(shí),我們還要把實(shí)驗(yàn)的得失總結(jié)記錄下來,供后人借鑒。
(3) 實(shí)驗(yàn)結(jié)果不理想但有新想法,選擇繼續(xù)迭代優(yōu)化
有時(shí)實(shí)驗(yàn)的結(jié)果不盡如人意,短期指標(biāo)沒能達(dá)成預(yù)期,但我們從失敗中獲得了新的洞察,激發(fā)了更多靈感。
這時(shí)我們大可不必輕言放棄,而是要集中團(tuán)隊(duì)的智慧,頭腦風(fēng)暴,積極尋求新的突破口。
也許,看似失敗的嘗試,最后醞釀成了一個(gè)非常成功的優(yōu)化方案。”失之東隅,收之桑榆”,這就是持續(xù)實(shí)驗(yàn)迭代的意義所在。
4. 放大成功實(shí)驗(yàn)的影響的三種方式
(1) 乘勝追擊:針對該點(diǎn)做更多實(shí)驗(yàn),進(jìn)一步提升指標(biāo)
一鼓作氣,再而衰,三而竭。當(dāng)我們在某個(gè)優(yōu)化點(diǎn)取得突破后,就要趁熱打鐵,在這個(gè)方向上做更多文章。
比如我們發(fā)現(xiàn),在商品詳情頁增加一個(gè)價(jià)格對比模塊,可以顯著提升下單轉(zhuǎn)化。那接下來我們就可以細(xì)化這個(gè)對比的內(nèi)容和形式,去測試不同的競品選取方式、不同的頁面布局等,看看還有沒有進(jìn)一步提升的可能。
集中資源,快速迭代,把價(jià)值潛力全部榨取出來。
(2) 舉一反三:把洞察用到產(chǎn)品其他地方
任何一次實(shí)驗(yàn),其價(jià)值都不應(yīng)局限于當(dāng)下的某個(gè)場景。一個(gè)實(shí)驗(yàn)的背后,往往蘊(yùn)藏著對人性和用戶行為的更廣泛洞察。
比如前面提到的商品詳情頁價(jià)格對比,我們從中得到的啟示是,用戶在購買決策時(shí),其實(shí)非常在意”貨比三家”,希望看到更多參照。
那這個(gè)認(rèn)知,其實(shí)可以被應(yīng)用到其他的場景中,來指導(dǎo)更多的優(yōu)化。比如在分類列表頁,是不是也可以提供同類產(chǎn)品的價(jià)格區(qū)間作為對比?在訂單結(jié)算頁,是不是也可以給出”月銷量Top10商品”的價(jià)格作為參考?
好的洞察,用到哪里都不嫌多。把洞察和心得用到產(chǎn)品渠道的其他地方,就是舉一反三了。
(3) 調(diào)整實(shí)驗(yàn)方向:根據(jù)結(jié)果重排其他實(shí)驗(yàn)優(yōu)先級
基于實(shí)驗(yàn)結(jié)果,我們要反思自己的實(shí)驗(yàn)計(jì)劃和假設(shè)。也許,一些之前并沒有排在最優(yōu)先的實(shí)驗(yàn)構(gòu)想,現(xiàn)在看來是大有可為的。那我們就要及時(shí)調(diào)整實(shí)驗(yàn)的優(yōu)先級隊(duì)列,讓資源向最有希望的方向傾斜。
比如我們原本計(jì)劃先做一個(gè)界面美化的項(xiàng)目,但最新的實(shí)驗(yàn)數(shù)據(jù)告訴我們,用戶最關(guān)注的其實(shí)是商品的品類豐富度。那我們應(yīng)該改變策略,先把主要精力投入到豐富商品庫存上來。
05 做好實(shí)驗(yàn)結(jié)果記錄
1. 將實(shí)驗(yàn)結(jié)果、心得、后續(xù)計(jì)劃都記錄在實(shí)驗(yàn)報(bào)告中
一個(gè)完整的實(shí)驗(yàn)報(bào)告,不僅要呈現(xiàn)實(shí)驗(yàn)的結(jié)果數(shù)據(jù),還要包含實(shí)驗(yàn)心得和后續(xù)計(jì)劃。實(shí)驗(yàn)數(shù)據(jù)是客觀的事實(shí),但解讀數(shù)據(jù)需要主觀的智慧。
將我們對數(shù)據(jù)的洞察、對成敗原因的思考都記錄下來,能夠讓實(shí)驗(yàn)報(bào)告更具價(jià)值。
同時(shí),每一個(gè)實(shí)驗(yàn)都應(yīng)該是一個(gè)起點(diǎn)而非終點(diǎn)。我們要基于實(shí)驗(yàn)的結(jié)論,規(guī)劃后續(xù)的迭代計(jì)劃或者決策建議,把價(jià)值落到實(shí)處。
2. 好的實(shí)驗(yàn)記錄習(xí)慣對后續(xù)實(shí)驗(yàn)有指導(dǎo)意義,避免重復(fù)測試
養(yǎng)成好的實(shí)驗(yàn)記錄習(xí)慣,能讓我們的實(shí)驗(yàn)經(jīng)驗(yàn)得以傳承和復(fù)用。一個(gè)團(tuán)隊(duì)做的實(shí)驗(yàn)越多,積累的報(bào)告和數(shù)據(jù)也就越豐富。
每做一個(gè)新實(shí)驗(yàn)前,都能先回顧以往的相關(guān)實(shí)驗(yàn),借鑒前人的經(jīng)驗(yàn)教訓(xùn),就可以避免走很多彎路。尤其是團(tuán)隊(duì)新人更迭時(shí),詳實(shí)的歷史實(shí)驗(yàn)報(bào)告可以幫助新人快速上手,也避免了重復(fù)測試?yán)速M(fèi)資源。
3. 積累的實(shí)驗(yàn)報(bào)告可作為新人培訓(xùn)工具
實(shí)驗(yàn)報(bào)告不僅是一份”死”的文檔,更是一份”活”的教材。它記錄了一個(gè)產(chǎn)品、一個(gè)團(tuán)隊(duì)在不同階段的優(yōu)化思路和實(shí)踐案例,是產(chǎn)品優(yōu)化智慧的結(jié)晶。
通過組織新人學(xué)習(xí)這些案例,我們可以幫助他們快速建立起產(chǎn)品優(yōu)化的思維模型,理解實(shí)驗(yàn)的基本邏輯。
同時(shí),歷史上那些經(jīng)典的實(shí)驗(yàn)項(xiàng)目,也可以成為內(nèi)部分享交流的素材,幫助團(tuán)隊(duì)成員互相啟發(fā),集思廣益。
06 總結(jié)
1. 增長實(shí)驗(yàn)的五個(gè)流程步驟
(1) 產(chǎn)生實(shí)驗(yàn)想法
找到優(yōu)化點(diǎn),提出假設(shè),是一切實(shí)驗(yàn)的起點(diǎn)。好的想法可以來自用戶反饋、行業(yè)對標(biāo)、數(shù)據(jù)分析等各個(gè)渠道。關(guān)鍵是要建立”實(shí)驗(yàn)思維”,時(shí)刻保持敏感和好奇。
(2) 實(shí)驗(yàn)設(shè)計(jì)
將所有實(shí)驗(yàn)想法,根據(jù) ICE模型進(jìn)行排列優(yōu)先級,確定先做哪個(gè)實(shí)驗(yàn)之后,就要把它”翻譯”成一個(gè)嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)方案。確定對照組和實(shí)驗(yàn)組的選擇邏輯、指標(biāo)體系的設(shè)計(jì)、實(shí)驗(yàn)周期和流量規(guī)模的選取等,都需要專業(yè)的實(shí)驗(yàn)設(shè)計(jì)能力。
(3) 完成實(shí)驗(yàn)PRD文檔
實(shí)驗(yàn)設(shè)計(jì)拍板后,就要形成一份標(biāo)準(zhǔn)的實(shí)驗(yàn)需求文檔(PRD)。這份PRD要讓研發(fā)同學(xué)清晰地知道,應(yīng)該給哪些用戶顯示什么樣的內(nèi)容,后端埋點(diǎn)要如何上報(bào)數(shù)據(jù)等。同時(shí)也要為實(shí)驗(yàn)上線后的數(shù)據(jù)解讀提供依據(jù)。
(4) 實(shí)驗(yàn)上線積累數(shù)據(jù)
萬事俱備,就等實(shí)驗(yàn)的”首飛”了。在實(shí)驗(yàn)上線后,我們要密切關(guān)注實(shí)驗(yàn)系統(tǒng)和數(shù)據(jù)反饋,確保實(shí)驗(yàn)流量和數(shù)據(jù)監(jiān)測正常。
然后就是靜待數(shù)據(jù)積累到一定量級,滿足我們下一步分析的需要。
(5) 分析和應(yīng)用實(shí)驗(yàn)結(jié)果
數(shù)據(jù)揭開了實(shí)驗(yàn)的”答案”,但也提出了新的”問題”。我們要客觀地分析實(shí)驗(yàn)效果,洞察數(shù)據(jù)背后的原因。
更要思考如何把實(shí)驗(yàn)的價(jià)值最大化,去指導(dǎo)產(chǎn)品決策、營銷策略乃至公司戰(zhàn)略。
2. 增長實(shí)驗(yàn)是件困難的事,成功并不容易
尋求增長,本就是一條充滿荊棘的道路。九曲回腸,百轉(zhuǎn)千回。每一個(gè)實(shí)驗(yàn),都凝結(jié)了產(chǎn)品和運(yùn)營同學(xué)的智慧與心血。
但我們必須正視,絕大多數(shù)實(shí)驗(yàn)的結(jié)果,其實(shí)都不如人意。有數(shù)據(jù)顯示,超過70%的AB實(shí)驗(yàn),其實(shí)驗(yàn)組并沒有取得優(yōu)于對照組的效果。優(yōu)秀的實(shí)驗(yàn)設(shè)計(jì)者,一年能做出兩三個(gè)有價(jià)值的優(yōu)化,就已經(jīng)是業(yè)內(nèi)翹楚了。
最后,實(shí)驗(yàn)思維告訴我們,世界上本沒有失敗,只有迭代。每一次實(shí)驗(yàn),不管結(jié)果如何,都應(yīng)該被視為一次學(xué)習(xí)的機(jī)會。
即便是一次失敗的嘗試,也往往能引發(fā)我們進(jìn)一步探索的興趣,讓我們對產(chǎn)品、對用戶有了全新的認(rèn)知。
正如LinkedIn的創(chuàng)始人雷德?霍夫曼所說:”要么成功,要么學(xué)習(xí)”。實(shí)驗(yàn)不是為了驗(yàn)證我們是對的,而是為了發(fā)現(xiàn)真相。
本文由 @小黑哥 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!