A/B測試增長實戰(zhàn)

0 評論 6686 瀏覽 57 收藏 22 分鐘

2021年9月4日 – 9月5日,人人都是產(chǎn)品經(jīng)理舉辦的【2021產(chǎn)品經(jīng)理大會?廣州站】完美落幕。字節(jié)跳動火山引擎資深數(shù)據(jù)營銷產(chǎn)品解決方案@胡雪 為我們帶來了精彩的分享,她分享的主題是《A/B測試增長實戰(zhàn)》。添加大會小助手豆豆(微信號:13265455310),回復暗號【031】,獲取本場嘉賓分享視頻回放,觀看完整演講。

A/B測試也被稱為對照實驗,起源于醫(yī)學研究領域,本質(zhì)為分離式組間實驗。那么,在互聯(lián)網(wǎng)行業(yè)是如何應用實現(xiàn)快速增長的呢?

在產(chǎn)品迭代過程中,我們有很多的想法和方案,但是沒有辦法確定哪一個更好,所以把方案做成A和B,并且將用戶進行均分,在用戶特征相同的情況下,分別進行A和B的方案,根據(jù)用戶真實數(shù)據(jù)進行評估,選出最優(yōu)方案。

這就是互聯(lián)網(wǎng)的A/B實驗。

用一個具體案例進行分析。

這是一個團購APP的產(chǎn)品貨架,也是流量最大的頁面入口,我們想要優(yōu)化標題文案,將“優(yōu)惠團購”改成“限時特惠”,看看是否能夠提升點擊量。

于是,我們就進行了A/B實驗,最后得出的結(jié)論是改動文案整體上沒有太大效果。但是對于單價較高的娛樂產(chǎn)品來說,點擊量提高了;但對于單價較低的餐飲產(chǎn)品來說,點擊量沒有變化。

產(chǎn)品團隊也從中得到啟發(fā),單純的文字游戲已經(jīng)不能刺激到消費者了。于是我們做了一個新測試,突出折扣力度。

原始的版本只是凸顯了原價和優(yōu)惠價,現(xiàn)版本把折扣力度擺出來,明明白白告訴消費者打了多少折實際優(yōu)惠。通過A/B測試,發(fā)現(xiàn)原來這樣的改動更能刺激用戶,整體點擊率上升3%,客單價高的娛樂類提升更為明顯為4.5%,甚至連之前沒有打動的餐飲類客戶也提升了1.6%,總結(jié)發(fā)現(xiàn)相比文案,用戶對數(shù)字/價格更敏感。

所以,復盤這個例子可以得知,我們需要通過A/B實驗,用自己的產(chǎn)品和真實用戶檢驗自己的策略,這樣才能得到增長實踐中最有用的信息。

而字節(jié)跳動在發(fā)展的過程中積累了很多產(chǎn)品和運營的增長方法論,也希望通過火山引擎這樣一個平臺輸出給大家。

火山引擎是字節(jié)跳動旗下的企業(yè)級技術服務平臺,將字節(jié)跳動快速發(fā)展過程中積累的增長方法、技術工具和能力開放給外部企業(yè),提供云、AI、大數(shù)據(jù)技術等系列產(chǎn)品和服務,幫助企業(yè)在數(shù)字化升級中實現(xiàn)持續(xù)增長。

字節(jié)內(nèi)部是如何增長的呢?

首先我們自己每發(fā)布一款新的APP,其名字都要打N個包去各大應用市場跑A/B測試,把產(chǎn)品的決策權交給用戶。張一鳴同學有句話說的就是:“哪怕你有百分之九十九點九的把握確定,那就是最好的名字,那測一下又有什么關系呢?”

抖音和頭條的名字也是通過A/B測試來的,但抖音并不是當時下載激活的第一名,但是產(chǎn)品團隊覺得抖音這個名字更貼合產(chǎn)品定位和調(diào)性,就用了抖音這個名字。

上面這個故事幾乎每天發(fā)生在字節(jié)跳動,如今,A/B測試平臺已經(jīng)服務了超過五百條內(nèi)部業(yè)務線,實際累計超過80萬個實驗,日增實驗1500+,能夠同時支撐超過一萬個核心產(chǎn)品以及其他產(chǎn)品線的實驗同時運行。

小到對外投放的一條推送文案,大到技術底座的升級,推薦算法的優(yōu)化,功能的迭代,我們都是會先通過A/B測試跑出一個正向的效果,才會推廣到全量用戶。

增長黑客的創(chuàng)始人Sean Ellis說過:“如果你不做實驗的話,我們可能就不會有增長?!?/p>

意思就是,我們每發(fā)版一個APP,會有很多部門推出的功能同時上線,如果不做實驗,就不知道業(yè)務指標的波動是受了哪個功能影響。

還有一種情況,當我們的業(yè)務處于上升期,盡管我們什么都不做,業(yè)務指標還是會上升。那我們的迭代真的能帶來實際增長嗎?

其實業(yè)務發(fā)展的邏輯就像是馬拉松,需要低損耗地朝正確方向持續(xù)小跑。

通過小流量去測試用戶,能夠加速產(chǎn)品的迭代,小步快跑積少成多。同時通過A/B測試保證數(shù)據(jù)是穩(wěn)定且有效的,降低決策風險,保證眼前的路不是下坡路。

下圖中的數(shù)據(jù)增長閉環(huán),產(chǎn)品和運營人都不陌生。

舉一個具體例子,為什么支付頁的轉(zhuǎn)化率低?很多人覺得就是通過分析數(shù)據(jù)猜測原因,選一個看似最能解決問題的可能就直接上線。在沒有A/B測試的情況下,這看似是數(shù)據(jù)驅(qū)動決策,實際上還是經(jīng)驗驅(qū)動決策。

如果是我們,我們會怎么解決?

首先會提出假設,是用戶不喜歡我們的UI風格嗎?還是覺得支付流程過長?那通過設計不同UI風格,精簡支付流程,同時讓這兩個方案進行A/B測試,讓用戶真實的行為告訴我們,更喜歡哪個方案。

解讀實驗報告的過程也是在解密功能對用戶行為影響的過程。

A/B測試能夠加深我們對產(chǎn)品和用戶的認知,糾正過去錯誤的理解和偏見。

所以數(shù)據(jù)驅(qū)動這個圓環(huán)不停旋轉(zhuǎn)起來,沉淀下來的就是新的經(jīng)驗新的認知,也提高了業(yè)務團隊的決策能力。

所以A/B對于字節(jié)不僅是工具,可以說一種業(yè)務文化,這種經(jīng)驗和文化不斷的傳播,大帶小、老帶新,就形成了公司內(nèi)部的正循環(huán)。

前面溝通了這么多A/B的價值,A/B實驗具體可以在哪些場景下使用?

以電商用戶為例,如下圖所示,這是電商產(chǎn)品拉新、獲取、激活、到最后流失的整個留存曲線。在這其中有幾個拐點,產(chǎn)品和運營的工作就是運營和增長的手段在拐點來臨之前把他們拉回,A/B測試所運用的地方也是這些拐點之前。

舉個例子,在做廣告投放時,可以通過不同的落地頁進行轉(zhuǎn)化對比,提升投放的ROI。用戶吸引來之后,要對他進行激活,可以發(fā)優(yōu)惠券,優(yōu)惠券的金額根據(jù)數(shù)據(jù)對比實驗決定。

成為了活躍用戶之后,用戶只有在體驗過產(chǎn)品的核心功能并認可產(chǎn)品的價值才會真的留下成為一個活躍用戶,這個階段會做產(chǎn)品實驗比如優(yōu)化搜索、下單流程、支付流程等。

電商希望更多用戶的能更快地匹配到更合適的商品、這樣不僅能讓用戶在app停留更久,也能促進高頻高質(zhì)量的消費,就要推薦算法提升粘性,就會用到推薦算法調(diào)優(yōu)實驗。

  • 針對老用戶,可以開發(fā)針對性的個性推送提升復購;
  • 針對沉睡用戶,可以進行定向圈人開push實驗進行召回喚醒。

這就是A/B測試在整個用戶生命周期中的作用。

舉一個實戰(zhàn)案例,來講述下A/B實驗是如何在支付環(huán)節(jié)提升收益的。

這是一個租車APP,用戶在結(jié)算頁面需要支付租金和押金。押金比租金要高很多,這兩個金額同時支付對于用戶的心理成本很大,所以支付頁面的轉(zhuǎn)化率很低。

我們提出一個想法,把押金和租金的支付頁面分開,明確告訴用戶押金支付完可以退,是否能提升下單。

也有人擔心這樣拆分支付流程變長,用戶會流失。

但是通過A/B測試,發(fā)現(xiàn)改動之后下單轉(zhuǎn)化率提升了7%。雖然支付流程變長了,但是降低了用戶的心理阻力。

有了優(yōu)化場景,想做A/B實驗,但具體的頁面應該如何優(yōu)化呢?

我們提出了LIFT模型,并且從中總結(jié)了一個公式:

用戶動機=用戶感受到的價值/收益用戶感受到的成本

我們要做的就是放大收益,縮小成本。

還是以電商產(chǎn)品為例,價值主張就是希望買到物美價廉的商品。如何放大這個價值呢?如果我是一個美妝愛好者,那就需要把營銷的重點放在美妝品類,并且讓我清楚地第一眼就知道這是一個關于美妝的營銷活動。

以上就是需要提升的因素,而焦慮性和注意力都是需要降低的因素。

比如焦慮性,說一個大家不一定注意到的焦慮感來源,如果UI頁面的色彩對比過于明顯,對比度過高,從心理學層面來說會對用戶造成一定程度的視覺焦慮。通過優(yōu)化UI頁面,可以減少焦慮和分散注意力的情況。

字節(jié)做了80w+實驗,從前期的A/B小白到后期輸出成熟的A/B測試平臺,我們也是親身踩坑,總結(jié)出了以下經(jīng)驗,實驗常見的8個錯誤認知:

有些同學為了校驗分流服務是否正常喜歡開aa實驗,但是在檢驗假設的過程中,我們會犯第一類錯誤——我的策略沒有用,但實驗結(jié)果顯示我的策略有用。

在95%的置信水平下這類錯誤出現(xiàn)的概率是5%,即我們開100次AA實驗,然后觀測某個指標,可能會有5次得到顯著的結(jié)果。這是由于不可避免的抽樣誤差所導致的。發(fā)生AA置信的情況屬于正?,F(xiàn)象,A/B測試平臺會保證分流和統(tǒng)計服務的可靠性,請你盡管大膽假設,小心實驗。

另外,實驗不顯著就不停止實驗。理論上任何一點差異只要樣本足夠多,都能檢測出差距,A/B實驗中,無論A策略與B策略多么相像,他們終歸是不一樣的。理論上來說,只要樣本足夠多(比如無窮多時),最后實驗結(jié)果都會形成統(tǒng)計顯著。但這種顯著有意義嗎?比如我的實驗開啟了整整10年,新策略使指標提升0.001%。

那這樣的實驗意義大嗎?

既然A/B測試這么有效,但是公司開發(fā)資源緊缺,這可怎么辦?

字節(jié)早期A/B測試也是沒有產(chǎn)品化平臺的,后續(xù)為了降低我們自己做實驗的成本,開發(fā)了火山引擎A/B測試平臺,一個低成本的實驗解決方案。

比如運營人常用的落地頁實驗,將不同樣式的落地頁鏈接放上去,就能對比看出不同落地頁的轉(zhuǎn)化效果。

可視化實驗,如果只是想改動頁面的中文案、圖片、顏色等,可以通過可視化實驗調(diào)整UI頁面。

push實驗,這也是運營最常用的實驗。測試推送的時間、推送的文案、推送的策略等,找到最佳的轉(zhuǎn)化方案。

這還不夠,用技術和算法實現(xiàn)了實驗智能化,希望能夠徹底把人力從瑣碎的工作中解脫出來。

因此我們推出了動態(tài)調(diào)優(yōu)的智能實驗,其原理就是多臂老虎機。

這種實驗無需A/B測試,根據(jù)用戶實時反饋智能分配,并保障收益最大化,可以對大部分運營實驗實現(xiàn)智能化,運營推送文案賽馬、落地頁動態(tài)優(yōu)選、廣告投放策略優(yōu)選、活動頁面樣式調(diào)整呢可以 做MVT多變量組合智能優(yōu)選,優(yōu)勢非常明顯。

我用一個游戲的例子介紹智能化實驗是怎么回事。

為了保持用戶粘性,游戲一般有完善的用戶激勵體系,這款游戲app在運營初期設計了一套發(fā)元寶來激活用戶的方案。早中晚發(fā)放三次元寶,每次會發(fā)push通知用戶進行召回。

運營精心設計挑出了最滿意四組文案。

這時他犯了難,如果開ab實驗呢就需要一周,耽誤事,而且用戶量也不大,能回收的數(shù)據(jù)也不多影響實驗效果靠人經(jīng)驗拍決策質(zhì)量最不穩(wěn)定,因此我們就推薦他智能化實驗完美地解決了這個問題。

實驗開啟后無需操作和關注數(shù)據(jù),abcd四組文案在每一次下發(fā)后都會實時收集反饋,自動根據(jù)上一輪的結(jié)果決定下一輪發(fā)什么,效果好的就加大流量效果差的就干掉,中規(guī)中矩的就給一少量流量留用觀察,輪過幾輪的循環(huán)推送,最終從均分,變成了絕大多數(shù)流量分給B和D脫穎而出并且旗鼓相當,A文案慘遭淘汰。最終效果相比均分,ctr提升9.2%,一定程度上實現(xiàn)了千人千面。

一旦實驗增多,人力無法協(xié)調(diào),智能動態(tài)調(diào)優(yōu)實驗就是一個解放人力的好方案。

實驗上線后,如何解讀實驗結(jié)果呢?目前結(jié)果如何,誰好誰壞好多少,哪一天出結(jié)果?

例如,今天廣州市的用戶,在不同版本之間的轉(zhuǎn)化率表現(xiàn)是怎么樣的,方便我們更快速決策,知道我實驗整體的結(jié)果和ROI,讓我們的決策鏈更清晰完整。

實現(xiàn)以上實驗想法的一站式全棧多場景實驗平臺,他具有哪些能力呢?

線上有多端的觸點,多端sdk用來上報用戶行為數(shù)據(jù),根據(jù)實驗的需要也可以從客戶端或服務端實現(xiàn)分流,用以滿足不同場景做實驗的需求。

同時還需要有正交和互斥分流來保證分流的科學性。

說完分流,在不同的場景做實驗,想要快速上線。編程實驗、可視化實驗、多鏈接實驗、推送實驗等都是能幫助產(chǎn)品和運營減少成本,快速上線實驗的場景實驗模板。

接著實驗上線后,科學易懂的實驗報告幫助解讀實驗數(shù)據(jù),為業(yè)務做決策參考。

但是,A/B測試只是一個小流量的測試,產(chǎn)品推廣到全量用戶很有可能會產(chǎn)生性能崩潰、產(chǎn)品功能bug等問題。

Feature Flag智能發(fā)布可以幫助從小流量A/B測試驗證成功的結(jié)果,絲滑穩(wěn)定地過渡到全量用戶中,為我們的產(chǎn)品迭代保駕護航。

綜上,A/B測試有這些核心價值:

  • 業(yè)務創(chuàng)新:通過持續(xù)的功能優(yōu)化打磨,累積創(chuàng)新效果,逐步形成迄今最優(yōu)的產(chǎn)品形態(tài)。
  • 降本增效:降低試錯成本,降低技術資源投入。例如UI交互優(yōu)化,可直接通過可視化實驗,無需申請研發(fā)資源,快速上線。
  • 收益提升:優(yōu)化產(chǎn)品購買流程/文案可直接帶來可觀的經(jīng)濟收益。
  • 管理提效:業(yè)務部門精準衡量新策略/功能,對大盤整體的業(yè)績貢獻度,為管理層向上匯報提供準確的數(shù)據(jù)依據(jù)和科學度量。

我們總結(jié)了一個增長實踐的地圖。

火山引擎在產(chǎn)品運營方面是如何實現(xiàn)增長的呢?

從頂層目標【提升app活躍】進行拆解,得到提升主動自然訪問和被動運營訪問兩個路徑,自然訪問通過完善產(chǎn)品功能體驗,加強福利權益,創(chuàng)意互動等去支撐自然訪問的提升,運營訪就涉及精細化觸達,通過觸點,內(nèi)容和策略的管理來實現(xiàn)提升被動打開的次數(shù)。

再通過不同的策略以及方法論,實現(xiàn)roi和規(guī)模的最大化,

這些其實都離不開強大的數(shù)據(jù)基座能力、數(shù)據(jù)分析,增長策略(包含ab測試),以及建模能力。

從下至上,達到提升活躍的最終目的。

我們的初心和愿景均是鼓勵大膽創(chuàng)新,通過嚴謹?shù)倪壿嫼凸ぞ咝⌒那笞C,方能收獲增長。

相關閱讀

《高代碼產(chǎn)品經(jīng)理時代:如何避免技術型產(chǎn)品的浪潮中被時代淘汰》

《數(shù)字化產(chǎn)品創(chuàng)新與生態(tài)規(guī)劃》

《B端產(chǎn)品的業(yè)務診斷和建?!?/a>

《C端產(chǎn)品的增長實踐》

《大變局下的產(chǎn)品經(jīng)理生存指南》

年度行業(yè)大會開啟巡回

互聯(lián)網(wǎng)圈年度盛典,聽一線實戰(zhàn)專家深度分享,與數(shù)千位互聯(lián)網(wǎng)圈同行深度交流,拆解產(chǎn)品、運營實戰(zhàn)案例,挖掘行業(yè)新機會!

掃描下方二維碼添加大會小助手,回復暗號【032】領產(chǎn)品經(jīng)理&運營人必備工具包,獲取全年大會最新資訊!

本文為【2021年產(chǎn)品經(jīng)理大會·廣州站】現(xiàn)場分享整理內(nèi)容,由人人都是產(chǎn)品經(jīng)理運營 @Aine 整理發(fā)布。未經(jīng)許可,禁止轉(zhuǎn)載,謝謝合作

題圖來自大會現(xiàn)場

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!