增長(zhǎng)模型下的數(shù)據(jù)體系運(yùn)用(2):利用AB測(cè)試選擇最優(yōu)功能

4 評(píng)論 11064 瀏覽 96 收藏 28 分鐘

本篇談一個(gè)大家十分熟悉的技術(shù)——AB測(cè)試。所有有實(shí)際產(chǎn)品或運(yùn)營(yíng)經(jīng)驗(yàn)的同學(xué)對(duì)它都不陌生,然而,在實(shí)際運(yùn)用中卻常常存在意識(shí)或決策上的明顯錯(cuò)誤。

有四個(gè)問(wèn)題,常常會(huì)存在判斷上的困難:

  1. 到底什么要做AB測(cè)試?什么不要做?
  2. AB測(cè)試時(shí),我們應(yīng)該如何判定什么數(shù)據(jù)是正確的觀察對(duì)象?
  3. A和B本身只是兩個(gè)平級(jí)的分支,那么如果想要同時(shí)測(cè)試多個(gè)因素,尤其是互相重疊的因素(無(wú)法對(duì)等分為A、B、C、D測(cè)試組),那該怎么辦?
  4. AB測(cè)試的結(jié)果真的像看起來(lái)那么正確嗎?

這幾個(gè)問(wèn)題看起來(lái)似乎很簡(jiǎn)單,然而,實(shí)際工作中我們恰恰常在這幾點(diǎn)上做出錯(cuò)誤決策。下面讓我結(jié)合實(shí)戰(zhàn)案例上做一些探討:

一、AB測(cè)試做與不做的具體情況

01

我最初接觸AB測(cè)試時(shí)認(rèn)為:如果想精確評(píng)估一個(gè)功能帶來(lái)的效果,或者衡量對(duì)比兩個(gè)決策因素(或者兩個(gè)設(shè)計(jì)、兩個(gè)選項(xiàng)……)孰優(yōu)孰劣如何選擇,我們可以通過(guò)AB測(cè)試來(lái)實(shí)際看一下到底哪個(gè)更優(yōu)。如果采用某個(gè)方案已經(jīng)非常肯定,那么AB測(cè)試并沒(méi)有太大必要。

然而,在實(shí)際工作中,我還是看到了非常多的例子,似乎已經(jīng)非??隙ǖ氖虑椋珹B測(cè)試的結(jié)果卻給出了完全相反的答案。

下面我們看一個(gè)實(shí)際的例子:

作為綜合性電商,如何在顯示面積有限的移動(dòng)端向消費(fèi)者高效率展示海量商品,是個(gè)普遍的難題。

大多數(shù)情況下,會(huì)根據(jù)一級(jí)分類設(shè)計(jì)類目頻道,點(diǎn)進(jìn)去是二級(jí)分類頻道,再點(diǎn)進(jìn)去是三級(jí)分類頻道……這樣的結(jié)果,需要用戶走很深的層級(jí)才能看見(jiàn)具體的商品,不但“酒香巷子深”,而且每一次跳轉(zhuǎn),都會(huì)導(dǎo)致流量大比例跳失。所以近年來(lái)電商產(chǎn)品普遍嘗試的一個(gè)趨勢(shì)是“做淺”。

我的團(tuán)隊(duì)曾經(jīng)針對(duì)“做淺”做過(guò)一個(gè)產(chǎn)品改造,在移動(dòng)端首頁(yè)的所有類目頻道入口直接增加展示單品,以驅(qū)動(dòng)商品曝光,帶來(lái)更多的商詳頁(yè)瀏覽量,并通過(guò)個(gè)性化算法向不同用戶推薦不同的活動(dòng)和單品,以提升轉(zhuǎn)化率。如下圖,

首頁(yè)流量非常大,這樣的首頁(yè)商品曝光+個(gè)性化算法選品,我們認(rèn)為必然能帶來(lái)商詳頁(yè)流量的明顯提升。這個(gè)項(xiàng)目如果是我以前負(fù)責(zé)本地電商產(chǎn)品時(shí),可能會(huì)直接安排上線,因?yàn)橹饔^預(yù)期非常明確。

但是,公司有嚴(yán)格的規(guī)定,所有新功能上線都必須要經(jīng)過(guò)Weblab的數(shù)據(jù)驗(yàn)證。Weblab系統(tǒng)實(shí)際上就是一個(gè)AB測(cè)試的系統(tǒng),可以輸入觀察的目標(biāo)數(shù)據(jù)項(xiàng),系統(tǒng)會(huì)用一段時(shí)間跑出結(jié)果,對(duì)比有新功能的分組(Treatment Group,簡(jiǎn)稱T)和沒(méi)有新功能的分組(Control Group,簡(jiǎn)稱C),直接體現(xiàn)目標(biāo)數(shù)據(jù)項(xiàng)的增減情況。

經(jīng)過(guò)四周的Weblab測(cè)試,數(shù)據(jù)結(jié)果表明,T與C相對(duì)比,商詳頁(yè)流量下降了1.32%?。?!

這是一個(gè)非常意外的結(jié)果,產(chǎn)品和BA團(tuán)隊(duì)隨后立即進(jìn)行了深入的專題數(shù)據(jù)分析。

請(qǐng)仔細(xì)觀察上圖,圖中每個(gè)“Grid”對(duì)應(yīng)的是首頁(yè)各品類頻道入口對(duì)商詳頁(yè)的導(dǎo)流數(shù)據(jù),在Weblab測(cè)試結(jié)果中,C的數(shù)據(jù)為左邊橙色柱,T的數(shù)據(jù)為右邊褐色柱。從左到右的每組柱體,代表一個(gè)品類頻道入口數(shù)據(jù),在首頁(yè)自上而下排序。

從圖中我們可以看到:在第二、第三個(gè)欄目中(Grid-18,Grid-19),新版本帶給商詳頁(yè)的流量確實(shí)超越了老版本;但從第四個(gè)欄目(Grid-20)開(kāi)始出現(xiàn)逆轉(zhuǎn);越深的欄目,貢獻(xiàn)給商詳頁(yè)的流量下跌越多;最后計(jì)算總體數(shù)據(jù),發(fā)現(xiàn)老版本的商詳頁(yè)導(dǎo)流能力更強(qiáng)!

產(chǎn)品分析的結(jié)論是:新版設(shè)計(jì)加大了單個(gè)品類頻道的入口高度,雖然單個(gè)品類頻道的商詳導(dǎo)流能力增強(qiáng)了;但在同樣的移動(dòng)端屏數(shù)里,得到曝光的品類頻道入口減少了。由于移動(dòng)端流量隨著屏數(shù)加深而迅速衰減,導(dǎo)致向用戶曝光的品類頻道減少,所以全局上商詳流量出現(xiàn)了下降。根據(jù)這個(gè)結(jié)果,最后技術(shù)團(tuán)隊(duì)回滾了這個(gè)功能。

這個(gè)案例表明,很多主觀上看似明顯更好的設(shè)計(jì),在數(shù)據(jù)結(jié)果上往往出人意料。

因此,如果條件具備的話,所有的新功能迭代都應(yīng)當(dāng)進(jìn)行AB測(cè)試,并保持一個(gè)合理的時(shí)長(zhǎng),來(lái)驗(yàn)證預(yù)期效果是否達(dá)到;尤其要謹(jǐn)慎的是,局部?jī)?yōu)化,是否在全局上反而得不償失。

多提一句,也許有產(chǎn)品同學(xué)會(huì)有疑問(wèn),做淺既然是正確的大趨勢(shì),那么這個(gè)改造為什么失敗了?

主要是因?yàn)檫@個(gè)方式考慮不夠全面,如何正確地“做淺”不在本文范圍,后面談首頁(yè)和頻道頁(yè)設(shè)計(jì)的時(shí)候我們?cè)偕钊胩接?。這里主要是通過(guò)這個(gè)案例說(shuō)明,AB測(cè)試常常會(huì)否決想當(dāng)然的推測(cè)。

02

進(jìn)行AB測(cè)試時(shí),我們可以多注意以下的問(wèn)題,避免踩雷。

1. 進(jìn)行局部AB測(cè)試

有時(shí)一個(gè)新功能至關(guān)重要,或者來(lái)自領(lǐng)導(dǎo)層的明確要求,不適合在全局只上一半,此時(shí)可以考慮進(jìn)行局部AB測(cè)試。

例如:

把A和B分組從50:50調(diào)整成90:10(如果流量足夠大,甚至可以99:1),然后用那10%的局部測(cè)試的結(jié)果數(shù)據(jù)乘以9,來(lái)和那90%進(jìn)行對(duì)比,得到結(jié)論。

要特別說(shuō)明的一個(gè)誤區(qū)是——目前很多App是采用灰度發(fā)布的模式,慢慢把上線流量從5%提升到100%,這和AB測(cè)試是完全不同的策略。

灰度發(fā)布的目的是防止未知的錯(cuò)誤影響全局,往往先從新疆西藏等小流量地區(qū)上線,沒(méi)問(wèn)題再擴(kuò)大到陜西湖南湖北,再?zèng)]問(wèn)題則延伸到江浙滬京廣深等大流量區(qū)域,直至全局上線。每步推進(jìn)往往只間隔幾個(gè)小時(shí),最多一天。

而切分部分流量進(jìn)行AB測(cè)試,則需要十分科學(xué)、均衡、對(duì)等、隨機(jī)地選取流量,并進(jìn)行相對(duì)更為長(zhǎng)期的測(cè)試(至少在2~4周),以取得足夠的結(jié)果樣本,提高結(jié)果的正確性。

2.?在A和B樣本選取的時(shí)候,需要對(duì)影響因素盡量保持完全對(duì)等

例如:

平臺(tái)的50%流量來(lái)自北京,50%流量來(lái)自上海,在做對(duì)比分組的時(shí)候,就不宜把北京作為A分組,把上海作為B分組;因?yàn)楸本┖蜕虾5挠脩?,本身很可能就存在較大的特性差異。

此時(shí)最好通過(guò)系統(tǒng)隨機(jī)抽取樣本,讓各種影響因素在兩個(gè)樣本里均勻分布(例如IP地址最后一位為奇數(shù)的為A組,偶數(shù)的為B組),通過(guò)精心設(shè)計(jì)的對(duì)等性屏蔽所有除被測(cè)因素以外的影響因子。

3.?要注意用戶對(duì)新功能新用法有一個(gè)習(xí)慣培養(yǎng)過(guò)程

例如:

出于不加大首頁(yè)長(zhǎng)度、犧牲下方欄目流量,以及在首頁(yè)展示更多單品的理由下,我們?cè)?jīng)把秒殺頻道在首頁(yè)展示的單品,由縱向平鋪改成橫向劃動(dòng)。

當(dāng)時(shí)的全局的AB測(cè)試證明這是一個(gè)失敗的嘗試;但時(shí)隔一年再次嘗試,卻取得了相反的結(jié)果!

通過(guò)分析,我們發(fā)現(xiàn)是在做AB測(cè)試時(shí),有一批老用戶習(xí)慣了縱向劃動(dòng)瀏覽秒殺欄目,不習(xí)慣新的交互方式,帶來(lái)了較差的預(yù)期效果,影響了整體數(shù)據(jù)。然而,對(duì)于新用戶來(lái)說(shuō),橫劃瀏覽是一個(gè)非常高效的方式(注意對(duì)橫劃的引導(dǎo)設(shè)計(jì)),而老用戶隨著時(shí)間推移也會(huì)接受這個(gè)新交互方式,此時(shí)效果就會(huì)體現(xiàn)出來(lái)。因此,對(duì)于這種高度受使用習(xí)慣影響的功能,應(yīng)當(dāng)把測(cè)試數(shù)據(jù)集限定在不受固有習(xí)慣影響的新用戶中,或把測(cè)試周期拉到足夠長(zhǎng)。

4.?戰(zhàn)略性的新功能并不適用于AB測(cè)試

戰(zhàn)略往往專注于未來(lái),但AB測(cè)試只反應(yīng)當(dāng)前。新業(yè)務(wù)功能開(kāi)發(fā)出來(lái)時(shí),因?yàn)槟承┉h(huán)境支持因素、用戶使用習(xí)慣、或配套條件還不完全具備,數(shù)據(jù)上可能居于劣勢(shì)。

例如:

在商詳頁(yè)商品圖首次使用視頻時(shí),可能由于4G網(wǎng)絡(luò)還不夠普及,或者視頻素材制作水平還不夠規(guī)范,導(dǎo)致視頻商詳圖片帶來(lái)的效果并不理想。但只要相信這是正確的方向,就應(yīng)該堅(jiān)持下去。

5. 避免投入的浪費(fèi)

有時(shí)大家可能會(huì)有這樣的矛盾:一個(gè)功能如果沒(méi)做,是沒(méi)法做AB測(cè)試的;如果做了,那么研發(fā)成本都付出了,不上線多可惜。再或者,兩個(gè)方案不知道哪個(gè)好,如果不都開(kāi)發(fā)出來(lái),是無(wú)法進(jìn)行AB測(cè)試的;如果都開(kāi)發(fā)了,那么付出了雙倍的成本,如何避免投入的浪費(fèi)?

其實(shí)這類問(wèn)題并沒(méi)有標(biāo)準(zhǔn)答案。本土互聯(lián)網(wǎng)公司講究“試錯(cuò)”,講究速度,不管對(duì)錯(cuò),做了再說(shuō),總有碰對(duì)的。而亞馬遜這樣的國(guó)際巨頭,則極其嚴(yán)謹(jǐn),寧可不做,也不做錯(cuò)誤的。

以前我在1號(hào)店,一個(gè)迭代兩周就平均上線60多個(gè)功能,看到數(shù)據(jù)變化了,卻沒(méi)有準(zhǔn)確地知道誰(shuí)帶來(lái)了多少增長(zhǎng)或?qū)е铝硕嗌傧碌?,懵懵懂懂往前狂奔?/p>

而亞馬遜則十分嚴(yán)謹(jǐn),每個(gè)功能必須做AB測(cè)試,達(dá)到了確信的提升才允許上線;一個(gè)項(xiàng)目上線前會(huì)不斷被AB測(cè)試專家、用戶體驗(yàn)專家、技術(shù)團(tuán)隊(duì)、業(yè)務(wù)團(tuán)隊(duì)所挑戰(zhàn)。

狂奔,有時(shí)候其實(shí)只是在兜圈子;而太謹(jǐn)慎,則可能輸了速度,win the battle lose the war。

在我看,沒(méi)什么對(duì)錯(cuò),要敢賭;但出手前要審慎地推敲,不打無(wú)把握的仗,事后則要想辦法清晰準(zhǔn)確地知道每件事的成敗得失。

帶著這個(gè)思路回看前面的問(wèn)題,我的觀點(diǎn)是:如果做了之后證明效果不佳或者平平,不上更好,止損好過(guò)進(jìn)一步損失,也減少折騰用戶。付出的都是沉沒(méi)成本,不能因?yàn)樯岵坏枚绊懳磥?lái)決策(是不是覺(jué)得心有點(diǎn)痛,做都做了,不上好可惜~)。

兩個(gè)方案做哪個(gè)好,仔細(xì)分析下,做更有信心的,賭一把。如果確實(shí)差不多又是重大功能,就都做,根據(jù)AB測(cè)試取好的,因?yàn)锳和B的價(jià)值差異,可能都超過(guò)成本本身。但如果這個(gè)功能不太重要,那都別做了,把時(shí)間省下來(lái)做更重要但事。半重要不重要的,拋個(gè)硬幣吧。

二、AB測(cè)試時(shí),如何判定正確觀察指標(biāo)?

AB測(cè)試之前,大家都會(huì)選定若干關(guān)鍵指標(biāo)作為核心被測(cè)指標(biāo),來(lái)對(duì)比兩個(gè)測(cè)試集之間的效果差異。這里常見(jiàn)的一個(gè)錯(cuò)誤是,所選擇的判定指標(biāo)較為片面,不能正確全面體現(xiàn)方案效果,得出錯(cuò)誤結(jié)論。

下面我們來(lái)看一個(gè)實(shí)際案例:

在中國(guó)的電商應(yīng)用中,大家可能習(xí)慣把購(gòu)物車(chē)當(dāng)做收藏夾,把有可能會(huì)購(gòu)買(mǎi)的商品放進(jìn)購(gòu)物車(chē),在最后結(jié)算時(shí)勾選本次要買(mǎi)的商品進(jìn)入結(jié)算流程,剩下的則繼續(xù)收藏在購(gòu)物車(chē)?yán)?,留在以后下單。真正的收藏夾反而使用較少,或用來(lái)收藏店鋪或重度復(fù)購(gòu)商品。

某亞的購(gòu)物車(chē)邏輯有所不同。它更類似用戶在超市中實(shí)際推的購(gòu)物車(chē);在最后結(jié)算時(shí),必須要從購(gòu)物車(chē)中移除所有本次不購(gòu)買(mǎi)的商品,然后把購(gòu)物車(chē)所有商品一起結(jié)算。如果不想直接刪除,可以移入收藏夾。

前者在中國(guó)用戶用得很好,而后者則在全世界用戶那里用得很好,除了中國(guó)。兩者可能沒(méi)有絕對(duì)的好壞之分,都是用戶習(xí)慣培養(yǎng)的問(wèn)題,只是兩邊培養(yǎng)的用戶習(xí)慣不太一樣。

那么問(wèn)題來(lái)了,某亞中國(guó)app該怎么辦?我看到很多用戶反饋,某亞購(gòu)物車(chē)和大家習(xí)慣的不一樣,會(huì)買(mǎi)錯(cuò)東西,很不方便,等等。

這個(gè)問(wèn)題由來(lái)已久,兩年前某亞購(gòu)物車(chē)團(tuán)隊(duì)也曾上線過(guò)類似中國(guó)購(gòu)物車(chē)的部分結(jié)算版本(稱為Partial Checkout);但經(jīng)過(guò)AB測(cè)試驗(yàn)證,Partial Checkout版本以銷(xiāo)售額作為對(duì)比指標(biāo),在為期一個(gè)月的AB測(cè)試中輸給了原來(lái)的版本,因此該版本最終被回滾。

這是一個(gè)有些意外的結(jié)果,我們做了跟進(jìn)分析,得到如下結(jié)論:

1. 用戶習(xí)慣尚未形成時(shí),剛接觸全部結(jié)算版本購(gòu)物車(chē)的新用戶,有可能把一些本來(lái)沒(méi)打算當(dāng)次購(gòu)買(mǎi)的商品納入訂單,也就是說(shuō),一不小心多買(mǎi)了。如果只是簡(jiǎn)單地以銷(xiāo)售額來(lái)衡量,全部結(jié)算的老版本反而占到了優(yōu)勢(shì)。

2. 一不小心多買(mǎi)了的用戶,事后發(fā)現(xiàn)時(shí)有一部分人會(huì)選擇退貨,由此造成了退貨率的提升。同時(shí),用戶滿意度會(huì)受到影響。但因?yàn)椴皇撬腥硕紩?huì)退貨,老版本銷(xiāo)售額顯得更高。

3. 部分結(jié)算版本購(gòu)物車(chē),用戶可以保留不立即結(jié)算的商品,因此這些在購(gòu)物車(chē)中保留的商品具有未來(lái)潛在的銷(xiāo)售機(jī)會(huì)。而對(duì)于全部結(jié)算版本購(gòu)物車(chē),數(shù)據(jù)表明:大約有40%的用戶會(huì)把不結(jié)算商品移入收藏夾,其余用戶則會(huì)直接刪除。這一定程度地?fù)p失了這些商品的后續(xù)銷(xiāo)售機(jī)會(huì)。然而,后續(xù)銷(xiāo)售會(huì)有一個(gè)時(shí)間后置,未來(lái)的損失不會(huì)在為期一個(gè)月的AB測(cè)試階段被捕獲。

通過(guò)以上分析我們看到,這個(gè)購(gòu)物車(chē)的改動(dòng)直接影響到四個(gè)因素:直接銷(xiāo)售、未來(lái)潛在銷(xiāo)售、退貨率、用戶滿意度。

此外,由于操作步驟更加復(fù)雜(必須刪除不結(jié)算商品),導(dǎo)致結(jié)算步驟可能有更高的跳失率。在前次的AB測(cè)試中,測(cè)試指標(biāo)只考慮了直接銷(xiāo)售因素,由此得出了可能比較片面的結(jié)論。

不過(guò)想要全面衡量上述指標(biāo),難點(diǎn)在于:

1. 未來(lái)潛在銷(xiāo)售無(wú)法拉取未來(lái)數(shù)據(jù),除非做一個(gè)歷時(shí)較長(zhǎng)的AB測(cè)試,但即使時(shí)長(zhǎng)覆蓋多個(gè)用戶平均下單周期,也無(wú)法準(zhǔn)確衡量全部未來(lái)銷(xiāo)售影響。下篇文章我會(huì)介紹一個(gè)非常有價(jià)值的方法,來(lái)計(jì)算未來(lái)價(jià)值。

2. 用戶滿意度是一個(gè)綜合性指標(biāo),同時(shí)受到非常多因素的影響,此外它的獲取方式也很不同于AB測(cè)試的功能投放,較難直接剝離出來(lái)納入AB測(cè)試結(jié)果的綜合分析。

在綜合考量后,產(chǎn)品團(tuán)隊(duì)再次推動(dòng)部分結(jié)算版本的購(gòu)物車(chē),并在新一輪的考量更全面的指標(biāo)后,該版本贏得了AB測(cè)試,獲得了0.34%的綜合銷(xiāo)售提升和0.66%的下單頻度提升,最終得以成功上線。

以上案例說(shuō)明,在進(jìn)行AB測(cè)試時(shí)應(yīng)當(dāng)根據(jù)被測(cè)功能的綜合價(jià)值,對(duì)考量指標(biāo)做一個(gè)全面分析,考慮多維度價(jià)值以及中長(zhǎng)期影響,做出一個(gè)更為全面和長(zhǎng)遠(yuǎn)的決策。

在后續(xù)的實(shí)戰(zhàn)中,我們也把觀測(cè)指標(biāo)做出了更為復(fù)雜的定義,分為核心判定指標(biāo)輔助觀察指標(biāo),以及否決指標(biāo)。

例如:導(dǎo)購(gòu)功能做AB測(cè)試時(shí),以商詳頁(yè)瀏覽數(shù)作為核心判定指標(biāo),以轉(zhuǎn)化率、用戶獲取能力作為輔助觀察指標(biāo),以銷(xiāo)售額作為否決指標(biāo)。只要商詳頁(yè)瀏覽數(shù)有明顯的增長(zhǎng),或者轉(zhuǎn)化率、用戶獲取數(shù)有較好增長(zhǎng)但商詳頁(yè)瀏覽數(shù)不為負(fù),就可以作為上線候選,最后校驗(yàn)銷(xiāo)售額;如果銷(xiāo)售額下降,就一票否決,否則可以全面上線。

三、如何同時(shí)測(cè)試多個(gè)相互疊加的因素?

有時(shí)我們想要同時(shí)測(cè)試多個(gè)因素,或者測(cè)試本身受到很多因素的同時(shí)影響,比如,我曾有一篇文章想要測(cè)試一下“標(biāo)題黨”玩兒法帶來(lái)的閱讀量波動(dòng)。閱讀量雖然與標(biāo)題強(qiáng)相關(guān),但也與我的發(fā)文日期在工作日還是周末、發(fā)文時(shí)間點(diǎn)是早晨還是傍晚都有較大關(guān)系。最終那篇“標(biāo)題黨”文章是在周日早上8點(diǎn)左右發(fā)出,最后我觀察到有較大的閱讀量提升。

那么問(wèn)題來(lái)了,這個(gè)提升,到底是因?yàn)闃?biāo)題吸引人帶來(lái)的?還是因?yàn)橹苋沾蠹矣虚e暇時(shí)間閱讀帶來(lái)的?還是因?yàn)樵缟鲜莻€(gè)黃金時(shí)間帶來(lái)的?

在這個(gè)例子里,上述三個(gè)主要因素共同構(gòu)成影響,因此如果想要做最客觀的測(cè)試,就應(yīng)該對(duì)任何一個(gè)因素選兩個(gè)差異最大的情況,進(jìn)行排列組合,3^2=8,因此把測(cè)試集8等分,做等量的投放,由此可以看到每個(gè)因素帶來(lái)的影響量。

人工做這樣的流量切分和差異化投放比較難,最好能夠有系統(tǒng)層面的支持,把多個(gè)要做AB測(cè)試的功能獨(dú)立疊加上去,并且制定每個(gè)AB測(cè)試的時(shí)間段,讓系統(tǒng)在時(shí)間范圍內(nèi)自動(dòng)對(duì)流量做隨機(jī)切分和功能投放,以獲取相對(duì)準(zhǔn)確對(duì)結(jié)果。

有些大型公司的系統(tǒng)很好地支持多參數(shù)AB測(cè)試,但如果沒(méi)有這樣的自動(dòng)測(cè)試平臺(tái),那么通過(guò)人工方式選取流量和投放也是可行的,但一定要垂直正交地做流量拆分,讓除被測(cè)因素以外的其它因素都互不干擾。

換句話說(shuō),在兩個(gè)被測(cè)分支A和B上,除單一的測(cè)試因素外,所有其它因素都完全對(duì)等。

四、AB測(cè)試結(jié)果真的正確嗎?

假設(shè)我們?cè)谧鲆粋€(gè)轉(zhuǎn)化效果的功能測(cè)試,當(dāng)歷時(shí)四周的AB測(cè)試終于完成了,對(duì)比兩邊數(shù)據(jù),發(fā)現(xiàn)投放了設(shè)計(jì)一的A分支比投放了設(shè)計(jì)二的B分支多銷(xiāo)售了1%。那么,我們可以結(jié)論設(shè)計(jì)一的轉(zhuǎn)化會(huì)更優(yōu)于設(shè)計(jì)二嗎?

您猜對(duì)了,不能!很多原因都會(huì)造成AB測(cè)試的錯(cuò)誤。

上述案例我們很容易作出結(jié)論——設(shè)計(jì)一更好。

但當(dāng)產(chǎn)品經(jīng)理深入觀察數(shù)據(jù)時(shí),比如拆分到具體每一天去看數(shù)據(jù)趨勢(shì),也許會(huì)發(fā)現(xiàn)大部分的日子里,版本二表現(xiàn)更加優(yōu)異;只是有少數(shù)日子,版本一的樣本中出現(xiàn)了大訂單(偶然事件),極大影響了總體數(shù)據(jù),最后造成了版本一勝出。這樣我們不難推測(cè),如果除去這類偶然事件,版本二實(shí)際上更好。

此類偶然因素本身不可避免,但它會(huì)對(duì)結(jié)果造成致命的影響,導(dǎo)致AB測(cè)試的結(jié)果出現(xiàn)偏差。消除的方法有多種:

1. 取更大的數(shù)據(jù)樣本,或者把測(cè)試運(yùn)行更長(zhǎng)的時(shí)間。通過(guò)數(shù)據(jù)結(jié)果樣本的大幅增加來(lái)減少偶然因素帶來(lái)的影響。

2. 設(shè)置置信閾值,除去超出置信閾值的數(shù)據(jù)。例如,一個(gè)生鮮電商平臺(tái)的訂單通常在幾十到幾百元,那么萬(wàn)元以上的大單,往往十分偶然和蹊蹺,或者不出自普通消費(fèi)者,甚至是刷單結(jié)果,應(yīng)當(dāng)從結(jié)果中除去。

3.? 對(duì)測(cè)試結(jié)果數(shù)據(jù)進(jìn)行對(duì)數(shù)處理(取log)。這是一種消除隨機(jī)結(jié)果中的“毛刺”,把結(jié)果波動(dòng)變得平滑,但又可以保留結(jié)果的波動(dòng)特性的有效數(shù)學(xué)手段。對(duì)該方法感興趣對(duì)朋友可以進(jìn)一步看一下相關(guān)數(shù)學(xué)或者信號(hào)處理理論。

除了對(duì)上述偶然性的理解和處理,另外有一個(gè)因素也是在做AB測(cè)試的流量投放測(cè)試中必須要慎重考慮的,那就是投放對(duì)象和被測(cè)因素的相關(guān)性。

例如:運(yùn)營(yíng)測(cè)“排行榜”頻道的入口文案效果,如果投放的人群是純精準(zhǔn)型人群(典型行為是,絕大多數(shù)瀏覽的商品是通過(guò)搜索到達(dá)的),由于這些人群基本不會(huì)瀏覽和使用“排行榜”頻道,那測(cè)試結(jié)果其實(shí)都是隨機(jī)噪聲,并沒(méi)有實(shí)際意義。

在亞馬遜的系統(tǒng)中有一個(gè)非常實(shí)用的概念,就是對(duì)于每一個(gè)AB測(cè)試結(jié)果,系統(tǒng)都會(huì)給出一個(gè)置信度數(shù)值,稱之為P-Value。這個(gè)值代表著結(jié)果的不確定性。

例如,如果P-Value=0.05,意味著如果系統(tǒng)說(shuō)A比B好,那么只有5%的情況會(huì)出現(xiàn)相反的結(jié)果。對(duì)于P-Value產(chǎn)生影響的主要是:

  1. 數(shù)據(jù)樣本不足;
  2. 結(jié)果中的大偶然因素;
  3. A和B的對(duì)比因素(即被測(cè)因素)對(duì)于目標(biāo)指標(biāo)的影響差異過(guò)于微小。

雖然大家所使用的平臺(tái)未必有類似的功能,但帶著統(tǒng)計(jì)學(xué)觀點(diǎn)進(jìn)行AB測(cè)試的設(shè)計(jì)和結(jié)果觀察,會(huì)對(duì)透徹理解測(cè)試結(jié)果和作出正確決策非常有幫助。

最后要說(shuō)的一點(diǎn)是,數(shù)據(jù)是用來(lái)驗(yàn)證猜想,反映客觀事實(shí)的。但數(shù)據(jù)只是工具,也會(huì)被人斷章取義。我們有時(shí)會(huì)看到為了讓結(jié)果看起來(lái)很美而做AB測(cè)試造假的項(xiàng)目。

例如:某功能對(duì)10%的用戶有正向結(jié)果,對(duì)90%的用戶有負(fù)面影響,于是這10%的用戶被刻意選擇作為測(cè)試范圍,然后用測(cè)試數(shù)據(jù)歡呼該功能具有“高價(jià)值”(當(dāng)然也有在測(cè)試指標(biāo)的選取、測(cè)試時(shí)長(zhǎng)定義上玩兒花樣)。這背后,也需要職業(yè)操守,領(lǐng)導(dǎo)者最好能具備一定的AB測(cè)試知識(shí),才不容易被蒙蔽。

到這里,我對(duì)AB測(cè)試的實(shí)戰(zhàn)經(jīng)驗(yàn)分享告一段落。做一個(gè)簡(jiǎn)單總結(jié):

  1. 對(duì)產(chǎn)品或運(yùn)營(yíng)方案的優(yōu)劣不要想當(dāng)然,有條件的話盡量用AB測(cè)試做客觀的驗(yàn)證。
  2. 充分考慮用戶習(xí)慣有個(gè)變化過(guò)程,對(duì)升級(jí)優(yōu)化的功能,盡量在還沒(méi)有形成習(xí)慣的新用戶身上進(jìn)行投放測(cè)試。
  3. 要充分意識(shí)到AB測(cè)試的偶然性,盡量保證用足夠大的數(shù)據(jù)樣本和合理時(shí)長(zhǎng)的測(cè)試來(lái)取得客觀的結(jié)果。同時(shí)要帶著“置信度”概念看待測(cè)試結(jié)果。
  4. 在測(cè)試變量的投放中,要做到除了單一被測(cè)變量,在AB數(shù)據(jù)集的所有其它因素都完全對(duì)等。
  5. 可以使用閾值篩查,取對(duì)數(shù)做平滑處理等方法消除測(cè)試結(jié)果“毛刺”。
  6. 充分考慮對(duì)被測(cè)指標(biāo)可能存在多個(gè)主要影響因素,盡量做最全面的測(cè)試來(lái)作出全局正確的判定。也可以把多個(gè)數(shù)據(jù)指標(biāo)按主、輔、否決器組合使用。

 

作者:徐霄鵬,微信公眾號(hào):產(chǎn)品遇上運(yùn)營(yíng)。亞馬遜高級(jí)總監(jiān),產(chǎn)品、中央運(yùn)營(yíng)及增長(zhǎng)團(tuán)隊(duì)負(fù)責(zé)人,前京東、攜程高級(jí)產(chǎn)品總監(jiān)。精通前臺(tái)產(chǎn)品、運(yùn)營(yíng)及用戶增長(zhǎng)等領(lǐng)域。

本文由@產(chǎn)品遇上運(yùn)營(yíng) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自@Unsplash, 基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 分析的很好,很深入,學(xué)習(xí)到很多!多謝分享。

    來(lái)自四川 回復(fù)
  2. 分析的很透測(cè)

    來(lái)自湖北 回復(fù)
  3. P-Value,統(tǒng)計(jì)學(xué)的應(yīng)用

    來(lái)自浙江 回復(fù)
  4. 分析的很詳細(xì),透徹~

    來(lái)自上海 回復(fù)