糗事百科產(chǎn)品總監(jiān)李威: 如何基于數(shù)據(jù)構(gòu)建推薦系統(tǒng),助力精細化運營?

4 評論 6828 瀏覽 37 收藏 32 分鐘

本文主要圍繞筆者構(gòu)建推薦系統(tǒng)過程中的思考,以及碰到的一些數(shù)據(jù)問題,分析了我們需要注意以及掌握的事項與要點。

大家好,我是李威,來自糗事百科。

今天主要跟大家分享:在糗事百科我們構(gòu)建推薦系統(tǒng)的事情。因為是增長大會數(shù)據(jù)專場,所以我不會介紹推薦系統(tǒng)算法細節(jié),而是講在構(gòu)建推薦系統(tǒng)過程中我自己的一些思考,以及碰到的一些數(shù)據(jù)問題。

我在糗事百科主要負責(zé)數(shù)據(jù)、推薦系統(tǒng),或者說跟數(shù)據(jù)打交道的一些工作。我本身是算法工程師出身,但由于接觸的產(chǎn)品策略非常多,需要了解更多產(chǎn)品相關(guān)的知識,慢慢就變成了一個產(chǎn)品人。

簡單來說,不懂算法的“開發(fā)”不是好“產(chǎn)品”。

糗事百科創(chuàng)始于 2005 年,是國內(nèi)首個專注搞笑內(nèi)容的社區(qū)。現(xiàn)在我們主要以視頻內(nèi)容為主,所以大家可以把我們理解成一個短視頻社區(qū)。這個產(chǎn)品的時間線很長,所以涵蓋的產(chǎn)品線也很廣,包括 App、網(wǎng)頁端、小程序、公眾號以及微博、新媒體等。

我今天主要講的是 App 本身,先給大家建立概念,這就是一個視頻社區(qū),一部分用戶在發(fā)視頻,一部分用戶在看視頻。以下是我今天的分享,enjoy!

1. 認識推薦系統(tǒng)

1.1 推薦系統(tǒng)的定義

我先簡單介紹一下,推薦系統(tǒng)就是說,某個用戶在應(yīng)用內(nèi)產(chǎn)生了足夠多的用戶行為,我們對這些數(shù)據(jù)進行分析,就能發(fā)現(xiàn)到他用戶的一些偏好。

由于我們是內(nèi)容社區(qū),我們就會根據(jù)他的偏好,推薦一些他喜歡的視頻內(nèi)容。拿電商來舉例,假設(shè)一個用戶喜歡入耳式耳塞,而頭戴式的耳塞也包含“耳塞”這個關(guān)鍵詞,那電商就會推薦頭戴式耳塞產(chǎn)品,這就是基于內(nèi)容的推薦。

又比如說,一個用戶喜歡電腦、喜歡攝影,另外一群用戶有同樣愛好,但他們不僅喜歡電腦和攝影,還喜歡游戲,那我們就猜測,這個用戶可能也會喜歡游戲,所以我們就給他推薦一些游戲相關(guān)的產(chǎn)品或者內(nèi)容,這就是推薦系統(tǒng)在做的事情。

1.2 推薦系統(tǒng)的價值

為什么要做推薦系統(tǒng)?其實是基于這樣的一個假設(shè):如果我們給用戶推薦了他喜歡的內(nèi)容,那么他可能就會在我們的平臺上看更多的內(nèi)容,看了更多的內(nèi)容會怎樣呢?

下圖顯示的是用戶在我們平臺上每天看的帖子數(shù),以及跟他的留存相關(guān)的一些數(shù)據(jù)。

可以看最底下這條紅線,如果他一周只看 200 個以內(nèi)帖子,那他次日留存以及之后的留存其實是相對較差的;但如果他一周看 2000 個以上帖子,最上面這條紫線,你會發(fā)現(xiàn)他的留存會極高,從坐標(biāo)軸也可以看出來,已經(jīng)是 90% 以上的留存狀況了。我們給用戶推薦了他喜歡的內(nèi)容,他可能就會在我們平臺看更多,就會導(dǎo)致他的留存愈加提升,其實這是一個 Product Market Fit(產(chǎn)品-市場匹配) 的過程。我們提供的內(nèi)容滿足了用戶的需求和喜好,那我們的產(chǎn)品就給他提供了足夠的價值,做到了 Product Market Fit,這就是做推薦系統(tǒng)的原因所在。我看過一句話:

“一個推薦系統(tǒng)來到這個世界上,它只有一個使命,就是要在用戶和物品之間建立連接,數(shù)據(jù)的挖掘和分析就是為了更好地識物斷人,從而更高效的完成用戶與物品之間的對接”。

這句話讓我想起 GrowingIO 的創(chuàng)始人 Simon 說什么是增長,“Growth is connecting the existing core value of a product with more people”,這兩句話講的基本上是同一件事情。

連接(connecting)什么呢?

Existing core value,也就是一個產(chǎn)品提供的價值。對于我們的產(chǎn)品來說,就是短視頻的內(nèi)容,對于電商產(chǎn)品來說,就是你要購買的商品,這就是產(chǎn)品的核心價值。

總之,當(dāng)我看到下面這句話時,我突然聯(lián)想到,推薦系統(tǒng)所做的,就是增長定義的最核心的事情,所以它是不是可以泛化成一個增長的方法論呢?

2. 推薦系統(tǒng)與精細化運營的關(guān)系

增長策略的發(fā)展階段是這樣的:

  • 最開始,我們沒有特別清晰的增長概念,依靠經(jīng)驗或?qū)τ脩舻牧私鈦頉Q策產(chǎn)品要怎么做。
  • 后來,我們會統(tǒng)計一些宏觀數(shù)據(jù),比如 DAU 或者留存。我們發(fā)布一個版本,可能知道這個版本數(shù)據(jù)漲了,但是沒有辦法具體到是哪一個環(huán)節(jié)、哪一個策略導(dǎo)致了產(chǎn)品的增長。
  • 在現(xiàn)階段,大家開始做精細化數(shù)據(jù)運營,會針對不同的用戶做分群,然后給出具體的策略。但我覺得這樣可能還是不夠細致,我們要利用推薦系統(tǒng)這樣的個性化方法,做到讓數(shù)據(jù)自動決策。

舉一個例子,假設(shè)我們現(xiàn)在要做一場運營活動,需要一些 banner 或者是入口,設(shè)計師會設(shè)計幾套具體的方案和樣式。如果是一位非常懂?dāng)?shù)據(jù)的產(chǎn)品運營,他肯定會同時上線這幾個不同的 banner,然后去做 A/B Test,若發(fā)現(xiàn) A 方案比 B 方案好,就會采用 A 方案。

我們公司現(xiàn)階段也是這樣操作的。

但在推薦系統(tǒng)的思路里,每個人千人千面,是十分個性化的。設(shè)計師辛辛苦苦做出來 A、B、C 三套方案,其實都是可以用的。雖然 A 方案受絕大多數(shù)人喜歡,但這并不代表 B、C 方案是沒有人喜歡的。如果我們能夠利用推薦系統(tǒng)這樣的一種思想,采集足夠多的用戶行為,對其進行分析,就會發(fā)現(xiàn)不同用戶對不同的封面有不同的喜好,那么 A、B、C 方案就都可以用,只不過針對不同的用戶,我們會采用不同的方案。

運營同學(xué)可以通過分析將用戶分群,給他們 A、B、C 三套不同的方案,但實際上用戶的分群遠不止 A、B、C 三組,可能存在千千萬萬個分組。運營同學(xué)沒有辦法手動做更細致的分群,這時候推薦系統(tǒng)就派上用場了。

2.1 推薦系統(tǒng)的適用場景

我們通常會把用戶分成幾個階段,比如說新用戶、老用戶或者是非常資深的用戶,還有一些即將流失的用戶。但實際上,我覺得每一個用戶可能都處在他的整個產(chǎn)品生命周期中獨一無二的階段,簡單的把他們分成四塊是不夠的,我們需要用推薦系統(tǒng)的思想去分析具體的數(shù)據(jù)。

比如說,我們要做召回策略,每一個用戶可能都有他非常個性的一個召回方案,這就是我認為整個增長接下來會逐漸進入的、更加細致的一個領(lǐng)域。我們給系統(tǒng)提供數(shù)據(jù),系統(tǒng)通過一些策略自動給出決策。后面我來說幾個這種泛化的可能實施的領(lǐng)域和方案,當(dāng)然只是我的設(shè)想,實際上還沒有完全落地。

個性化的活動運營、視覺設(shè)計

左邊這張圖是淘寶的首頁,下面有一些子欄目,比如說聚劃算、淘寶直播、官方補貼、每日紅包,配了很多個性化的圖片,但沒有單獨用文字。

比如說,最近我們家小朋友過生日,我看了很多與玩具相關(guān)的內(nèi)容,再打開淘寶的時候,我發(fā)現(xiàn)那里仍然是官方補貼、每日紅包等,但配圖已經(jīng)變成了與游戲相關(guān)的。因為淘寶本身是做電商的,它的配圖可以直接用商品的圖片。在做運營的活動封面時,每個用戶可能喜歡不一樣的圖片風(fēng)格,或冷色調(diào),或鮮艷,或柔和。

那么設(shè)計師在出不同設(shè)計方案的時候,可能需要給封面增加一些關(guān)鍵詞,比如說這個是鮮艷的,那個是冷色調(diào)的,諸如此類。隨著多次做活動運營的設(shè)計,以及采集了足夠多用戶的數(shù)據(jù),你可以知道每一個用戶的顏色偏好。

精細化的用戶運營召回方案

右圖是手機上的短信頁面,每日優(yōu)鮮經(jīng)常給我發(fā)這種召回短信,它的每一句話都不一樣,但實際上并不是個性化的,沒有特別打動我。像這種,同樣可以通過學(xué)習(xí)用戶的數(shù)據(jù)來掌握其語言偏好,給每個用戶發(fā)不一樣的召回短信。比如對于直男來說,一個軟妹風(fēng)的話術(shù)會更好。

注冊轉(zhuǎn)化流程的優(yōu)化

甚至在極端的注冊轉(zhuǎn)化流程當(dāng)中,也可以嘗試利用推薦系統(tǒng)的思想給每個用戶生成不同的注冊轉(zhuǎn)化流程。

當(dāng)然這里面涉及一些問題,轉(zhuǎn)化適用于全新的用戶,你不太能獲知這些用戶之前的數(shù)據(jù)。但是如果你公司很大,或者是用戶量非常大,比如說騰訊,你可能會提前知道這個用戶大致的畫像,那注冊轉(zhuǎn)化流程其實是可以提前設(shè)計好的,等用戶來注冊這個新應(yīng)用的時候,就可以個性化的給他展示這一注冊轉(zhuǎn)化流程了。

2.2 推薦系統(tǒng)的困境

在不同場景和領(lǐng)域?qū)嵤┩扑]系統(tǒng)的時候可能會碰到一些阻礙:

系統(tǒng)本身比較復(fù)雜,成本較高,可能造成投入產(chǎn)出不合理

之前我們把用戶分成新用戶、老用戶、即將流失的用戶,可能以很簡單的工作就可以完成 80%的任務(wù)。而如果我們要利用推薦系統(tǒng),那可能要投入 80% 的精力才能獲得 20% 的提升。

推薦系統(tǒng)畢竟是基于大數(shù)據(jù)的分析,如果你不具備生產(chǎn)大量數(shù)據(jù)的條件,就很難做到在不同的運營、產(chǎn)品或者設(shè)計領(lǐng)域去泛化推薦系統(tǒng)的能力

所謂推薦系統(tǒng),就是利用了機器善于計算的事實。我們?nèi)祟惙浅I朴诼?lián)想、善于洞察事物之間關(guān)系的,可以發(fā)現(xiàn)一些用戶同時喜歡攝影和游戲,但如果要真正做到個性化,最終還是要利用機器的計算能力。

以上就是我在做推薦系統(tǒng)的過程中,關(guān)于后續(xù)增長、發(fā)展方向的一點點想法,我們已經(jīng)處于精細化運營的產(chǎn)品階段,可能需要再往前走一步,讓機器來幫助我們實現(xiàn)自動化運營,做得更加精細。

3. 推薦系統(tǒng)的增長實踐

接下來是我在做推薦系統(tǒng)過程中,跟數(shù)據(jù)有關(guān)的一些案例,可能對大家有所幫助。

3.1 數(shù)據(jù)選取階段

這一階段需要考慮兩點:

1)數(shù)據(jù)需要更形象

例1:發(fā)現(xiàn)更適合推薦系統(tǒng)的數(shù)據(jù)

做推薦系統(tǒng)最開始肯定是要分析,要利用哪些數(shù)據(jù)來發(fā)現(xiàn)用戶的偏好,顯然,點贊是一個能夠明確知道用戶偏好的行為,肯定是可以被利用的一個數(shù)據(jù)。但是否是最好的數(shù)據(jù)呢?

我們來看下面這兩張圖。左邊這張圖是用戶相應(yīng)行為的人數(shù),包括視頻觀看、點贊成功、評論成功。我們可以發(fā)現(xiàn),雖然點贊這個事情非常清晰的預(yù)示著這個用戶的喜好,但是真正有點贊行為的用戶并沒有那么多。

哪個數(shù)據(jù)用戶行為最多呢?明顯是視頻觀看。因為用戶來這里,就是為了觀看視頻。

右邊這張圖是人均相應(yīng)行為個數(shù)。同樣的,你可以發(fā)現(xiàn),雖然點贊成功這件事情非常明確的標(biāo)志著用戶的偏好,但是他的行為量還是相對比較少,真正行為量最多的是視頻觀看行為。那視頻觀看行為能否預(yù)示用戶的偏好呢?其實是可以的。一個用戶去看這個視頻,如果他不喜歡,他肯定只看兩三秒就離開了。如果他把這個視頻看完了,就可以預(yù)示他對這個視頻有偏好。所以我們在做數(shù)據(jù)分析,或者所有的這些增長之前,要對手頭的數(shù)據(jù)有一個更形象的認知,從不同的維度,平均數(shù)、方差、中位數(shù)等把這個數(shù)據(jù)圖表化,這樣才能選取合適的數(shù)據(jù)來做我們希望的分析。

例 2:內(nèi)容曝光量分析

另外一個例子是視頻曝光的數(shù)據(jù)。當(dāng)這個視頻出現(xiàn)在用戶的屏幕上,就算一次曝光。下圖代表視頻曝光的平均數(shù)、中位數(shù)、以及最上面的 75 分位。我們可以發(fā)現(xiàn)一個問題,中位數(shù)是遠遠低于平均數(shù)的,平均數(shù)甚至接近 75 分位。

通過這個數(shù)據(jù),我們能感知到一個什么問題呢?這個平均數(shù)其實是被一群極為活躍的用戶硬生生提高了的。不管我們推薦什么樣的內(nèi)容,這批用戶都會去看。假設(shè)我們要衡量這個推薦系統(tǒng)的效果,那肯定會去選擇中位數(shù),而不是平均數(shù),因為中位數(shù)會更敏感。這就是為什么我們要做 EDA(Exploratory Data Analysis,探索性數(shù)據(jù)分析) 這件事情,即在真正開始處理數(shù)據(jù)之前,對這個數(shù)據(jù)有一個形象的理解,感性的認知。

2)產(chǎn)品特性是否對數(shù)據(jù)友好?

這里拿抖音舉例,抖音的推薦系統(tǒng)做得非常好,仔細分析它的產(chǎn)品,它的產(chǎn)品特性對數(shù)據(jù)是非常友好的。

第一,產(chǎn)品特性決定了數(shù)據(jù)采集的難易程度。比如說抖音,這個產(chǎn)品剛出來很長一段時間里,它是沒有暫停的。你看這個視頻要么看完,要么就跳過,但是你不能暫停,也不能拖動進度條。為什么說這對推薦系統(tǒng)非常友好呢?因為一個用戶看視頻的時長代表著他對這個視頻的偏好。一旦你可以暫停,又可以拖動進度條,那我就很難區(qū)分你到底是在看視頻,還是處于暫停狀態(tài),或者你只是在拖動進度條。

而抖音把這件事情做得非常簡單。如果你停留在這個頁面上,那你一定是在看這個視頻。所以,這個產(chǎn)品特性對數(shù)據(jù)的采集是非常友好的。

第二,產(chǎn)品特性決定了數(shù)據(jù)的可信賴程度。

右圖是我們自己的產(chǎn)品,是信息流的狀態(tài),在滑動的過程當(dāng)中會出現(xiàn)多個視頻。而抖音是沉浸式的,一個視頻會占滿一整個屏幕。

抖音沉浸式體驗的好處就是,你在當(dāng)下這個屏幕上產(chǎn)生的所有數(shù)據(jù)全部是針對同一個視頻的,這個數(shù)據(jù)是極為可信的。并且,抖音還不能自動播放下一條,只要保證你不手動滑,它就會一直維持在這個頁面上。

而在我們自己的產(chǎn)品中,有時候你可能無法分辨,用戶行為到底是針對上面這個視頻,還是針對下面這個視頻的。

第三,產(chǎn)品特性可能決定數(shù)據(jù)分析和使用的難易程度。

你的視頻時長 15 秒,或者 1 分鐘,或者 5 分鐘,用戶的觀看行為所產(chǎn)生的后果是完全不一樣的。

15 秒的視頻,用戶很容易就看完。如果是 1 分鐘的話,他完全看完的可能性就會極大的降低。如果是 3 分鐘,基本上就沒有用戶可以真正把這個視頻完全看完。

如果你直接拿用戶觀看時長或者比例來評判用戶的偏好的話,就會產(chǎn)品很大的偏差。短的視頻非常容易看完,完播率很高,長的視頻完播率很低。意味著用戶就不喜歡長的視頻嗎?

抖音在產(chǎn)品很長的一段時間內(nèi),會把視頻時長限制到15秒,這樣 15 秒以下的視頻,基本上就不存在剛才說的長短視頻完播率不可比的情況,需要考慮的問題就簡單許多。

如果你這個產(chǎn)品設(shè)計得對數(shù)據(jù)非常友好的話,產(chǎn)品特性對真正分析數(shù)據(jù)、后續(xù)使用數(shù)據(jù)是有極大的促進作用的。

總之,在數(shù)據(jù)采集之前,你對這個數(shù)據(jù)要有一個全面的 EDA 的掌控。同時從產(chǎn)品層面上講,產(chǎn)品特性需要對這個數(shù)據(jù)友好。

3.2 數(shù)據(jù)采集階段

對于我來說,這是最為困難的階段,非常容易出錯。一旦出錯,你的產(chǎn)品、運營,甚至你的老板都會對這個數(shù)據(jù)不再信任,那整個增長就無從談起了。

所以,數(shù)據(jù)采集階段就是整個數(shù)據(jù)增長的基石。首先你要建立一個非常良好的數(shù)據(jù)采集機制,保證這個數(shù)據(jù)是準(zhǔn)確無誤的,最終你才能產(chǎn)生正確的結(jié)論,讓大家相信數(shù)據(jù),能夠利用數(shù)據(jù)做最終的決策。

這里舉一個我們自己在數(shù)據(jù)采集中出現(xiàn)的錯誤,一個非常極端的例子。這個圖是用戶觀看單個視頻的平均時長。我們把用戶隨機分成了 16 個組,所以有這么多曲線。

按理說,這 16 個組的曲線趨勢應(yīng)該完全一致。但剛開始采集這個數(shù)據(jù)的時候,我們總會發(fā)現(xiàn),有些組會突然產(chǎn)生尖峰,組與組之間曲線行為不一致,對后續(xù)的 A/B ?Test 等會產(chǎn)生嚴重的干擾。

按理說,平均數(shù)很難受到臟數(shù)據(jù)的影響,但是這次我們發(fā)現(xiàn)的臟數(shù)據(jù)比較極端。

比如,我們的視頻一般都是 5 分鐘(300 秒)以內(nèi),但是有些用戶上報的觀看單個視頻時長達到了幾萬,或者是幾十萬秒這樣的極端情況。雖然概率非常低,但是它就是極端的影響了我們的平均數(shù)。

我們后來發(fā)現(xiàn),原因可能是,用戶有時候看著看著就退出了,直接把 App 隱藏在了后臺,而內(nèi)部的計時器沒有停止計時,會延續(xù)到這個用戶再次打開 App 時才結(jié)束。如果用戶幾天之后再打開 App,他觀看視頻的時長就會變得極長,以此類推。

最終我們把這個問題修復(fù)了,大家就可以看到用戶觀看視頻的平均時長,16 個組的曲線就都一致了。

所以說,大家在做數(shù)據(jù)采集的時候,一定要找到一個非常合理的產(chǎn)品研發(fā)流程,一定要建立好數(shù)據(jù)信心,一旦你在產(chǎn)品或運營那里喪失了對數(shù)據(jù)的信心,數(shù)據(jù)增長這件事情就無從談起了。

3.3 數(shù)據(jù)使用階段

數(shù)據(jù)很多時候是自帶欺騙性的,我們使用數(shù)據(jù)的時候要注意以下 2 點:

1)數(shù)據(jù)是否表意明晰?

用戶數(shù)據(jù)進入推薦系統(tǒng)后,本質(zhì)上形成了一個非常大的矩陣,縱坐標(biāo)是用戶 A、B、C、D、E,橫坐標(biāo)是視頻 1、2、3、4、5、6、7、8、9,對應(yīng)的值為某個用戶觀看某個視頻時長的比例。這是一個極大的稀疏矩陣,觀看比例絕大多數(shù)都是 0。0 代表他沒看過這個視頻,因為用戶能夠看到的視頻相比我們視頻庫里的內(nèi)容量是很小的。

如圖,用戶 A 觀看視頻 1,100% 表示看完了;用戶 B 看視頻 1,看了 80.1%。

數(shù)據(jù)處理階段,我們會把數(shù)據(jù)做截斷,只保留 3 位小數(shù)。那么問題來了,例如圖上標(biāo)紅的地方,用戶 C 看視頻 5 只看了 0.001,那我們理解為他可能不喜歡這個視頻;而對于視頻 9,真實情況他只看了 0.003,由于我們在做數(shù)據(jù)處理的時候會保留 3 位小數(shù),這里就變成了 0。根據(jù) 0 在這個矩陣中的含義來看,這個數(shù)據(jù)表達的意義是不準(zhǔn)確的,從他不喜歡這個視頻變成了他沒看過這個視頻。所以說,數(shù)據(jù)本身自帶欺騙性,如果你做了這樣的處理,那它就表達了錯誤的意思。

2)數(shù)據(jù)是否自帶傾向?

我們做推薦系統(tǒng),該怎么衡量用戶喜好呢?

假設(shè)用戶看一個視頻的時長為 50 秒,看另外一個視頻的時長為 30 秒,那我們會天然地覺得他更喜歡前者。同樣的,如果一個視頻他看了 100%,另外一個視頻看了 50%,那我們也會認為他更喜歡前者。所以,視頻觀看比例和視頻觀看時長這 2 個指標(biāo)都可以作為衡量用戶偏好的標(biāo)準(zhǔn)。

看上面兩個圖表,橫坐標(biāo)都是視頻時長(0~300 秒),左圖是用戶平均視頻觀看比例,右圖是用戶平均視頻觀看時長。舉個例子,如果一個視頻大概是 50 秒,那么平均觀看比例大概是 60%;如果一個視頻大概是 300 秒,那么它平均觀看比例就只有 30%;但是 50 秒的視頻平均觀看時長是 30 秒, 300 秒的視頻平均觀看時長可能就是 100 秒左右。那么,如果你用平均觀看比例來衡量用戶偏好,50 秒的視頻有先天優(yōu)勢;如果拿觀看時長來衡量用戶偏好,那么 300 秒的視頻就天然有優(yōu)勢。

根據(jù)這個例子可以看出這兩個指標(biāo)各自帶有傾向,如果拿用戶觀看比例來衡量用戶偏好,則傾向于推薦短視頻;如果拿用戶視頻觀看時長來衡量用戶偏好,則傾向于推薦長視頻。

再聯(lián)想到,抖音把視頻時長限制在了 15 秒,這就把大家都拉到了同一條起跑線上,無論是用比例還是用時長衡量,結(jié)論都是一樣的。如果你的視頻時長分布非常廣,比如從 0 秒 到 300 秒,那就很難決策,到底要拿哪一個指標(biāo)來衡量用戶的偏好,因為任意一個指標(biāo)都有自己的傾向性。

3.4 數(shù)據(jù)分析階段

在數(shù)據(jù)分析階段,我推薦用 A/B Test 來做評估效果。

1)正確認知 A/B Test

實驗即需求本身;需求文檔就應(yīng)該是一份實驗方案。

很多同學(xué)會覺得做 A/B Test 是一件耗時耗力的事情,但換一個角度想,你在寫產(chǎn)品需求文檔的時候,寫的實質(zhì)上是一個實驗方案,實驗和需求本身是無法剝離開來的。實驗結(jié)果往往需要關(guān)注多個指標(biāo)。真正做 A/B Test 的時候,我們需要關(guān)注很多的指標(biāo),一些指標(biāo)增長的同時,另外一些指標(biāo)可能會下降。

實驗需要足夠的樣本,關(guān)注實驗的統(tǒng)計顯著性。

A/B Test 的樣本量如果不夠,可能得出的效果就不那么真實了。

實驗時長有限,往往反映短期效果,具有短視性。

做實驗的時間是有限的,你不可能永遠都在做這個實驗,這就天然的導(dǎo)致了 A/B Test 往往反映的是一個短期效果。比如說剛才那個實驗,只做一天,數(shù)據(jù)增長了,但在長期來看,它可能會慢慢趨于與其他組同樣的效果。

2)A/B Test 實例

下圖是我們推薦系統(tǒng)剛上線時候的一個例子,數(shù)據(jù)是用戶平均觀看時長。藍色的 0 組是測試組,剛上線時效果要比其他組好很多。但是在第二天、第三天,我們就發(fā)現(xiàn)效果在減退,是什么原因?qū)е碌哪兀?/p>

我們的第一反應(yīng)很簡單,再上線兩個組,看是不是會產(chǎn)生同樣的效果,于是就上線了 12 組和 10 組。在上線前兩天,它們和 0 組一樣,數(shù)據(jù)增長的效果很好,但是到了第三天,效果同樣在減退。由于對自身的推薦系統(tǒng)有足夠了解,我們推測,用戶消耗完了他們偏好的數(shù)據(jù),而我們沒有補充上足夠多的這類數(shù)據(jù),就導(dǎo)致效果減退。于是我們做了第三個測試,增大了數(shù)據(jù)庫里數(shù)據(jù)的量,給用戶推薦更多他偏好的內(nèi)容,數(shù)據(jù)就增長了,而一旦消耗完,則又減退。通過這樣的手段,我們把數(shù)據(jù)增減的原因分析得很透徹。大家要學(xué)會利用好 A/B Test ,同時配合對這個業(yè)務(wù)的理解,才能做好數(shù)據(jù)分析。

3)數(shù)據(jù)分析能力與業(yè)務(wù)理解能力的關(guān)系

最后需要強調(diào)的是,數(shù)據(jù)分析能力是建立在對業(yè)務(wù)的理解基礎(chǔ)之上的,兩者息息相關(guān)、齊頭并進。正如我剛剛說的 A/B Test,如果你對推薦系統(tǒng)本身不夠了解,就很難分析出來數(shù)據(jù)減退的原因是用戶偏好的數(shù)據(jù)量不夠。

大家一定要同時增長自己的業(yè)務(wù)理解能力和數(shù)據(jù)能力,才能最終做到數(shù)據(jù)驅(qū)動。以上是我這次分享的主要內(nèi)容,希望能夠幫助到大家,謝謝!

 

作者:李威,糗事百科產(chǎn)品總監(jiān)

來源:GrowingIO 2019 增長大會(北京)演講

本文由 @GrowingIO 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 來自北京 回復(fù)
  2. 厲害厲害

    來自北京 回復(fù)
  3. 感謝分享,細細品味

    回復(fù)
  4. 天王蓋地虎

    回復(fù)