推薦系統(tǒng)“體檢”:如何評(píng)估推薦系統(tǒng)的“健康”狀況?

2 評(píng)論 15024 瀏覽 124 收藏 15 分鐘

為了自己的健康去體檢,推薦系統(tǒng)也有自己的健康指標(biāo),不同的業(yè)務(wù)、不同的場(chǎng)景、不同的階段都有不同的指標(biāo),所以選擇好的評(píng)估指標(biāo)以及合適的評(píng)估方式,才能讓推薦系統(tǒng)更加“健康”。那么,如何評(píng)估推薦系統(tǒng)的“健康”狀況?

推薦系統(tǒng)從海量數(shù)據(jù)中挖掘用戶喜歡的內(nèi)容,滿足用戶的需求。要想做到“千人千面”的同時(shí),又能做到“精準(zhǔn)推薦”,一個(gè)健康的推薦系統(tǒng)是必不可少的。

就像為了自己的健康去體檢,推薦系統(tǒng)也有自己的健康指標(biāo),不同的業(yè)務(wù)、不同的場(chǎng)景、不同的階段都有不同的指標(biāo),所以選擇好的評(píng)估指標(biāo)以及合適的評(píng)估方式,才能讓推薦系統(tǒng)更加“健康”。

推薦系統(tǒng)的常見(jiàn)指標(biāo)

推薦系統(tǒng)的評(píng)價(jià)指標(biāo),要從解決實(shí)際問(wèn)題的角度來(lái)思考,好的推薦系統(tǒng),不僅要保證自身的“健康”,還要滿足服務(wù)平臺(tái)、用戶等多方面的需求。

圖1:推薦系統(tǒng)基礎(chǔ)流程

1. 用戶角度

用戶最重要的需求是更方便、更快速的發(fā)現(xiàn)自己喜歡的產(chǎn)品,為了滿足用戶的需求,推薦系統(tǒng)可以從以下幾個(gè)方面評(píng)估。

  • 準(zhǔn)確度:準(zhǔn)確度更多的是用戶主觀感受,評(píng)估的是推薦的物品是不是用戶喜歡的,比如推薦的視頻,用戶觀看了,推薦的商品,用戶加入購(gòu)物車或者購(gòu)買了,都可以用來(lái)衡量用戶的喜好程度。
  • 驚喜度:推薦的物品讓用戶有耳目一下的感覺(jué),可以給用戶帶來(lái)驚喜。比如推薦用戶想不起來(lái)名字的音樂(lè)、電影,或者用戶知道功能不知道名字的商品等等,這種推薦和用戶的歷史興趣不一定相似,但是用戶很滿意,超出了用戶的預(yù)期。
  • 新穎性:給用戶推薦沒(méi)有接觸過(guò)的東西,推薦出的商品不一定是用戶喜歡的,但是可以提升用戶的探索欲望,從而獲取更完整的用戶興趣。
  • 多樣性:人的興趣往往是多種多樣的,給用戶推薦多種類目的物品,可以挖掘用戶新的興趣點(diǎn),拓寬用戶的興趣范圍來(lái)提升用戶的推薦體驗(yàn)。

2. 平臺(tái)角度

平臺(tái)方給用戶提供物品或者信息,不同平臺(tái)獲取利潤(rùn)的方式不同,有的通過(guò)會(huì)員盈利,有的通過(guò)商品盈利,大部分的平臺(tái)都會(huì)通過(guò)廣告賺錢。

所以對(duì)于平臺(tái)方來(lái)說(shuō)商業(yè)目標(biāo)是最重要的目標(biāo)之一,通常來(lái)說(shuō)有兩類值得關(guān)注,一個(gè)是內(nèi)容滿意度,一個(gè)是場(chǎng)景轉(zhuǎn)化率。

1)內(nèi)容滿意度

業(yè)務(wù)場(chǎng)景不同,內(nèi)容滿意度的指標(biāo)也隨之變化,主要是通過(guò)用戶對(duì)產(chǎn)品的不同行為了來(lái)衡量,下圖的例子分別說(shuō)明了不同領(lǐng)域的內(nèi)容滿意度的一些衡量指標(biāo)。

圖2:內(nèi)容滿意度評(píng)價(jià)指標(biāo)

2)場(chǎng)景轉(zhuǎn)化率

轉(zhuǎn)化率是比較直觀的指標(biāo),給用戶進(jìn)行推薦,是希望用戶對(duì)推薦的內(nèi)容有所行動(dòng),比如常見(jiàn)的點(diǎn)擊行為、點(diǎn)贊行為等。

  • pv點(diǎn)擊率(點(diǎn)擊量/pv):比較經(jīng)典的指標(biāo),能粗略的衡量轉(zhuǎn)化效果,但是少數(shù)用戶貢獻(xiàn)大量的點(diǎn)擊會(huì)掩蓋這個(gè)指標(biāo)的真實(shí)性。
  • uv點(diǎn)擊率(點(diǎn)擊率/uv):與pv點(diǎn)擊率相比,該指標(biāo)不會(huì)因?yàn)橹貜?fù)瀏覽某個(gè)產(chǎn)品而受影響,能記錄用戶在一個(gè)完整周期的點(diǎn)擊效果。
  • 曝光點(diǎn)擊率(點(diǎn)擊量/曝光次數(shù)):比較適合信息流這種支持上拉/下拉翻頁(yè)的產(chǎn)品,曝光次數(shù)隨著用戶刷屏次數(shù)增加而變大,能更真實(shí)的記錄每一屏的轉(zhuǎn)化情況。
  • uv轉(zhuǎn)化率(轉(zhuǎn)化次數(shù)/點(diǎn)擊量):衡量用戶的轉(zhuǎn)化情況,能把多大比例的用戶從一個(gè)場(chǎng)景轉(zhuǎn)化到另一個(gè)場(chǎng)景去。比如視頻App首頁(yè),一般用戶在點(diǎn)擊某個(gè)視頻后,會(huì)進(jìn)入詳情頁(yè)繼續(xù)操作,而不是返回首頁(yè),用uv轉(zhuǎn)化率更加合理。
  • 人均點(diǎn)擊次數(shù)(點(diǎn)擊量/點(diǎn)擊uv數(shù)):每個(gè)用戶點(diǎn)擊的次數(shù),與uv轉(zhuǎn)換率相輔相承,可以評(píng)價(jià)用戶的深度,uv轉(zhuǎn)化率評(píng)價(jià)用戶的寬度。

*注:pv:訪問(wèn)頁(yè)面的次數(shù);uv:訪問(wèn)頁(yè)面的人數(shù)。

推薦系統(tǒng)的離線評(píng)估

推薦系統(tǒng)的評(píng)價(jià)指標(biāo)除了上面提到的用戶角度和平臺(tái)角度之外,還有推薦系統(tǒng)自身的評(píng)估。

推薦系統(tǒng)從接收數(shù)據(jù)到產(chǎn)生推薦結(jié)果,再根絕推薦結(jié)果的影響重新修正自身。所以本質(zhì)上是一個(gè)閉環(huán)系統(tǒng),在這個(gè)閉環(huán)中,離線部分的工作主要是通過(guò)學(xué)習(xí)訓(xùn)練以及其他策略規(guī)則進(jìn)行召回,主要的以下的評(píng)估指標(biāo)。

圖3:推薦系統(tǒng)評(píng)價(jià)階段

1.?準(zhǔn)確度

準(zhǔn)確度的評(píng)估主要是評(píng)估推薦算法模型的好壞,為選擇合適的模型提供決策支持。

推薦系統(tǒng)也像其他機(jī)器學(xué)習(xí)一樣,把數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,使用訓(xùn)練集學(xué)習(xí)訓(xùn)練模型,通過(guò)測(cè)試集來(lái)衡量誤差以及評(píng)估準(zhǔn)確度。根據(jù)推薦系統(tǒng)的目的不同,準(zhǔn)確度的衡量也有不同的指標(biāo)。

分類問(wèn)題:比如點(diǎn)擊、不點(diǎn)擊或者喜歡、不喜歡就可以看成分類問(wèn)題,分類問(wèn)題的指標(biāo)主要是精確度(Precision)和召回率(Recall),精確度描述的是推薦結(jié)果有多少是用戶喜歡的。

而召回率描述的是用戶喜歡的產(chǎn)品,有多少是推薦系統(tǒng)推薦的。當(dāng)然,我們希望這兩個(gè)指標(biāo)都越大越好。但是實(shí)際情況,都需要平衡這兩個(gè)指標(biāo)的關(guān)系,所以常用的F-指標(biāo)就是一種常用的平衡二者關(guān)系的計(jì)算方式。

評(píng)分預(yù)測(cè):對(duì)產(chǎn)品進(jìn)行評(píng)分,比如電影評(píng)分,常用的準(zhǔn)確度指標(biāo)主要有均方根誤差(RMSE)、MAE(平均絕對(duì)誤差),二者之間主要是計(jì)算方式的差別,都是描述算法的預(yù)測(cè)評(píng)分和產(chǎn)品真實(shí)評(píng)分之間的差距。

排序問(wèn)題:分類和評(píng)分預(yù)測(cè)問(wèn)題,只是把可以推薦的產(chǎn)品篩選出來(lái),但是并不包含展示給用戶的順序,我們當(dāng)然希望把用戶最可能“消費(fèi)”的產(chǎn)品放在前面,這就需要排序指標(biāo)。

其中最常見(jiàn)的離線指標(biāo)是AUC,簡(jiǎn)單的說(shuō),AUC代表的是隨機(jī)挑選一個(gè)正樣本和一個(gè)負(fù)樣本,正樣本排在負(fù)樣本前邊的概率。所以當(dāng)算法能更好的把正樣本排在前邊的時(shí)候,就是一個(gè)好的算法模型。

其他常見(jiàn)的算法指標(biāo),比如MAP,描述的是推薦列表中,和用戶相關(guān)的產(chǎn)品在推薦列表中的位置得分,越靠前得分越大,MRR是按照相關(guān)產(chǎn)品的排名的倒數(shù)作為準(zhǔn)確度,NDGG描述的是推薦列表中每一個(gè)產(chǎn)品的評(píng)分值的累加。同時(shí)考慮每個(gè)產(chǎn)品的位置,最后進(jìn)行歸一化,在同一標(biāo)準(zhǔn)上評(píng)價(jià)不同的推薦列表。

2. 覆蓋率

覆蓋率描述的是推薦出的產(chǎn)品占總產(chǎn)品的比例,除了產(chǎn)品之外,類目、標(biāo)簽也可以用覆蓋率來(lái)評(píng)價(jià)。

3. 多樣性

用戶的興趣不是一成不變的,而且有些產(chǎn)品的用戶不止一個(gè),同一用戶的興趣也會(huì)受到時(shí)間段、心情、節(jié)日等多種音速的影響。所以推薦時(shí)要盡量推薦多樣的產(chǎn)品。在具體的多樣性評(píng)價(jià)上,可以通過(guò)對(duì)產(chǎn)品聚類,在推薦列表中插入不同類別的產(chǎn)品來(lái)提高多樣性。

4.?時(shí)效性

不同產(chǎn)品的時(shí)效性是不同的,比如電商類需要的時(shí)效性不是很高,但是新聞、資訊、短視頻這類產(chǎn)品,就需要很高的時(shí)效性。所以針對(duì)不同產(chǎn)品甚至產(chǎn)品下不同的類目,設(shè)置不同的時(shí)效性,也是提高推薦質(zhì)量的途徑之一。

推薦系統(tǒng)的在線評(píng)估

在線評(píng)估大致可以分為兩個(gè)階段:一個(gè)是用戶觸發(fā)推薦服務(wù);另一個(gè)是用戶產(chǎn)生行為這兩個(gè)階段。

1. 觸發(fā)推薦服務(wù)

  • 穩(wěn)定性:系統(tǒng)的穩(wěn)定性對(duì)于用戶的體驗(yàn)至關(guān)重要,怎樣能針對(duì)不同的場(chǎng)景持續(xù)穩(wěn)定的提供推薦服務(wù),是推薦系統(tǒng)最重要的指標(biāo)之一,提高推薦效果,也要在保證系統(tǒng)穩(wěn)定性的前提下去進(jìn)行優(yōu)化。
  • 高并發(fā):當(dāng)某個(gè)時(shí)間點(diǎn)有大量用戶訪問(wèn),或者用戶規(guī)模很大時(shí),推薦系統(tǒng)能否扛住高并發(fā)的壓力也是一個(gè)很大的挑戰(zhàn)。所以設(shè)計(jì)一個(gè)高并發(fā)的系統(tǒng),了解不同接口的高并發(fā)能力,做好充分的壓力測(cè)試,也是推薦系統(tǒng)能否穩(wěn)定提供服務(wù)的重要內(nèi)容。
  • 響應(yīng)時(shí)間:響應(yīng)時(shí)間衡量用戶是否能夠及時(shí)得到推薦反饋,響應(yīng)時(shí)間會(huì)受到多種因素的影響,比如網(wǎng)絡(luò)情況、服務(wù)器、數(shù)據(jù)庫(kù)等,可以通過(guò)監(jiān)控請(qǐng)求的時(shí)長(zhǎng),做好超時(shí)報(bào)警。同時(shí)在生產(chǎn)推薦結(jié)果時(shí)優(yōu)化計(jì)算方式、簡(jiǎn)化生產(chǎn)過(guò)程,盡可能的規(guī)避響應(yīng)時(shí)間帶來(lái)的影響。

2.?產(chǎn)生行為

這一階段主要是用過(guò)用戶產(chǎn)生行為,通過(guò)收據(jù)分析用戶的行為日志進(jìn)行相關(guān)指標(biāo)的評(píng)價(jià)。這一階段更多的是考慮平臺(tái)角度,從商業(yè)化指標(biāo)以及用戶行為指標(biāo)等方面進(jìn)行評(píng)價(jià)。

比如轉(zhuǎn)化率、購(gòu)買率、點(diǎn)擊率等都是常見(jiàn)的行為指標(biāo),一般用戶行為符合漏斗模型(例如,推薦曝光-點(diǎn)擊-閱讀-分享),通過(guò)漏斗模型可以直觀的描述不同階段之間的轉(zhuǎn)化,提升用戶在不同階段之間的轉(zhuǎn)化。

圖4:用戶行為漏斗模型

AB測(cè)試

在線評(píng)估通常會(huì)結(jié)合AB測(cè)試,當(dāng)有新的算法或者策略上線時(shí),通過(guò)AB測(cè)試,在同一指標(biāo)下,對(duì)比新舊算法的差異,只有當(dāng)新算法有明顯優(yōu)勢(shì)時(shí),才會(huì)取代舊的算法。

圖5:AB測(cè)試流程

1. 什么是AB測(cè)試

AB測(cè)試的本質(zhì)是對(duì)照試驗(yàn),其來(lái)源于生物醫(yī)學(xué)的雙盲測(cè)試,通過(guò)給兩組病人不同的藥物,來(lái)確定藥物是否有效。

在推薦系統(tǒng)中,AB測(cè)試也采用了類似的概念:將不同的算或者策略,在同一時(shí)間維度,分別在兩組或者多組組成成分相同的用戶群體內(nèi)進(jìn)行線上測(cè)試,分析各組的用戶行為指標(biāo),得到可以真正全流量上線的算法或者策略。

2. AB測(cè)試的常見(jiàn)做法

AB測(cè)試應(yīng)該怎樣進(jìn)行呢?其中最重要的是“控制變量”、“分流測(cè)試”和“規(guī)則統(tǒng)一”。

控制變量:AB測(cè)試必須是單變量的,變量太多,變量之間會(huì)產(chǎn)生干擾,很難找出各個(gè)變量對(duì)結(jié)果的影響程度。在推薦系統(tǒng)中,AB測(cè)試的唯一變量就是推薦算法或者策略。

分流測(cè)試:AB測(cè)試作為對(duì)照試驗(yàn),自然有實(shí)驗(yàn)組和對(duì)照組。通常狀況下會(huì)對(duì)用戶進(jìn)行分流,很多用戶都會(huì)訪問(wèn)同一個(gè)app或者web多次。所以根據(jù)用戶進(jìn)行分流是一個(gè)很好的方案,在對(duì)用戶進(jìn)行分流時(shí),可以通過(guò)用戶ID,設(shè)備號(hào)或者瀏覽器cookie。

對(duì)于未登錄用戶來(lái)說(shuō),跨設(shè)備訪問(wèn)app或者web,就會(huì)產(chǎn)生不同的標(biāo)識(shí)。所以對(duì)于未登錄用戶,最好能保持實(shí)驗(yàn)組和對(duì)照組有相同的比例。

不同的用戶在一次瀏覽過(guò)程中,體驗(yàn)的應(yīng)該是一個(gè)方案,同時(shí)需要注意不同流量之間的人數(shù),大多數(shù)情況希望所有用戶平均分配。

規(guī)則統(tǒng)一:在控制變量和分流測(cè)試的前提下,針對(duì)不同的流量,應(yīng)該制定相同的評(píng)價(jià)指標(biāo),才能得到準(zhǔn)確的對(duì)比效果。

 

本文由 @達(dá)觀數(shù)據(jù) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 發(fā)現(xiàn)個(gè)錯(cuò)別字…

    來(lái)自廣東 回復(fù)
    1. 審核編輯的雞腿沒(méi)了

      回復(fù)