比對象還懂你!推薦算法為啥這么準?
信息過度和廣告過多的社會中,推薦算法的使用也就顯得理所當然,但是它是如何做到了解用戶的呢?本文從用戶畫像的定義和設計出發(fā),結合實際案例,深入淺出地闡述了基于用戶畫像的推薦算法及其產(chǎn)品設計。
為了方便讀者更好的理解本文,筆者將以今日頭條(建議在手機上下好“今日頭條”APP,且最好注冊一個頭條號并登錄到后臺)這款產(chǎn)品為例輸出一些內(nèi)容推薦(分發(fā))相關的“干貨”。
何為推薦?簡言之:“物以類聚,人以群分”,那何為物,何為人呢?答:物為內(nèi)容(文章/圖文/視頻等),人為用戶(刷今日頭條的用戶);那么機器怎么知道內(nèi)容和人屬于什么類別(斷物識人)呢?再答:“內(nèi)容畫像”和“用戶畫像”的構建,而推薦的過程其實就是完成用戶和內(nèi)容的匹配。那么什么是“內(nèi)容畫像”和“用戶畫像”呢?機器是如何對兩者進行精準構建和匹配呢?
一、內(nèi)容畫像
內(nèi)容畫像,簡單來說就是內(nèi)容的特點。如果具象化內(nèi)容,筆者更傾向于假設是一個內(nèi)容漏斗(類似于倒三角形用戶漏斗,不過所示關系不一定為層級關系,見圖1)。第一層通常表示內(nèi)容的一個垂直領域(大類別)而后面幾層可以大致表示為標簽/關鍵詞/主題詞等小類別。
▲ 圖1:用戶漏斗
1. 垂直領域
劃分方式:機器標注(NLP技術),人工手打,PUGC創(chuàng)作者選擇(已不需要)。
考慮到內(nèi)容漏斗有很多層,為了便于理解,筆者簡單說一下用戶可以直觀看到的幾層。最顯眼的可能就是第一層了,在頭條(指今日頭條)內(nèi)部通常指的就是垂類(垂直領域),如:科技、娛樂、體育等。舉個栗子,筆者之前發(fā)布的一篇vivo NEX的軟廣,被機器識別成了“科技”領域的文章。那這個內(nèi)容第一層就是科技。
垂類的劃分方式通常為機器標注(涉及NLP技術:文本分類、命名實體識別等)、人工手打(傳說中“打tag”的一種主要形式),或PUGC創(chuàng)作者(統(tǒng)稱:頭條號)在發(fā)布內(nèi)容時進行領域選擇(如圖3),不過,現(xiàn)在發(fā)布內(nèi)容已不需要進行選擇。
▲ 圖2:筆者頭條號“不二科技君”標題截圖
▲ 圖3:來源百度圖片,早期頭條號發(fā)布內(nèi)容時需選領域
2. 細分tag
劃分方式:機器標注(NLP技術)
顯然,光知道內(nèi)容的大類并不能給用戶精準的推薦感興趣的內(nèi)容。那就需要第二層內(nèi)容漏斗了,這里要講的其實也是一種打tag的形式(涉及NLP技術:文本主題/關鍵詞抽取),只是平臺根據(jù)用戶的喜好對內(nèi)容做更進一步的更細化了。還是上面舉例的這篇vivo NEX雙屏版文章,對應的一些細分tag就有vivo、手機、科技等?!覆贿^“一起皮一下才開心”是什么鬼?」
▲ 圖4:上述舉例文末對應的細分tag
當然,這個內(nèi)容漏斗遠不止這兩層,細分其實有很多種,比如接著上文舉例的文章來說,漏斗可能是這樣的:科技->手機->Android->vivo->vivo旗艦機->vivo NEX->vivo NEX雙屏版。而細分得越精細,內(nèi)容畫像也就越清晰,推薦才越精準,當然,技術難度也是同樣提高的。
像頭條比較強悍的競品之一“一點資訊”,就號稱有365萬個個性化訂閱頻道,可想后面支撐的一個推薦算法團隊是有多強。當然,除了內(nèi)容的特點之外,內(nèi)容畫像還包含內(nèi)容的質(zhì)量、熱度、原創(chuàng)度、所發(fā)布用戶的權重等。而這個權重指的就是頭條對頭條號所發(fā)布文章的推薦權重(更多的是內(nèi)容冷啟動推薦數(shù)量,以及后續(xù)推薦的加成幅度),如圖5可見頭條對筆者這篇“軟廣”的推薦量,也可以側面看出頭條對于軟文的打壓力度。
▲ 圖5:上文舉例文章的后臺數(shù)據(jù),推薦數(shù)為5228
那推薦權重由什么來決定呢?其中一項就是頭條號指數(shù)。頭條號指數(shù)是之前平臺為了讓做作者們過新手/評原創(chuàng)而提出的一個量化指標(如圖6),而這個頭條號指數(shù)其實可以理解為平臺對于頭條號的一個打分,決定了頭條號所發(fā)布內(nèi)容的推薦權重。而頭條號指數(shù)的評定標準有5大方面(如圖7):原創(chuàng)度、垂直度、關注度、健康度、傳播度。
不過,現(xiàn)在頭條號Web端后臺已經(jīng)看不到了,不過手機端還可以看到。除了內(nèi)容的特點之外,內(nèi)容畫像還包含內(nèi)容的質(zhì)量、熱度、原創(chuàng)度、所發(fā)布用戶的權重等。
▲ 圖6: 2017年6月26日筆者頭條號后臺
▲ 圖7:來源百度圖片,頭條號指數(shù)的五大影響因素
二、什么是用戶畫像?
什么是用戶畫像呢?簡而言之就是你(顯式&隱式)的基本特征(比如:性別、學歷、年齡、常駐位置等)和興趣愛好(籃球迷、數(shù)碼控、動漫迷等)所構建出來的一個“屬性圖”(技術通常稱為“知識圖譜”)。舉個栗子,我們通常被機器標注成一個數(shù)據(jù)組合(如圖8):科技|20%、體育|10%、娛樂|30、養(yǎng)生|5%……..
▲ 圖8:用戶畫像實例,來源《內(nèi)容算法》
三、機器如何構建用戶畫像
那么問題來了,機器如何知道一個用戶的畫像呢?首先,用戶分為新用戶和老用戶兩類。針對前者就涉及到了用戶畫像構建的一個常見且難點(策略產(chǎn)品面試問題)——(用戶)冷啟動,通常面試官會問你,如何做用戶冷啟動?那么筆者告訴大家一些常見的答案。
首先,新用戶打開APP會讓選擇喜歡的領域。其二,絕對的冷啟動并不存在,用戶在其他APP的行為其實也會被監(jiān)督到。比如你在淘寶看球鞋,打開頭條刷新聞就能刷到你剛看的那款球鞋的廣告,也就是說在你打開淘寶APP那一刻,你的一個比較明顯的屬性·體育|籃球已經(jīng)被獲取了。
其三,機器通常會給你推薦當前熱點內(nèi)容「比如科技領域|iPhone發(fā)布新品,娛樂領域|汪峰上頭條等」,通過你在這些內(nèi)容下的用戶行為(點擊,點贊,轉發(fā),跳出,停留時長等),機器會對屏幕前面的你有一個“初印象”。通過你在不同領域內(nèi)容的用戶行為,判斷你對內(nèi)容的興趣度,從而構建你的一個初步用戶畫像(這是當前常用的一種用戶冷啟動方式)。
比如:打開頭條,給你冷啟動推送了12條內(nèi)容(3條NBA+3條娛樂+3條科技+3條美食),然后你點擊了3條體育,2條數(shù)碼,1條娛樂……那么,最開始的用戶畫像(V1.0)可能為體育|30%,數(shù)碼領域|20%,娛樂領域|10%,其他領域|20%,目測是一名男性,愛好運動,科技宅等。然后,還發(fā)現(xiàn)里面2條體育內(nèi)容都是和科比有關的,那么你大概率是個男性科密數(shù)碼控。
后來,你變成了老用戶,隨著你使用頭條的次數(shù)越多,你產(chǎn)生的用戶行為數(shù)據(jù)越多,背后的模型就會被訓練的越“聰明”。隨著你“刷”的越多,你的用戶畫像也會隨之發(fā)生不斷的變化,變得越來越細化,越精準。
四、如何推薦?
最后,關于機器在用戶畫像和內(nèi)容畫像精準構建出來之后,如何做推薦呢?事實上,這其實就是一個匹配(match)的操作。當然,簡單說匹配筆者認為還是不夠恰當,因為除了用戶畫像和內(nèi)容畫像(相關性特征)之外,機器在訓練模型時還會考慮熱度特征(全局熱度、分類熱度等)、協(xié)同特征(相似用戶、興趣分類用戶等)、環(huán)境特征(時間、地理位置等),詳見圖9。
▲ 圖9:來源文章“今日頭條算法原理(全)”
那么,機器學習到了這些如圖9的這些特征之后,推薦模型就會被不斷的更新(準確的說是模型的參數(shù)在發(fā)生更新,如:神經(jīng)網(wǎng)絡在做后向傳播時會在每一次迭代時發(fā)生相關權重參數(shù)的變化),最后機器呈現(xiàn)給不同用戶的內(nèi)容也會因為這些特征的不同而不一樣,甚至同類型的用戶,也就是所謂的“千人千面”(最早用在電商平臺)。
而作為內(nèi)容消費”平臺,這里主要指的是內(nèi)容分發(fā)。那么如何讓內(nèi)容分發(fā)變得更加精準呢?這里不得不提這兩個名詞,即:召回和排序。這里難講,簡言之,召回比較依賴于內(nèi)容和用戶的標簽匹配度,而排序則涉及到一個用戶興趣傾向性,或者是一個更加細粒度的匹配問題上,因為要保證合適的內(nèi)容放在合適的位置,比如筆者是一個數(shù)碼控,那如果推送12篇內(nèi)容給我,我更傾向于第一篇是關于數(shù)碼的而不是娛樂的。
而排序也往往能夠反映出推薦策略的優(yōu)秀程度,因為只有讓用戶最快的觸達你感興趣的內(nèi)容才會產(chǎn)生更多的留存,才會激活,才能進行轉化(才能更便于平臺推送廣告等商業(yè)化操作)。當然,AI時代,決定模型表現(xiàn),或者說我們這里的推薦系統(tǒng)(也可以理解為是一種機器學習模型)的表現(xiàn),除了算法本身,還有算力(指的是計算機運算能力,這方面頭條和競品無法拉開差距,因為這是錢能夠解決的問題),還有另外一個關鍵項就是數(shù)據(jù)(高質(zhì)量的數(shù)據(jù))。
關于數(shù)據(jù)的重要性,讓我想到了帶我做科研的一位博士師兄(目前在Amazon做推薦)說過的一句話:“Garbage in, Garbage out”,而這句話更適用于AI+產(chǎn)品落地上。簡言之,數(shù)據(jù)對于推薦結果(或者說內(nèi)容分發(fā))的好壞起著十分根本性的作用。
說到這,請大家跟著筆者思考一個問題,頭條DAU(日活)據(jù)說2.4億+,而每個用戶日均使用時長70min+,假設用戶閱讀一篇內(nèi)容(文章/視頻)的平均時間是2min,那么用戶閱讀內(nèi)容數(shù)據(jù)得有2.4億*70/2 = 84億+(條)!所以,回到最開始的問題,為啥說頭條推薦如此牛逼呢?那是因為推薦算法的3個核心壁壘,頭條都屬于業(yè)內(nèi)前列(甚至可以稱得上是國內(nèi)NO.1)。
One More Thing
看完筆者“粗鄙”的輸出,大家對推薦策略有沒有想深入的興趣呢?如果有想了解的沖動,甚至想定位做策略產(chǎn)品經(jīng)理的話,那么后面的一些話遠比之前的長篇大論更加實在。
私認為(內(nèi)容推薦)策略產(chǎn)品經(jīng)理入門之前,一定的推薦算法“技術”輸入是必須的。而一個較好且體系的學習方式就是“閱讀+思考+實戰(zhàn)三位一體”「摘自@劉飛老師很久之前在群里說的的一段話」。所以,這里的“One More Thing”是指筆者希望帶(和)大家一起做一些實際的,有意義的輸入,從根本上去尋找打開推薦策略這一黑匣的鑰匙。
關于“閱讀”,大家可以移步至我的微信公眾號,之前寫的一個“策略產(chǎn)品入門”的一篇文章獲取一下推薦書籍資源。那么,大家比較關心的“實踐”部分該如何去做呢?這里要賣個關子,相信你看完《內(nèi)容算法》這本書就會有答案了,因為筆者覺得本書的后半部分其實就是澤華老師在教大家如何去做實踐。
以上,皆為筆者粗鄙之見,所講內(nèi)容只是今日頭條推薦算法里的極少部分,背后的Model和Data十分龐大與強大,紕漏難免,還望諒解并給予批評指正。另外,筆者認為機器(計算機)再厲害,也是人類所“賦予”的,機器越來越聰明的背后反映的應該是人(如:推薦算法團隊| Modeling & Data processing)在不斷的進化變強!
在此,作為南開人,忍不住向今日頭條創(chuàng)始人@張一鳴師兄致敬,向您帶領的優(yōu)秀團隊表示崇高的敬意!
參考文獻:
- 閆澤華|《內(nèi)容算法》
- 今日頭條·曹歡歡博士 | 今日頭條算法原理(全)
- 3Dietmar Jannach等著,蔣凡譯 | 《推薦系統(tǒng) [ Recommender systems:An introduction]》
- 項亮 | 《推薦系統(tǒng)實踐》——策略產(chǎn)品小白 | 南開NLP碩士·熊慧超 2018.12.27
作者:產(chǎn)品TED;公眾號:產(chǎn)品TED
本文由 @產(chǎn)品TED 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載
題圖來自Unsplash,基于CC0協(xié)議。
- 目前還沒評論,等你發(fā)揮!