推薦算法的“前世今生”

2 評(píng)論 10821 瀏覽 76 收藏 18 分鐘

算法分發(fā)是未來(lái)之物,它是信息過(guò)載時(shí)代智能分發(fā)的產(chǎn)物;算法分發(fā)或也終將成為過(guò)去之物,因?yàn)橄乱淮夹g(shù)的發(fā)展永遠(yuǎn)可以突破當(dāng)代人的想象,就像宋朝人無(wú)法想象移動(dòng)互聯(lián)網(wǎng)。

算法分發(fā)、編輯分發(fā)、社交分發(fā)……在信息時(shí)代,人們常常討論信息分發(fā)問(wèn)題,相關(guān)概念也成為大熱名詞。

但事實(shí)上,信息資源一直在人類(lèi)的進(jìn)化和發(fā)展中占據(jù)著重要位置。社交分發(fā)是最古老的分發(fā)方式,編輯分發(fā)也比我們想象得更早。

而當(dāng)我們把算法分發(fā)置于人類(lèi)社會(huì)信息分發(fā)的歷史長(zhǎng)河中,便能清楚地看到它的“前”與“后”——從這個(gè)角度來(lái)看,新鮮的算法推薦,其實(shí)也不新鮮。

亙古的信息分發(fā)問(wèn)題

信息分發(fā),是一個(gè)亙古問(wèn)題。

不妨從一個(gè)有趣的聯(lián)想開(kāi)始:在人類(lèi)文明早期,群居的祖先們依靠采集和狩獵生存。由于狩獵是一個(gè)非常危險(xiǎn)的技術(shù)活,人們需要交流狩獵作戰(zhàn)的信息和經(jīng)驗(yàn),來(lái)提高成功率。

比如,獵物出現(xiàn)時(shí)用什么信號(hào)召集同伴?從什么位置伏擊猛獸效果更好?他們通過(guò)手勢(shì)和發(fā)聲,把這些重要信息分發(fā)給同伴——這便是“社交分發(fā)”,人類(lèi)社會(huì)最原始的信息分發(fā)方式。

“知”(甲骨文):

推薦算法的“前世今生”

甲骨文的“知”就表示談?wù)摵蛡魇谛蝎C、作戰(zhàn)的經(jīng)驗(yàn)。

社交分發(fā)的意思是基于社交關(guān)系的直接和自然的分發(fā)。《人類(lèi)簡(jiǎn)史》用“八卦”來(lái)描述這種信息交流,指出八卦對(duì)人類(lèi)進(jìn)化的重要作用。

另一種自古就有的信息分發(fā)形式,則是編輯分發(fā)。雖然英文“edit”一詞的出現(xiàn)和報(bào)紙相關(guān),可這種分發(fā)形式早已有之。

在口傳時(shí)代,由古希臘盲詩(shī)人荷馬搜集、整理而成的“荷馬史詩(shī)”(《伊利亞特》和《奧德賽》)就是典型例子。漢語(yǔ)將“編輯”解釋為“收集資料,整理成書(shū)”。去其形,取其義,這種信息分發(fā)的根本特征是:信息經(jīng)過(guò)整理后分發(fā)至接受者,有加工和把關(guān)的意涵。

無(wú)論社交分發(fā),還是編輯分發(fā),它們都已經(jīng)歷史悠久。只是承載這些分發(fā)方式的具體媒介在不斷更新和變化,也給這些分發(fā)方式帶來(lái)了新的可能。

比如,互聯(lián)網(wǎng)通過(guò)對(duì)社交關(guān)系的限制(地域、血緣等)突破,在某種程度上實(shí)現(xiàn)了跨區(qū)域的社交聯(lián)結(jié),也讓社交分發(fā)的范圍從家庭、線下社區(qū),轉(zhuǎn)向更廣的興趣群體。

推薦算法的“前世今生”

進(jìn)入互聯(lián)網(wǎng)時(shí)代,科學(xué)家和工程師都在努力解決信息過(guò)載環(huán)境下的分發(fā)問(wèn)題,早期兩種代表性的解決方案是分類(lèi)目錄和搜索引擎——前者,通過(guò)人工編輯把知名網(wǎng)站分門(mén)別類(lèi),讓用戶(hù)根據(jù)類(lèi)別來(lái)查找網(wǎng)站,典型如雅虎、Hao123等;后者,讓用戶(hù)通過(guò)搜索關(guān)鍵詞找到所需信息,解決了分類(lèi)目錄的有限覆蓋問(wèn)題,典型如谷歌、百度等。

實(shí)際上,這兩種解決方案的思路并不新鮮,很大程度上可以分別對(duì)應(yīng)圖書(shū)館的分類(lèi)館藏和百科全書(shū)的條目索引。

縱觀整個(gè)歷史長(zhǎng)河,我們不難發(fā)現(xiàn):信息環(huán)境是變化的,解決方案是具體的,但信息分發(fā)的需求和方式卻是相通的。它們都在回答一個(gè)問(wèn)題——如何有效地連接人和信息。

推薦算法:熟悉的新朋友

算法分發(fā)的出現(xiàn)和普遍應(yīng)用,意味著人類(lèi)開(kāi)始運(yùn)用機(jī)器大規(guī)模地解決信息分發(fā)問(wèn)題,人類(lèi)社會(huì)信息分發(fā)的動(dòng)力從人力轉(zhuǎn)向了部分自動(dòng)化——從“人找信息”,到“信息找人”。

站在人類(lèi)社會(huì)信息分發(fā)的長(zhǎng)河中看,算法分發(fā)雖然是一個(gè)新鮮事物,但它的使命和根基卻是熟悉的。從這個(gè)切口去思考,不難回答為什么這個(gè)時(shí)代誕生了推薦算法:

第一,新的信息環(huán)境和人類(lèi)的信息需求動(dòng)力,呼喚一種新的信息分發(fā)解決方案。

面對(duì)信息過(guò)載的環(huán)境和碎片化的信息消費(fèi)場(chǎng)景,如何從大量信息中找到自己感興趣的信息,是一件非常困難的事情。作為重要工具的搜索引擎,可以部分滿(mǎn)足人們的需求,但最適用于需求明確的場(chǎng)景。如果用戶(hù)無(wú)法準(zhǔn)確描述自己的信息搜索需求,甚至對(duì)自己的需求都不充分了解呢?

這意味著,我們需要一個(gè)能夠主動(dòng)根據(jù)我們的興趣和需求來(lái)分發(fā)信息的方案。早在1995年出版的《數(shù)字化生存》(Being Digital)中,尼古拉·尼葛洛龐帝便提出“我的日?qǐng)?bào)”(The Daily Me),認(rèn)為在線新聞將使受眾主動(dòng)選擇自己感興趣的內(nèi)容,預(yù)言未來(lái)信息的個(gè)人化。

在當(dāng)時(shí),這種設(shè)想可能被認(rèn)為是“白日做夢(mèng)”。因?yàn)閭€(gè)體之間自然有差異,而為了社會(huì)的總體效率,人們總是盡可能尋找信息的“公約數(shù)”。

隨著技術(shù)的發(fā)展,推薦系統(tǒng)的出現(xiàn)給人類(lèi)的信息分發(fā)帶來(lái)了一種可能:人們不用每次都提供明確的需求,而是通過(guò)為不同個(gè)體的信息需求建模,從而主動(dòng)推薦能夠滿(mǎn)足他們興趣和需求的信息。

第二,信息技術(shù)的發(fā)展,為個(gè)性化推薦系統(tǒng)的出現(xiàn)提供了物質(zhì)條件。

  • 一方面,移動(dòng)互聯(lián)網(wǎng)發(fā)展,每個(gè)人都是一個(gè)終端,這使得信息的分發(fā)能夠低成本定位到不同的個(gè)體用戶(hù)。
  • 另一方面,AI技術(shù)的成熟和硬件資源的進(jìn)化,為個(gè)性化推薦提供了技術(shù)實(shí)現(xiàn)路徑:機(jī)器學(xué)習(xí)模型的應(yīng)用,深度學(xué)習(xí)的快速發(fā)展等,提供了有力的算法工具;而大規(guī)模分布式機(jī)器學(xué)習(xí)框架的出現(xiàn)、GPU對(duì)深度學(xué)習(xí)的加速能力得到普遍驗(yàn)證、專(zhuān)用深度學(xué)習(xí)芯片的出現(xiàn)(TPU、寒武紀(jì)),又提供了另一層保障。

1994 年美國(guó)明尼蘇達(dá)大學(xué)GroupLens研究組推出第一個(gè)自動(dòng)化推薦系統(tǒng) GroupLens(1),提出了將協(xié)同過(guò)濾作為推薦系統(tǒng)的重要技術(shù),也是最早的自動(dòng)化協(xié)同過(guò)濾推薦系統(tǒng)之一。

1998年亞馬遜(Amazon.com)上線了基于物品的協(xié)同過(guò)濾算法,將推薦系統(tǒng)推向服務(wù)千萬(wàn)級(jí)用戶(hù)和處理百萬(wàn)級(jí)商品的規(guī)模,并能產(chǎn)生質(zhì)量良好的推薦。

2006 年10月,北美在線視頻服務(wù)提供商 Netflix 開(kāi)始舉辦著名的Netflix Prize推薦系統(tǒng)比賽。參賽者如能將其推薦算法的預(yù)測(cè)準(zhǔn)確度提升10%,可獲得100萬(wàn)美元獎(jiǎng)金。參賽的研究人員提出了若干推薦算法,大大提高推薦準(zhǔn)確度,極大地推動(dòng)了推薦系統(tǒng)的發(fā)展。

2016年,YouTube發(fā)表論文(2),將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用推薦系統(tǒng)中,實(shí)現(xiàn)了從大規(guī)??蛇x的推薦內(nèi)容中找到最有可能的推薦結(jié)果。

自第一個(gè)推薦系統(tǒng)誕生,至今已有二十多年。現(xiàn)在,算法推薦的思路和應(yīng)用,已經(jīng)深入到很多互聯(lián)網(wǎng)應(yīng)用中。

比如,內(nèi)容分發(fā)平臺(tái)的個(gè)性化閱讀(今日頭條、抖音等)、搜索引擎的結(jié)果排序(谷歌、百度等)、電商的個(gè)性化推薦(亞馬遜、淘寶等)、音視頻網(wǎng)站的內(nèi)容推薦(如Netflix、YouTube等)、社交網(wǎng)站的(Facebook、微博、豆瓣等),等等。

根據(jù)第三方監(jiān)測(cè)機(jī)構(gòu)“易觀”發(fā)布的《2016中國(guó)移動(dòng)資訊信息分發(fā)市場(chǎng)研究專(zhuān)題報(bào)告》:2016年,在資訊信息分發(fā)市場(chǎng)上,算法推送的內(nèi)容將超過(guò)50%。到今年,這個(gè)比重想必更大。

推薦算法的“前世今生”

如今,人們探討算法分發(fā)的價(jià)值,最常提到的是提高了信息分發(fā)的效率,它表現(xiàn)在:解放了部分人力,同時(shí)突破了人力對(duì)信息分發(fā)造成的限制,實(shí)現(xiàn)長(zhǎng)尾內(nèi)容的有效分發(fā),從而更高效地完成人和信息的匹配。

然而,還有一層意義較少有人觸及:通過(guò)算法實(shí)現(xiàn)的個(gè)性化推薦,真正關(guān)注和理解個(gè)體。每一個(gè)個(gè)體都是一個(gè)意義不同的“終端”,而不是永遠(yuǎn)將個(gè)體置于群體中去總體理解。也即尼葛洛龐帝所言的“在數(shù)字化生存的情況下,我就是‘我’,不再是人口統(tǒng)計(jì)學(xué)中的一個(gè)‘子集’。”——這也是“personal”(個(gè)性化)中“person”的意涵所在。

人性面前,算法有更多可能

算法為人智能地匹配信息,但它推薦的依據(jù)還是在于人。

即便推薦算法發(fā)展得更加成熟,人們?cè)诤退惴ǖ娜粘O嗵幹?,也難免會(huì)有一些困惑:有時(shí),希望算法再“聰明”、更理解自己一些;有時(shí),并不想老關(guān)注自己感興趣的內(nèi)容,也想看看公共熱點(diǎn);還有時(shí),會(huì)猜想自己除了這些需求之外,會(huì)不會(huì)也有其他的潛在興趣?……

今天,對(duì)內(nèi)容推薦的批評(píng)聲音中,包括讓視野窄化、信息低俗化、人的邊緣化等——這些聲音從根本上折射出人類(lèi)永恒關(guān)注的問(wèn)題:信息的寬度和高度,以及人的主體性。面對(duì)這些追問(wèn),也許轉(zhuǎn)而用一種整體的和發(fā)展的視角,更有利于我們?nèi)ダ斫鈫?wèn)題。

首先,算法推薦是重要的,但它并非全部。人類(lèi)有多種信息需求場(chǎng)景,不同的信息分發(fā)方式和工具在互相配合來(lái)滿(mǎn)足用戶(hù)的需求。這些分發(fā)方式的具體工具,或許在不同階段此消彼長(zhǎng),但本質(zhì)上并沒(méi)有完全取代對(duì)方。

舉個(gè)簡(jiǎn)單的例子:假設(shè)一個(gè)初級(jí)電影愛(ài)好者想在周末看一部電影,會(huì)有幾種可能?

如果他今天想看庫(kù)布里克的作品,他可能直接打開(kāi)搜索框,搜索“庫(kù)布里克”導(dǎo)演,看看他導(dǎo)演的作品還有哪些自己沒(méi)看過(guò);如果他自己沒(méi)有特定的想法,便可能打開(kāi)個(gè)性化推薦的APP,在熟悉自己喜好的信息流中,刷一刷看有沒(méi)有感興趣的電影;當(dāng)然,如果他運(yùn)氣好,微信加了一個(gè)電影發(fā)燒友,也可以直接請(qǐng)對(duì)方推薦幾部。

從這個(gè)例子中,可以看到:搜索引擎滿(mǎn)足了用戶(hù)有明確目的時(shí)的主動(dòng)查找需求;而推薦系統(tǒng)能夠在用戶(hù)沒(méi)有明確目的的時(shí)候,幫助他們發(fā)現(xiàn)感興趣的新內(nèi)容——從這個(gè)意義上看,“推薦”和“搜索”實(shí)際上是滿(mǎn)足人們不同需求的兩個(gè)互補(bǔ)的工具。

當(dāng)個(gè)性化推薦應(yīng)用發(fā)展迅速的時(shí)候,人們可能會(huì)不由自主地假設(shè)它占據(jù)自己的全部信息場(chǎng)景;然而,在現(xiàn)實(shí)情況里,一個(gè)人在日常生活中接觸信息的渠道,遠(yuǎn)比我們想象得要更加豐富——2016年Seth Flaxman等學(xué)者進(jìn)行的一項(xiàng)實(shí)驗(yàn),也證明了這個(gè)結(jié)論(3)。

該研究請(qǐng)5萬(wàn)名參與者,自主報(bào)告自己最近獲取信息的新聞媒體來(lái)源,同時(shí)通過(guò)電子手段直接監(jiān)測(cè)和記錄他們的實(shí)際新聞消費(fèi)行為,包括網(wǎng)頁(yè)瀏覽歷史等。兩項(xiàng)數(shù)據(jù)的對(duì)比后,研究最終發(fā)現(xiàn)人們實(shí)際的媒體消費(fèi)比他們所想象的更具有多樣性。

再者,從根本上來(lái)說(shuō),算法是運(yùn)用智能來(lái)解決信息分發(fā)問(wèn)題的思路,而非一個(gè)絕對(duì)的和定型的操作手段,它本身也在不斷發(fā)展。算法與編輯、社交并不對(duì)立,將三者有機(jī)結(jié)合可以幫助實(shí)現(xiàn)更有效的信息匹配。

《內(nèi)容算法》一書(shū)中,作者把算法比喻為“是個(gè)筐,什么都能往里裝”:算法是基于我們對(duì)現(xiàn)實(shí)世界的理解進(jìn)行的抽象和建模,所有我們關(guān)心的因素(編輯分發(fā)、社交分發(fā))都可以轉(zhuǎn)化為算法推薦的參考因素。

實(shí)際應(yīng)用的推薦系統(tǒng)通常都會(huì)使用多種推薦算法,來(lái)提高推薦系統(tǒng)的個(gè)性化、多樣性、健壯性(即魯棒性)。比如:運(yùn)用基于內(nèi)容的推薦算法,解決用戶(hù)和內(nèi)容的冷啟動(dòng)問(wèn)題;在擁有了一定的用戶(hù)行為數(shù)據(jù)后,根據(jù)業(yè)務(wù)場(chǎng)景的需要綜合使用基于用戶(hù)的協(xié)同過(guò)濾(UserCF)、基于物品的協(xié)同過(guò)濾(ItemCF)、矩陣分解或其他推薦算法進(jìn)行離線計(jì)算和模型訓(xùn)練,并綜合考慮用戶(hù)的社交網(wǎng)絡(luò)數(shù)據(jù)、時(shí)間相關(guān)和地理數(shù)據(jù)等進(jìn)行推薦。

與此同時(shí),人工編輯也在關(guān)鍵的時(shí)候發(fā)揮作用。比如在今日頭條平臺(tái),由人工審核和機(jī)器算法共同對(duì)內(nèi)容進(jìn)行把關(guān)。一個(gè)擁有良好推薦機(jī)制和規(guī)則的平臺(tái),能夠助力高質(zhì)量?jī)?nèi)容的傳播,從而促進(jìn)內(nèi)容生態(tài)的發(fā)展。新技術(shù)環(huán)境中,專(zhuān)業(yè)內(nèi)容生產(chǎn)和編輯團(tuán)隊(duì)的價(jià)值不僅不會(huì)褪色,還會(huì)越來(lái)越重要。

最后,從人們圍繞算法分發(fā)的探討中,可以看到人們面對(duì)信息時(shí)的兩對(duì)永恒需求——個(gè)人向和公共向、已知的和未知的。人類(lèi)永遠(yuǎn)希望二者可以達(dá)到動(dòng)態(tài)的平衡,而這個(gè)平衡點(diǎn)又往往因人而異。這給算法的發(fā)展和完善提供了動(dòng)力,也帶來(lái)了難題。

對(duì)于個(gè)體來(lái)說(shuō),一個(gè)趨于理想態(tài)的信息生態(tài),可能需要具備社會(huì)性、群體性、個(gè)體性,兼顧信息的高度和寬度——有些問(wèn)題,算法可以解決,也正在嘗試解決;但有些問(wèn)題,可能人類(lèi)自己也無(wú)法很好地解題,最終還是要不斷回歸到人性本身。信息分發(fā)技術(shù)發(fā)展和完善的背后動(dòng)力,還是在于人,在于人對(duì)信息分發(fā)理想模式的永恒追尋。

在這過(guò)程中,人始終具有其獨(dú)特的價(jià)值和能動(dòng)性,堅(jiān)守“技術(shù)為人”。

結(jié)尾

算法分發(fā)是未來(lái)之物,它是信息過(guò)載時(shí)代智能分發(fā)的產(chǎn)物;算法分發(fā)或也終將成為過(guò)去之物,因?yàn)橄乱淮夹g(shù)的發(fā)展永遠(yuǎn)可以突破當(dāng)代人的想象,就像宋朝人無(wú)法想象移動(dòng)互聯(lián)網(wǎng)。但無(wú)論如何,人類(lèi)追尋信息的腳步是不會(huì)停止的,這種追尋就是信息分發(fā)長(zhǎng)河奔流的動(dòng)力。

追問(wèn)了推薦算法的“前世”與“今生”,那么在技術(shù)發(fā)展的未來(lái),算法的“來(lái)世”會(huì)是如何?

作者:童淑婷,字節(jié)跳動(dòng)平臺(tái)責(zé)任研究中心研究員,公眾號(hào):刺猬公社(ID:ciweigongshe)

來(lái)源:https://mp.weixin.qq.com/s/frUZJE6VVAhpfDWpjZumKQ

本文由 @刺猬公社授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 有人文思考 有啟發(fā) 感謝

    回復(fù)
  2. 毫無(wú)營(yíng)養(yǎng)的文章,一點(diǎn)深度都么有

    來(lái)自廣東 回復(fù)