產(chǎn)品設(shè)計中的推薦引擎介紹
![](http://image.woshipm.com/wp-files/img/83.jpg)
什么是推薦引擎?
推薦引擎利用特殊的信息過濾(IF,Information-Filtering)技術(shù),將不同的內(nèi)容(例如電影、音樂、書籍、新聞、圖片、網(wǎng)頁等)推薦給可能感興趣的用戶。通常情況下,推薦引擎的實現(xiàn)是通過將用戶的個人喜好與特定的參考特征進(jìn)行比較,并試圖預(yù)測用戶對一些未評分項目的喜好程度。參考特征的選取可能是從項目本身的信息中提取的,或是基于用戶所在的社會或社團環(huán)境。
推薦引擎的分類
1. 個性化的推薦--根據(jù)用戶過去在網(wǎng)站的行為進(jìn)行推薦。
2. 社會化推薦--根據(jù)類似用戶過去在網(wǎng)站的行為進(jìn)行推薦。
3. 基于產(chǎn)品的推薦--基于產(chǎn)品本身的特性進(jìn)行推薦。
4. 以及上述三種的方法的組合。
推薦引擎的開放api
商業(yè)推薦引擎不僅僅用來把數(shù)據(jù)計算出來,在后期必須充分的利用這些高質(zhì)量的推薦數(shù)據(jù),通過推薦引擎的開放API,可以在任何需要調(diào)用推薦數(shù)據(jù)的地方使用這些高質(zhì)量的推薦數(shù)據(jù),實現(xiàn)集中計算,分散使用。企業(yè)推薦引擎的數(shù)據(jù)可以擴展到網(wǎng)站的任何一個角落,給互聯(lián)網(wǎng)客戶貼心的用戶體驗。
推薦引擎的通用算法
1.基于關(guān)聯(lián)規(guī)則的推薦算法(Association Rule-based Recommendation)
2.基于內(nèi)容的推薦算法 (Content-based Recommendation)
內(nèi)容過濾主要采用自然語言處理、人工智能、概率統(tǒng)計和機器學(xué)習(xí)等技術(shù)進(jìn)行過濾。
基于內(nèi)容過濾的系統(tǒng)其優(yōu)點是簡單、有效。其缺點是特征提取的能力有限,過分細(xì)化,純基于內(nèi)容的推薦系統(tǒng)不能為客戶發(fā)現(xiàn)新的感興趣的資源,只能發(fā)現(xiàn)和客戶已有興趣相似的資源。這種方法通常被限制在容易分析內(nèi)容的商品的推薦,而對于一些較難提取出內(nèi)容的商品,如音樂CD、電影等就不能產(chǎn)生滿意的推薦效果。
3.協(xié)調(diào)過濾推薦算法 (Collaborative Filtering Recommendation)
與傳統(tǒng)文本過濾相比,協(xié)同過濾有下列優(yōu)點:
1)能夠過濾難以進(jìn)行機器自動基于內(nèi)容分析的信息。如藝術(shù)品、音樂。
2)能夠基于一些復(fù)雜的,難以表達(dá)的概念(信息質(zhì)量、品位)進(jìn)行過濾。
3)推薦的新穎性。 正因為如此,協(xié)同過濾在商業(yè)應(yīng)用上也取得了不錯的成績。Amazon,CDNow,MovieFinder,都采用了協(xié)同過濾的技術(shù)來提高服務(wù)質(zhì)量。
缺點是:
1)用戶對商品的評價非常稀疏,這樣基于用戶的評價所得到的用戶間的相似性可能不準(zhǔn)確(即稀疏性問題)。
2)隨著用戶和商品的增多,系統(tǒng)的性能會越來越低(即可擴展性問題)。
3)如果從來沒有用戶對某一商品加以評價,則這個商品就不可能被推薦(即最初評價問題)。因此,現(xiàn)在的電子商務(wù)推薦系統(tǒng)都采用了幾種技術(shù)相結(jié)合的推薦技術(shù)。
推薦引擎的過濾方式
1.基于內(nèi)容的過濾
了解內(nèi)容和用戶的特質(zhì),送上合適產(chǎn)品的做法,被稱為“基于內(nèi)容的過濾” (Content Based Filtering)
2.協(xié)同過濾”(Collaborative Filtering) 的推薦方式
圖–協(xié)同過濾二層推薦模型 以“協(xié)同過濾”推薦機制為核心,網(wǎng)站并不需要做出如同“What to Rent”的“性格-產(chǎn)品”匹配,而只需要了解“用戶都在同哪些人進(jìn)行交往”、“用戶加入了哪些組群”、“用戶都在看誰的頁面”這樣的問題,然后根據(jù)“物以類聚、人以群分”的思路為用戶推薦他的伙伴都感興趣的事物。 第一代的協(xié)同過濾技術(shù),又被稱為基于用戶(User-based)的協(xié)同過濾。基于用戶的協(xié)同過濾,基本原理是基于用戶行為選擇的相關(guān)性。 協(xié)同過濾的核心問題是尋找與目標(biāo)用戶興趣相近的一組用戶。這種相似用戶通常被稱為最近鄰居(Nearest Neighbor)。用戶之間的相似度是通過比較兩個用戶的行為選擇矢量得到的。于是第二代基于內(nèi)容項(Item-based)的協(xié)同過濾技術(shù)就產(chǎn)生了。與基于用戶的技術(shù)不同的是,這種方法比較的是內(nèi)容項與內(nèi)容項之間的相似度。 Item-based方法同樣需要進(jìn)行三個步驟獲得推薦: 1)得到內(nèi)容項(Item)的歷史評分?jǐn)?shù)據(jù)。 2)針對內(nèi)容項進(jìn)行內(nèi)容項之間的相似度計算,找到目標(biāo)內(nèi)容項的“最近鄰居”。 3)產(chǎn)生推薦。這里內(nèi)容項之間的相似度是通過比較兩個內(nèi)容項上的用戶行為選擇矢量得到的?;谟脩舻耐扑]系統(tǒng)相比,基于內(nèi)容項的推薦系統(tǒng)最大的改進(jìn)是更具有擴展性?;趦?nèi)容項的方法通過計算內(nèi)容項之間的相似性來代替用戶之間的相似性。 不論是第一代的基于用戶方法,還是第二代的基于內(nèi)容項方法,都不可避免的遇到數(shù)據(jù)稀疏的問題。 基于內(nèi)容和基于協(xié)同過濾兩種方式的區(qū)別 無論從用戶還是服務(wù)提供者的角度出發(fā),這兩種推薦方式都有各自明顯的優(yōu)劣。如果采用“基于內(nèi)容的過濾”,那么在完成內(nèi)容和用戶互相匹配的過程中,就可能出現(xiàn)“越讀越窄”、“越聽越窄”、“越看越窄”的問題,提供的內(nèi)容完全與用戶興趣點相吻合,而沒有發(fā)散。 “協(xié)同過濾”在很大程度上避免了這個問題,但是他需要用戶達(dá)到一定數(shù)量級之后才能發(fā)揮出網(wǎng)站創(chuàng)建者預(yù)想的效果,這種“網(wǎng)絡(luò)效應(yīng)”使得同一市場上的后來者很難找到切入的機會。而用戶一旦不能得到“好處”,可能迅速離去,而來不及提“利他”的后話。 3.基于實時行為的推薦 目前流行的實時搜索開始了這方面的研究。 1.數(shù)據(jù)匱乏 2.應(yīng)對數(shù)據(jù)變化 因為核心算法是對歷史數(shù)據(jù)的統(tǒng)計,所以偏愛老數(shù)據(jù),而新的變化難于及時體現(xiàn),所以難于跟上時尚潮流的變化(pastbehavior [of users] is not a good tool because the trends are always changing),同時原文指出:在變化很快的時尚領(lǐng)域物品推薦方式不太奏效,因為單個物品的特性太多而且隨時間變化,所以,社會化推薦也許更有效。 3.應(yīng)對用戶喜好的變化 用戶每次使用同一個系統(tǒng)(例如,Amazon)的目的不同,所以推薦算法也許會迷惑。但是,本人認(rèn)為通過長時間的采集用戶的行為數(shù)據(jù),某個用戶的消費傾向還是能夠把握的,本人使用當(dāng)當(dāng)網(wǎng)購物時就體會到它的推薦還是比較貼合我的口味的。 4.個別物品的特性具有對立的多面性 有些物品,在同一個物品身上能夠發(fā)現(xiàn)不相容的特性,主要在文化基因和個人喜好方面,這類物品很難推薦。 5.計算很復(fù)雜 要面對的問題有:原始數(shù)據(jù)量巨大、需計算的參數(shù)很多,因此計算很復(fù)雜。個性化數(shù)據(jù) 6.個性化數(shù)據(jù)是關(guān)鍵,而這些數(shù)據(jù)一般都是結(jié)構(gòu)化數(shù)據(jù)。 基于Amazon研究 據(jù)稱,Amazon 有35%的頁面銷售源自于她的推薦引擎。 Amazon的推薦引擎,是一個需要用戶一定參與的系統(tǒng),用戶的輸入將對推薦的內(nèi)容起到指導(dǎo)作用;如果指導(dǎo)有方,則會提供更符合個人品味的推薦。 她會記錄你已在Amazon購買的歷史、你最近的瀏覽歷史(根據(jù)活躍度調(diào)整,可拒絕此類跟蹤),并需要主動告知引擎你對某些商品的打分(此打分不同于評價,只用于推薦引擎、且對他人不可見),和你已擁有的商品(用于排除這個推薦)。根據(jù)這些數(shù)據(jù)來做出判斷 另外,Amazon的推薦引擎并不只有這一塊內(nèi)容,在瀏覽、tag、商品頁面都有很多推薦,可以說推薦無處不在。從她的功能點來看,似乎可以分為三塊內(nèi)容:以人為著眼點、以物為著眼點以購物過程為著眼點。同時還采用了跨類推薦,對不同類的按熱度排列。 基于豆瓣的研究 大家可以看這里http://www.slideshare.net/clickstone/ss-2756065。 基于八音盒的研究 八音盒(www.8box.cn)是一個基于音樂分享及偏好而建立起來的SNS服務(wù), 利用多年積研發(fā)的推薦引擎,8box能幫你找到可能喜歡的音樂,幫你分析出哪些用戶是你的音樂“同好”。八音盒通過你推薦、試聽、打分、評論音樂的過程,學(xué)習(xí)你的口味,并依此幫助過濾出你喜歡的音樂。發(fā)現(xiàn)音樂的最好途徑是通過你的同好。八音盒能夠根據(jù)你的口味,推薦相似的用戶給你。應(yīng)該說“個性化推薦引擎–IntelliProvider”是音樂八音盒的技術(shù)基石。 簡單的來說,8box推薦音樂的依據(jù)有三種: 1.依靠音樂本身的屬性信息判斷音樂的相關(guān)性,做出推薦。 2.依靠聽眾對這個音樂的評價和反映來推斷音樂的相關(guān)性,做出推薦。 3.依靠分析用戶的行為,發(fā)掘出用戶的音樂同好,從而做出推薦。 基于遺傳學(xué)的推薦系統(tǒng)-潘朵拉(Pandora) 音樂染色體組項目的 推出,目的在于把音樂解析成為最基本的基因組成。它的基本想法是:我們因為音樂的某些特性喜歡音樂--那么為什么不能根據(jù)音樂的某些相似之處設(shè)計出一套推 薦系統(tǒng)呢?這類推薦系統(tǒng)應(yīng)該屬于基于產(chǎn)品的推薦。但具有深刻創(chuàng)新意義的是,產(chǎn)品(音樂產(chǎn)品)的相似性,通過“基因”組成來衡量。 這種“即刻滿足感”是很難抗拒的。因為pandora 了解音樂相似性背后的因素,它不需要了解用戶的好惡,就可以把用戶黏住。確實,pandora 需要把握用戶的口味或記憶--但這正是蘊藏在音樂本身的dna中了。當(dāng)然pandora有時并不完美,會播放不對用戶口味的音樂。但這很少發(fā)生。 基于標(biāo)簽的推薦系統(tǒng)-Del.icio.us 非常簡明的推薦系統(tǒng),它指基于一個基因--那就是一個標(biāo)簽。 總結(jié)到這里,要是有這方面的技術(shù)人員交流就好了?。?! 來源:http://www.xisoo.net/2010/01/12/csi/
推薦引擎需要面對的問題
- 目前還沒評論,等你發(fā)揮!