案例:考拉FM的個(gè)性化數(shù)據(jù)挖掘和處理

0 評論 9874 瀏覽 11 收藏 17 分鐘

提起FM類APP,你都會(huì)想起哪些應(yīng)用程序?來自易觀智庫數(shù)據(jù)顯示,2014年3月電臺(tái)類應(yīng)用月度活躍人數(shù)最高的APP仍是考拉FM。上線不到一年的考拉FM,為何發(fā)展如此之猛?

與其他移動(dòng)端電臺(tái)不同的是,考拉FM采用個(gè)性化推薦音頻流的播放邏輯,在用戶未進(jìn)行主動(dòng)選擇的情況下依舊能夠收聽到心儀的節(jié)目。移動(dòng)音頻娛樂與大數(shù)據(jù)挖掘的結(jié)合會(huì)是怎樣的爆發(fā)?幾天前,在中國電子學(xué)會(huì)主辦的“云計(jì)算大會(huì)”上,考拉FM的CTO崔義超發(fā)表主題演講,闡述考拉FM的數(shù)據(jù)挖掘和處理方法。小編在聽完崔義超的發(fā)言后趕腳很有價(jià)值,為了讓咱的粉絲們也能分享到這份干貨,小編放棄休息時(shí)間把速記文本整理成文。

大數(shù)據(jù)在數(shù)字娛樂行業(yè)應(yīng)用,音頻媒體特點(diǎn)分析

1、音頻伴隨性高于視頻、文字內(nèi)容:

崔義超:現(xiàn)在大家上網(wǎng)可以看圖文、視頻,為什么還要“聽”呢?因?yàn)椤奥牎庇衅洫?dú)特性,其目的是滿足用戶情感或資訊的需求,但最重要的一點(diǎn):“聽”是一種伴隨狀態(tài),即在做重要事情時(shí)的伴隨效應(yīng):比如開車時(shí)不能看視頻,工作學(xué)習(xí)時(shí)不能上網(wǎng)閱讀文章,唯獨(dú)音頻是可以在這些情況下進(jìn)行伴隨和消費(fèi)的媒介。

2、移動(dòng)互聯(lián)網(wǎng)時(shí)代,音頻將成為主流

崔義超:2000年前后,已經(jīng)有先驅(qū)嘗試在互聯(lián)網(wǎng)上做音頻內(nèi)容,就是所謂的互聯(lián)網(wǎng)電臺(tái),比如糖蒜廣播到現(xiàn)在已經(jīng)做了十來年,有上百萬的粉絲,但這些嘗試一直沒有形成網(wǎng)絡(luò)媒介的主流。隨著移動(dòng)互聯(lián)網(wǎng)時(shí)代到來,手機(jī)的普及,以及今年開始的車聯(lián)網(wǎng)普及,使音頻與移動(dòng)互聯(lián)網(wǎng)高度結(jié)合,聲音以一種新的形式重新呈現(xiàn)在大家面前,這就是我們現(xiàn)在做的考拉FM。另外還有電臺(tái)匯總類APP,比如蜻蜓FM,或點(diǎn)播聽書類APP等。

3、考拉FM是真正的移動(dòng)電臺(tái)——源源不斷的音頻流

崔義超:考拉FM是一個(gè)什么樣的產(chǎn)品?我們把它叫做個(gè)性化的手機(jī)電臺(tái)。這是什么含義?首先我們是一個(gè)電臺(tái)。傳統(tǒng)電臺(tái)大家可能都聽過,電臺(tái)的特性是一個(gè)源源不斷的流,只要不手動(dòng)停止,它就一直播下去;另外具有聲音不期而遇的特點(diǎn),聽眾可以突然聽到一段非常打動(dòng)人心的聲音,而不像聽CD。我們做的手機(jī)電臺(tái)也想堅(jiān)持這樣的特點(diǎn),給聽眾帶來不期而遇的驚喜和觸動(dòng)。

考拉FM個(gè)性化大數(shù)據(jù)挖掘和處理

1、考拉FM定義的個(gè)性化

崔義超:什么是個(gè)性化?考拉FM將其定義為“每一個(gè)人聽到的都是自己愛聽的,或至少是我不討厭的。”這叫個(gè)性化。為什么在手機(jī)電臺(tái)上需要個(gè)性化呢?音頻的特性是伴隨,試想一個(gè)場景:比如在家里做家務(wù)、做飯,用戶打開考拉FM丟到旁邊,讓它自動(dòng)播放。這種狀態(tài)下,如果你聽到的不是你想聽的就需要操作,這就失去了伴隨的意義,所以只有你聽到是你愛聽的才會(huì)實(shí)現(xiàn)伴隨,丟到旁邊不用管。

2、音頻個(gè)性化體驗(yàn)重在專業(yè)編排,仿照傳統(tǒng)電臺(tái)

崔義超:音頻個(gè)性化推薦,不是考拉FM先提出來的,之前有很多先驅(qū)做這方面的事情。在互聯(lián)網(wǎng)或移動(dòng)互聯(lián)網(wǎng)之前,傳統(tǒng)電臺(tái)是怎么做的?經(jīng)常聽電臺(tái)的人可能覺得傳統(tǒng)電臺(tái)做得很好,很直觀的感受,但為什么好聽,怎么樣做到好聽?聽眾可能說不出來。其實(shí)這就是編排,即通過專家把節(jié)目串成音頻流,這是一個(gè)經(jīng)驗(yàn)工種。比如一檔節(jié)目播幾分鐘的音樂,插一個(gè)主持人的幾句話,然后可能插播一段廣告,接著每個(gè)話題聊5分鐘、7分鐘……這些都是需要經(jīng)驗(yàn)的。我們希望比照傳統(tǒng)電臺(tái)聽起來不累,可以一直聽下去,達(dá)到伴隨的效果。

進(jìn)入互聯(lián)網(wǎng)時(shí)代,每個(gè)人聽到的內(nèi)容不一樣,不可能靠專家預(yù)先給每個(gè)人編排好節(jié)目。于是就需要算法,美國的PANDORA和豆瓣FM都做了嘗試。對考拉FM,與其他音頻APP最大的不同即是我們比照傳統(tǒng)電臺(tái),通過獨(dú)特的算法編排把聲音串起來,努力讓音頻流達(dá)到既讓用戶想聽又好聽的效果,這就是音頻個(gè)性化推薦要做的事情。

3、分類、標(biāo)簽等輔助推薦

 

崔義超:在后臺(tái)內(nèi)容組織體系里,為了完成個(gè)性化推薦,傳統(tǒng)視頻網(wǎng)站都建立了媒資系統(tǒng),比如上傳、發(fā)布、版權(quán)、編解碼等,但在與個(gè)性化推薦有關(guān)的獨(dú)特地方,就需要更精確的內(nèi)容分類,這需要有專家經(jīng)驗(yàn)推薦,還有標(biāo)簽體系。像PANDORA,從2004年開始把每首歌打了400多個(gè)不同維度的標(biāo)簽。所以考拉FM要做到個(gè)性化推薦必須要有強(qiáng)大的標(biāo)簽體系,對不同維度進(jìn)行管理,建立規(guī)則體系。

4、建立用戶模型

 

崔義超:每個(gè)用戶的用戶行為非常多且復(fù)雜,對于考拉FM就有喜歡、不喜歡、跳過等等。我們了解用戶,可能要收集上傳很多用戶數(shù)據(jù),比如地域、收集時(shí)間,瀏覽路徑,收聽順序、時(shí)間,是否使用快進(jìn)、快退等,所有這些數(shù)據(jù)都是具體了解用戶對節(jié)目的需求或用戶的使用場景狀況的基礎(chǔ)。

上報(bào)以后,我們用什么方式把這些數(shù)據(jù)進(jìn)行存儲(chǔ)?大家都很熟悉大數(shù)據(jù)用Hadoop存日志,怎樣做到在線進(jìn)行推薦,這和存儲(chǔ)結(jié)構(gòu)相關(guān)。這些數(shù)據(jù)要能夠用來做推薦,數(shù)據(jù)清晰肯定也是很重要的。比如測試機(jī)打開以后24小時(shí)播放,每一個(gè)節(jié)目都不做操作,這種數(shù)據(jù)對實(shí)際分析來說應(yīng)該去掉,因?yàn)闆]有提供任何價(jià)值。還有同樣測試時(shí),每個(gè)節(jié)目快速滑過,看到底能夠出現(xiàn)多少節(jié)目,下面是什么樣的,可能每個(gè)節(jié)目聽了都不到2秒鐘,這種數(shù)據(jù)在做預(yù)處理時(shí)刪掉。在拿到有效數(shù)據(jù)后,考拉FM會(huì)分析用戶行為特征,比如通過聚類,看用戶到底有哪些特征,比如聚成30多類用戶,有些用戶特征明顯,早上起來就聽新聞,放其他都滑過;還有用戶中午就喜歡聽音樂,放其他的都不喜歡聽,最終建立用戶模型。

5、興趣圖譜分析

 

崔義超:接下來做興趣分析。用興趣圖譜的分析,首先進(jìn)行用戶分析,建立興趣圖譜,針對每個(gè)用戶建立一個(gè)推薦節(jié)目的列表,也就是給他一個(gè)排序,我們有幾萬期節(jié)目可能分成幾百上千檔,每個(gè)用戶興趣點(diǎn)不同,如果他非常喜歡某節(jié)目,這檔節(jié)目的排名就靠前,有些不喜歡的節(jié)目排名就非常低,甚至通過一些過濾條件把不喜歡的節(jié)目排除掉,除了用數(shù)據(jù)做分析,我們也可以用到數(shù)據(jù)挖掘,同樣類型的用戶通過使用協(xié)同過濾、邏輯回歸、樸素貝葉斯等方法協(xié)助生成每一個(gè)用戶節(jié)目的排名。哪些用戶喜歡這個(gè)節(jié)目的小池子,就放到他的喜歡池里。

接著這些池子是不是按順序播放?如果這樣做,可能有些用戶喜歡,但每天都聽到的是固定的,其實(shí)聽起來并不好聽,這時(shí)候就要用到電臺(tái)獨(dú)特的編排。我們在做考拉FM初期,在不了解用戶時(shí),考拉FM先做一個(gè)普世的人工電臺(tái)播法,比如先播昨天所有新聞掃描,然后放國內(nèi)新聞、國際新聞,但實(shí)際用戶操作以后,這個(gè)預(yù)先編排就不成立了;比如我放體育新聞,一個(gè)女生對新聞完全不感興趣,她聽到的新聞就會(huì)減少。這種情況下,我們怎么樣完成編排,就要說到一些規(guī)則,通過規(guī)則體系逐漸形成用算法代替人工,同時(shí)還要結(jié)合音頻獨(dú)特的時(shí)段分析,比如很多用戶早晨喜歡聽新聞,晚上女生可能會(huì)聽一些情感類的,當(dāng)然也有一些用戶喜歡聽鬼故事睡覺。

編排確定以后,再把用戶興趣圖譜結(jié)合起來,就知道了用戶某時(shí)段想聽情感類節(jié)目,這類節(jié)目可能有上百檔,再根據(jù)剛才的排名按順序給大家進(jìn)行推送。這是整個(gè)推薦的體系架構(gòu),但實(shí)際執(zhí)行中我們碰到很多技術(shù)上的難點(diǎn),比如存儲(chǔ)的體系,用戶數(shù)據(jù)是海量的,在收集了大概三四個(gè)月時(shí)間用戶數(shù)據(jù)就上了T,這些數(shù)據(jù)如果都參加實(shí)時(shí)計(jì)算,效率肯定非常低,所以我們怎么樣區(qū)分活躍用戶和冷用戶,用不同方式存起來就是個(gè)問題??祭璅M的解決方案是把不常用數(shù)據(jù)用文件存起來,有些則用其他手段存儲(chǔ)結(jié)構(gòu)性數(shù)據(jù),把不同存儲(chǔ)的數(shù)據(jù)抓過來進(jìn)行計(jì)算,同時(shí)計(jì)算效率。我們把內(nèi)容以及用戶數(shù)據(jù)結(jié)合起來,選擇參與計(jì)算的數(shù)據(jù)和離線數(shù)據(jù)。

考拉FM的大數(shù)據(jù)分析到底效果好不好?這不是憑空決定的,既然都用數(shù)據(jù)說話,就要有數(shù)據(jù)來評估效果??祭璅M是不是用收聽人數(shù)增長來考慮,這很難考量,因?yàn)槿藬?shù)有很多其他因素決定,比如推廣渠道、節(jié)假日因素等等。比如我做了一個(gè)算法改進(jìn)之后,用戶總收聽時(shí)長是否增加,或者完整收聽率,即每一個(gè)節(jié)目是否聽了,聽了90%,還是聽了85%,可以判斷這個(gè)算法到底是不是改進(jìn)了,或者是不是還有改進(jìn)的空間,這就是我們現(xiàn)在正在做的事情。

Q:對于考拉來說,用戶需要花多長時(shí)間進(jìn)行操作學(xué)習(xí)?

崔義超:這是好問題,對所有數(shù)據(jù)挖掘來說,訓(xùn)練時(shí)間都是很重要的。但我不能籠統(tǒng)回答,這個(gè)用戶只要使用了,可以說一直在訓(xùn)練,而且他的提升都是一直在改進(jìn)。比如完整收聽率,可能之前完全是收聽的專家編排的節(jié)目,這時(shí)候完整收聽率平均30%多,現(xiàn)在完整收聽率達(dá)到60%、70%,這是一個(gè)持續(xù)不斷改進(jìn)的過程。對于一個(gè)新用戶來說,你用到“訓(xùn)練”這個(gè)詞,有一個(gè)最大的問題其實(shí)不是訓(xùn)練,在用戶還沒有感受到你的個(gè)性化好處的時(shí)候,他可能不再使用了,所以預(yù)設(shè)的規(guī)則非常重要。我們會(huì)對大多數(shù)人進(jìn)行簡單的了解,然后給出預(yù)設(shè)電臺(tái),這個(gè)電臺(tái)聽起來至少不討厭,然后才會(huì)參與到所謂的訓(xùn)練中。用戶使用時(shí)間越長,推送內(nèi)容越精確,我很難答需要多長時(shí)間,但如果用戶一周使用兩三次,基本上推送精確性就有明顯提升,使用時(shí)間越長,效果越好。

Q:作為一個(gè)新用戶,能否利用我的一些社交數(shù)據(jù),比如微博或豆瓣閱讀之類的個(gè)人信息來提供這樣的幫助?

崔義超:你這個(gè)問題非常好,這是我們?nèi)ツ暌恢痹谧龅氖虑?。先講我們的思路和你的問題非常接近,之前用戶進(jìn)來以后先不讓他收聽,希望用戶用微博登陸,如果用戶不用微博登陸我們有一個(gè)選項(xiàng)是“隨便聽聽”,為什么用微博登陸,因?yàn)槲覀冇幸惶壮墒斓耐ㄟ^微博數(shù)據(jù)分析方法,從而得出用戶興趣圖譜。但現(xiàn)在雖然還提供微博登陸入口,但不是強(qiáng)制登陸,因?yàn)閮牲c(diǎn):強(qiáng)制登陸提高了用戶使用門檻,導(dǎo)致部分用戶直接走掉了;第二和去年大環(huán)境有關(guān),當(dāng)時(shí)微博活躍度一直在下降,所以我們覺得微博這樣一個(gè)入口并不能提供很好的解決冷啟動(dòng)的渠道,所以我們后來換用其他方式。你說的非常重要,我們非常希望能通過社交數(shù)據(jù)的引入來部分解決冷啟動(dòng)的問題。

Q:我剛剛下載的考拉,因?yàn)槲乙郧坝闷渌?,如果偶爾誤操作,比如點(diǎn)紅心或垃圾筒會(huì)不會(huì)影響到數(shù)據(jù)分析?

崔義超:我們最重要參考指標(biāo)是從大量的數(shù)據(jù)來得出的用戶行為模型,這個(gè)模型肯定不是一兩次操作的數(shù)據(jù)得出的,但我們也會(huì)體現(xiàn)“快速反應(yīng)”的效果,如果用戶總是操作以后推送不給反饋,用戶也不會(huì)愿意。怎么樣解決兩者之間的矛盾?考拉FM總體上的推送是通過大量數(shù)據(jù)分析給出的,但用戶的實(shí)時(shí)操作我們亦會(huì)提供一些實(shí)時(shí)反饋,這不影響到總體數(shù)據(jù)分析,但會(huì)讓用戶感覺到操作是有反饋的。

Q:您剛剛說并不是所有數(shù)據(jù)都會(huì)參加實(shí)時(shí)的計(jì)算,大概是多少比例會(huì)參加?

崔義超:數(shù)據(jù)分成離線還是在線的,基本所有的在線數(shù)據(jù)都參加計(jì)算,實(shí)時(shí)的是按照音頻特性,比如新聞,只有最近兩天的新聞的數(shù)據(jù)才參加計(jì)算。從用戶屬性,我們最近一個(gè)月活躍的用戶才參與計(jì)算,用戶兩個(gè)月前下載了聽了幾次,大概一個(gè)半月沒來過,他的數(shù)據(jù)我們不參與計(jì)算,他再來了我們才參與計(jì)算。

來源:中國統(tǒng)計(jì)網(wǎng)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!