如何設(shè)計推薦系統(tǒng)標注標簽體系?

3 評論 19790 瀏覽 118 收藏 10 分鐘

標簽是內(nèi)容分析的基礎(chǔ),代表了對視頻質(zhì)量的把握和內(nèi)容的理解,同時,標簽也是反映用戶興趣的重要數(shù)據(jù)源,這些都為個性化推薦提供了最基本的特征。那我們要怎么才能設(shè)計好一套推薦系統(tǒng)標注標簽體系?

為什么個性化推薦需要用到標簽體系?

標簽是內(nèi)容分析的基礎(chǔ),代表了對視頻質(zhì)量的把握和內(nèi)容的理解,同時,標簽也是反映用戶興趣的重要數(shù)據(jù)源,這些都為個性化推薦提供了最基本的特征。

為什么要建立一套視頻標注系統(tǒng)?

首先,要保證視頻內(nèi)容的合法性,有對色情和三反視頻的識別和過濾能力,保證整個視頻推薦服務的安全性。

其次,要幫助推薦系統(tǒng)更好的理解視頻內(nèi)容,為視頻的分發(fā)構(gòu)建橋梁,如使用標簽進行召回等有效提升推薦系統(tǒng)的效率。

一套全面完整的標簽體系應該包含哪些內(nèi)容?

首先,要能夠表明視頻質(zhì)量,從而判斷該視頻是否可用于分發(fā)。

  • 風險性:無風險是視頻推薦最基本的要求,不符合本條要求的視頻則不予進行推薦,風險性包括色情、廣告、政治敏感、血腥暴力等類型;
  • 清晰度:解決視頻清晰度與分辨率高低不完全對應的問題,對于不同清晰度的視頻賦予不同的分發(fā)策略(部分可通過模型進行解決);
  • 水印類型:對于競品或不同來源的視頻,為了避免業(yè)務沖突,在不同的場景有不同的分發(fā)策略(部分可通過模型進行解決);
  • 是否原創(chuàng):原創(chuàng)/搬運也是判斷視頻質(zhì)量的角度之一,滿足了不同場景的不同定位,對于優(yōu)質(zhì)作者的扶持有著重要意義。

其次,要能夠明確表達對視頻內(nèi)容的理解及視頻本身所具有的特點;

(1)一/二/三級標簽:表示視頻講了什么內(nèi)容以及該內(nèi)容屬于什么種類?

通過對標簽進行分層既能夠保證標簽體系的全面性,同時也能較好的保證代表性。因此,不同層級的標簽在設(shè)計時需要考慮的內(nèi)容并不完全相同:

  • 一/二級標簽要優(yōu)先保證全面性,使得每條視頻都能夠找到自己所屬的類別,且該分類能夠明確代表一類用戶群體的興趣;
  • 一級標簽一般為較大的領(lǐng)域,如體育、寵物等,一般數(shù)量在幾十個;
  • 二級標簽是在該領(lǐng)域下進行進一步的細分,如足球、籃球、寵物貓、寵物狗等,二級標簽能夠很好地解決標簽均勻性的問題,一般數(shù)量在幾百個;
  • 三級標簽則是進一步對視頻內(nèi)容的刻畫,在這個層級上一般不要求全面性,轉(zhuǎn)而更為關(guān)注代表性,要覆蓋到每個類別中熱度較高的標簽,一般數(shù)量為幾千個到上萬個不等;
  • 一/二級標簽在設(shè)計完成后一般不做比較大的調(diào)整,三級標簽則需要不斷的進行擴充,保證一些比較新的詞匯,如電視劇名稱等也能夠及時被收錄進去。

(2)風格類型:有時候,除了視頻本身的內(nèi)容外,視頻的風格類型也是我們所關(guān)注的,如時政領(lǐng)域需要的正能量視頻,下沉用戶需要的土味視頻和記錄博主生活狀態(tài)的Vlog等。

第三,有些視頻只適合在當下或一段時間內(nèi)進行推薦,而通過機器又很難解決時效性的問題,需要借助人力判斷可推薦的時間。

第四,除了視頻的客觀屬性外,還需要引入一些主觀情感的判斷,如故事性、連貫性等。

該部分涉及到的主觀情感的判斷較多,需要考慮標注人員的實際理解情況,如可參考是否有主題、是否與文本相關(guān)度較高、是否有明確的故事主體、是否內(nèi)容連貫性或敘事性較好、是否有拍攝成本,另外也可以參考該類內(nèi)容是否能夠引起用戶的觀看興趣或轉(zhuǎn)發(fā)欲望等

如何發(fā)現(xiàn)并處理業(yè)務方與標注人員對于標準理解不一致的情況?

適時抽取一定的標注數(shù)據(jù)進行質(zhì)量檢查是很有必要的,對于標注數(shù)據(jù)中出現(xiàn)的問題要進行合理的歸類,如果多人多次出現(xiàn)同一問題則說明該部分可能存在兩方標準不一致的情況。

對于各個標注項目,簡化標注人員的思考過程,盡量以選項形式替代手動輸入,對于必須要手動輸入的選項如三級標簽,做好標簽庫的維護和聯(lián)想詞提示功能等。

對于使用文字很難直觀描述的選項,通過雙方共同建設(shè)標注樣例文檔的形式進行解決,羅列出具有代表性或容易出現(xiàn)問題的樣例和標注選項,便于標注同學理解。

如何最大程度的保證優(yōu)質(zhì)視頻內(nèi)容都能夠被標注?

對于標注系統(tǒng)來說,最理想的情況下當然是對每天全站新增的全部視頻都進行標注,但在實際的實現(xiàn)過程中,在時間和資源的限制下,每天只允許對頭部視頻進行標注;另一方面,每天全站新增的視頻也不是每一個都有推薦的價值,如果不能對哪些視頻適合標注并推薦進行正確判斷的話,勢必會造成資源的浪費。

對于標注數(shù)據(jù)的選?。?/p>

  • 首先,要進性合法性的判斷,不符合硬性條件的視頻直接進行過濾;
  • 其次,標注是對視頻進行先驗的過程,為了保證標注的及時性及可用性,可以根據(jù)與博主或渠道有關(guān)的屬性進行判斷,或者也可以參考該數(shù)據(jù)在很短時間內(nèi)的分發(fā)及消費情況(需要通過統(tǒng)計來了解視頻傳播的時間路徑);
  • 第三,要最大程度結(jié)合機器和人工,利用模型先對視頻進行預識別和判斷,結(jié)合模型得分和標注順序來提高標注的效率。

如何應用標注數(shù)據(jù)并對效果進行科學的監(jiān)測?

標注系統(tǒng)為視頻分發(fā)構(gòu)建了橋梁,使得用戶歷史行為可以映射到標簽上,并可以通過標簽來召回視頻。

標注數(shù)據(jù)的應用分為直接和間接兩大類。直接應用即根據(jù)標注人員所打的標簽進行召回并按照一定條件進行排序;間接應用則是根據(jù)標注數(shù)據(jù)訓練相應的模型,并根據(jù)模型對全站合法視頻識別并分發(fā)。一般來說,后者能夠召回的視頻更多,但是準確率較前者可能略有不足。

  1. 興趣頻道是標注數(shù)據(jù)最直接的應用場景,根據(jù)興趣頻道和標簽的映射關(guān)系進行視頻的分發(fā);
  2. 標簽興趣根據(jù)用戶的歷史播放行為計算出該用戶對于標簽的偏好程度,并推薦該標簽下質(zhì)量較好、熱度較高的視頻;
  3. 標簽實時反饋根據(jù)用戶剛剛看過的視頻在翻頁時立即推薦該標簽下的視頻,該類推薦更偏好于短期興趣,標簽粒度一般越細越好。

在數(shù)據(jù)監(jiān)控方面,要著重關(guān)注以下方面:

  1. 推送量和標注量,以及標注數(shù)據(jù)能夠覆蓋到下發(fā)數(shù)據(jù)的比例;
  2. 不同層級標簽下的視頻數(shù)和下發(fā)量,觀察標簽是否不均勻,流量是否過于傾斜;
  3. 每個標簽下視頻的消費效率,尤其是對于下發(fā)量比較大的標簽,著重關(guān)注該標簽的轉(zhuǎn)化和消費深度。

 

本文由 @magnolia 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 感謝分享!學習了!想請問一下,機器學習的話是建立在內(nèi)容標簽系統(tǒng)上的嗎?比如抖音的視頻推薦系統(tǒng),是不是人工對視頻打標簽分類,建立模型然后進行模型訓練、機器學習再對全站的視頻進行識別建立標簽?不然像抖音、小紅書、今日頭條等UGC社區(qū)內(nèi)容數(shù)據(jù)太龐大,全靠人工打內(nèi)容標簽感覺不實際。

    來自福建 回復
    1. 頭條應該會通過收集用戶行為數(shù)據(jù)信息和基本屬性信息,進行畫像建模,通過模型訓練,反向打標簽,然后進行個性化的內(nèi)容推薦。

      來自北京 回復
  2. 希望再看到類似的文章。分析的特別精準。受益匪淺

    來自天津 回復