淺談審核召回策略優(yōu)化思路

1 評(píng)論 3646 瀏覽 56 收藏 10 分鐘

如何有效提升審核環(huán)節(jié)召回策略的召回率?這篇文章里,作者以內(nèi)容質(zhì)量審核為例,梳理了審核召回策略的優(yōu)化思路,一起來(lái)看看,或許會(huì)對(duì)從事這方面業(yè)務(wù)的同學(xué)有所啟發(fā)。

引言:什么是審核召回策略

“召回策略”(match)是指從全量信息集合中觸發(fā)盡可能多的正確結(jié)果。當(dāng)我們聚焦于新聞內(nèi)容類APP或資訊型產(chǎn)品,在內(nèi)容理解、內(nèi)容標(biāo)簽和審核相關(guān)的業(yè)務(wù)中,召回策略指的是通過(guò)算法模型、規(guī)則策略等識(shí)別不同的內(nèi)容類型,并應(yīng)用直接機(jī)審判黑或人機(jī)結(jié)合等方式賦予內(nèi)容特定的標(biāo)記,使其可以在下游內(nèi)容入池、推薦分發(fā)等環(huán)節(jié)應(yīng)用。

召回策略的評(píng)估主要根據(jù)兩個(gè)評(píng)價(jià)指標(biāo):召回率和準(zhǔn)確率。以內(nèi)容質(zhì)量審核為例:

  1. 召回率(Recall)=策略正確識(shí)別到的低質(zhì)內(nèi)容/系統(tǒng)所有低質(zhì)內(nèi)容總數(shù)
  2. 準(zhǔn)確率(Precision)=策略正確識(shí)別的低質(zhì)內(nèi)容/策略識(shí)別到的低質(zhì)總數(shù)

本文以內(nèi)容質(zhì)量審核為例,主要討論如何提升審核環(huán)節(jié)召回策略的召回率,即,我們?cè)鯓硬拍軘U(kuò)大標(biāo)簽識(shí)別的范圍,盡可能全面、高效地為內(nèi)容打上業(yè)務(wù)所需要的標(biāo)記。

一、為什么要優(yōu)化召回策略

在新聞?lì)悺?nèi)容類APP中,內(nèi)容理解是內(nèi)容生產(chǎn)加工流程中不可或缺的一環(huán),只有給內(nèi)容打上足夠精細(xì)化的特征和標(biāo)記,才能基于用戶畫(huà)像使用協(xié)同過(guò)濾等方式給用戶更精準(zhǔn)地推薦內(nèi)容。全面高效的召回策略是下游推薦分發(fā)環(huán)節(jié)不可或缺的基礎(chǔ)因素之一。

在內(nèi)容質(zhì)量審核相關(guān)的業(yè)務(wù)中,為了能更精準(zhǔn)地為內(nèi)容打標(biāo),通常會(huì)采用人機(jī)結(jié)合的方式,即用召回率較高的模型盡可能多召回疑似質(zhì)量有問(wèn)題的內(nèi)容,再由人工審核進(jìn)行判斷。

召回策略的有效性和線上低質(zhì)內(nèi)容的占比強(qiáng)相關(guān),如果召回策略不夠有效,那么就無(wú)法對(duì)新聞內(nèi)容的質(zhì)量和調(diào)性進(jìn)行識(shí)別、判斷和控制,也就無(wú)法達(dá)成相關(guān)業(yè)務(wù)指標(biāo),例如降低線上低質(zhì)內(nèi)容占比,或針對(duì)部分人群實(shí)行低質(zhì)內(nèi)容隔離策略等。

另外,受制于項(xiàng)目預(yù)算、人力成本等因素,在我們提升召回策略的召回率時(shí),也不能忽視其準(zhǔn)確率。如果一條召回策略能覆蓋大部分低質(zhì)內(nèi)容,但召回量級(jí)過(guò)大(準(zhǔn)確率很低),我們同樣可以判斷該策略的有效性(ROI)很低。

二、有哪些常見(jiàn)手段可以提升召回

方法一:從平臺(tái)調(diào)性和標(biāo)準(zhǔn)入手

以某新聞?lì)惍a(chǎn)品的質(zhì)量審核業(yè)務(wù)為例,大致流程如圖:

首先,業(yè)務(wù)方需基于產(chǎn)品定位和平臺(tái)調(diào)性制定標(biāo)準(zhǔn),準(zhǔn)確全面定義“低質(zhì)內(nèi)容”的類型和含義,根據(jù)標(biāo)準(zhǔn),進(jìn)行特征拆解。例如廣告類內(nèi)容,通常含有營(yíng)銷類話術(shù)和關(guān)鍵詞;格式異常類內(nèi)容(因內(nèi)容抓取和清洗導(dǎo)致內(nèi)容缺失),可能存在文字段落丟失導(dǎo)致的文章過(guò)短等現(xiàn)象。拆解完特征后,需和算法等團(tuán)隊(duì)一同進(jìn)行模型訓(xùn)練和規(guī)則定義,評(píng)估每個(gè)模型或策略的準(zhǔn)確率、召回率和召回量級(jí)(for有效性評(píng)估)。

特征拆解關(guān)鍵點(diǎn):

  • 特征足夠客觀,避免程度等主觀判斷,使機(jī)器和人都好識(shí)別/執(zhí)行;
  • 特征足夠細(xì)化,在應(yīng)用環(huán)節(jié)可組合使用。

特征提取和訓(xùn)練關(guān)鍵點(diǎn):

  • 為保證盡可能多覆蓋badcase,優(yōu)先訓(xùn)練高召回識(shí)別能力,通過(guò)人機(jī)結(jié)合方式解決;再逐步迭代高準(zhǔn)確識(shí)別能力,提升機(jī)審率;
  • 應(yīng)用環(huán)節(jié)結(jié)合實(shí)際業(yè)務(wù)情況配置豁免邏輯,規(guī)則和特征上不進(jìn)行豁免。

方法二:從用戶體感和用戶行為倒推

第二種方式從用戶反饋出發(fā),運(yùn)營(yíng)提煉出用戶反感內(nèi)容的特點(diǎn),總結(jié)為客觀特征,由算法進(jìn)行識(shí)別能力建設(shè),最終形成可用于業(yè)務(wù)的算法模型和規(guī)則。

特征提取和訓(xùn)練關(guān)鍵點(diǎn):

  • 從用戶行為(隱性用戶反饋)和用戶意見(jiàn)反饋(顯性用戶反饋)中分析badcase,模擬用戶感受,提取特征;
  • 通過(guò)模型、人機(jī)結(jié)合方式識(shí)別特征。

三、有哪些常見(jiàn)手段可以驗(yàn)證召回策略的有效性

方法一:?jiǎn)蝹€(gè)策略上線前驗(yàn)證,組合策略上線后整體評(píng)估

針對(duì)算法模型,上線前需評(píng)估三項(xiàng)指標(biāo):

  1. (正例)準(zhǔn)確率;
  2. (正例)召回率;
  3. 覆蓋率&召回量級(jí)。

評(píng)估要點(diǎn):

  • 測(cè)試集語(yǔ)料正例濃度需與線上基本一致,評(píng)估結(jié)論才相對(duì)置信;例如模型或策略是針對(duì)全量數(shù)據(jù),那么測(cè)試集就需從全量數(shù)據(jù)中隨機(jī)抽??;如模型或策略是針對(duì)單個(gè)場(chǎng)景的可分發(fā)內(nèi)容池,則需從該內(nèi)容池中隨機(jī)抽取;
  • 模型在不同濃度的測(cè)試集上效果會(huì)存在差異,如在不同場(chǎng)景應(yīng)用同一個(gè)模型,需抽取不同場(chǎng)景可分發(fā)數(shù)據(jù)分別評(píng)估準(zhǔn)召。

方法二:線上巡查

以內(nèi)容質(zhì)量審核為例,為了check召回策略的效果,可從線上可分發(fā)數(shù)據(jù)中隨機(jī)抽樣/巡檢,評(píng)估線上可分發(fā)數(shù)據(jù)中是否存在質(zhì)量審核環(huán)節(jié)的低質(zhì)漏放數(shù)據(jù),制定漏放率指標(biāo)。

方法三:從下游審核環(huán)節(jié)回查

在各類新聞內(nèi)容類產(chǎn)品業(yè)務(wù)中,可能會(huì)設(shè)置多個(gè)質(zhì)量審核環(huán)節(jié),例如針對(duì)部分場(chǎng)景設(shè)置復(fù)審,以便單獨(dú)為該場(chǎng)景內(nèi)容打上特征標(biāo)記,服務(wù)于該場(chǎng)景的推薦策略。如存在多個(gè)審核環(huán)節(jié),則可將整條內(nèi)容加工鏈路看作一個(gè)漏斗,從下游環(huán)節(jié)回查上游是否存在漏放情況等。

四、召回策略的局限性和天花板

無(wú)論把標(biāo)準(zhǔn)規(guī)則定義得多么細(xì)顆粒度,把模型和規(guī)則調(diào)試得多么精準(zhǔn),我們不可否認(rèn)的是,召回策略一定存在局限性和天花板,在實(shí)際業(yè)務(wù)中基本不可能制定出100%召回率的策略,即無(wú)法實(shí)現(xiàn)對(duì)標(biāo)簽內(nèi)容的全量識(shí)別,主要原因如下:

  • 在新聞內(nèi)容類產(chǎn)品中,受熱點(diǎn)事件影響,內(nèi)容池內(nèi)容結(jié)構(gòu)可能存在變化(e.g.熱點(diǎn)事件影響造成時(shí)政類發(fā)文增多),模型和策略的效果、召回率大概率會(huì)存在變化波動(dòng)。實(shí)際的分發(fā)內(nèi)容和評(píng)估召回策略有效性的測(cè)試集之間一定存在Gap,不可能時(shí)刻保持100%一致,這也就決定了策略上線時(shí)的指標(biāo)一定會(huì)隨著業(yè)務(wù)變化而波動(dòng),準(zhǔn)確率、召回率、有效性都可能發(fā)生變化;
  • 模型和策略本身可能會(huì)隨著時(shí)間推移和缺乏維護(hù)而效果變差,例如有監(jiān)督學(xué)習(xí)的模型,在上線后若不持續(xù)維護(hù),則會(huì)因訓(xùn)練語(yǔ)料過(guò)舊產(chǎn)生效果“漂移”,在新的數(shù)據(jù)集上無(wú)法保持優(yōu)異表現(xiàn)。

在實(shí)際業(yè)務(wù)中,召回策略若能保持90%+的召回率,已實(shí)屬不易。其余不到10%的內(nèi)容,通常只能通過(guò)引入巡檢、單點(diǎn)反饋等人工運(yùn)營(yíng)的渠道來(lái)覆蓋和解決。

本文由 @芝士球 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 牛??

    來(lái)自北京 回復(fù)