推薦策略產(chǎn)品經(jīng)理:構(gòu)建標(biāo)簽體系的二三事

5 評(píng)論 11142 瀏覽 77 收藏 14 分鐘

編輯導(dǎo)語:如今在這個(gè)大數(shù)據(jù)時(shí)代,標(biāo)簽已經(jīng)成為了很多平臺(tái)必不可少的一個(gè)功能,最常見的比如購(gòu)物網(wǎng)站,會(huì)增加一些標(biāo)簽方便用戶查找,避免無用功;本文作者分享了關(guān)于構(gòu)建標(biāo)簽體系的一些經(jīng)驗(yàn)方法,我們一起來了解一下。

一、標(biāo)簽體系:definition & effect

1. 什么是標(biāo)簽體系?

什么是標(biāo)簽體系呢?

簡(jiǎn)單說就是標(biāo)簽體系就是分類,而且是對(duì)全集的分類,“把內(nèi)容或者用戶依據(jù)統(tǒng)一的規(guī)則分到不同的類別中去,類與類之間彼此有聯(lián)系,這就構(gòu)成了標(biāo)簽體系”。

通過分類的對(duì)象是用戶還是內(nèi)容,基本將標(biāo)簽體系分為兩種:

  • 用戶標(biāo)簽體系;
  • 內(nèi)容標(biāo)簽體系;

兩者的區(qū)別主要體現(xiàn)在分類后使用上,在確立分類體系的時(shí)候并無根本性的區(qū)別,故在后文不做區(qū)分。

2. 標(biāo)簽體系有什么用?

仔細(xì)思考一下,用標(biāo)簽與類別代表群體,將個(gè)體抽象化,這是為了什么?

我覺得最大的作用是運(yùn)用于“個(gè)性化”和“精準(zhǔn)化”的事項(xiàng),因?yàn)閭€(gè)體體征被高度抽象,就有了可使用的價(jià)值;比如一個(gè)短視頻,劃分到搞笑-鬼畜視頻的分類中,就可以專門針對(duì)性地推薦給喜歡看鬼畜的用戶,內(nèi)容與內(nèi)容之間、用戶與用戶之間、內(nèi)容與用戶之間的對(duì)應(yīng),背后全都是標(biāo)簽在其作用。

你接收到的商品推薦、視頻網(wǎng)站推薦給你的猜你喜歡、地圖軟件給你推薦的出行方式,交友軟件給你推薦的心動(dòng)嘉賓,這些都是標(biāo)簽之間的一一對(duì)應(yīng)。

比較典型的應(yīng)用場(chǎng)景有:精細(xì)化運(yùn)營(yíng)策略的制定、客戶關(guān)系系統(tǒng)CRM、廣告推送的方式、個(gè)性化推薦系統(tǒng)推送系統(tǒng)的搭建。

標(biāo)簽幫助平臺(tái)更好地了解平臺(tái)里的內(nèi)容特性、也更了解平臺(tái)中的用戶特征,而更充分的了解,也意味著更好的滿足用戶需求。

二、標(biāo)簽體系:how

1. 按照MECE原則制定標(biāo)簽體系

在標(biāo)簽系統(tǒng)運(yùn)用之前,PM最早起到作用且關(guān)乎到后續(xù)標(biāo)簽體系整體效果的重要一步就是制定標(biāo)簽劃分的體系與標(biāo)準(zhǔn)。

在制定標(biāo)簽體系的時(shí)候,一般依據(jù)MECE原則進(jìn)行(全稱Mutually Exclusive Collectively Exhaustive,中文意思是“相互獨(dú)立,完全窮盡”),也就是我們常說的“不重不漏”。

在處理分類事情的時(shí)候,很多時(shí)候是存在灰色地帶的,有些既可以劃分到A類,又可以劃分到B類,好的分類體系可以減少這種情況出現(xiàn)的頻次,這就是盡量“不重”。

同樣在分類的時(shí)候,因?yàn)閮?nèi)容和用戶的復(fù)雜性,也會(huì)出現(xiàn)有些無法劃分到當(dāng)前分類體系中去的情況,在構(gòu)建分類體系的時(shí)候也需要我們盡量做到“不漏”。

在構(gòu)建標(biāo)簽分類體系的時(shí)候,有三點(diǎn)經(jīng)驗(yàn)可以供參考:

1)以競(jìng)品體系為根基,做適配性修改

參考競(jìng)品所做的標(biāo)簽體系,再結(jié)合自己的業(yè)務(wù)特點(diǎn)進(jìn)行修改,可以先用競(jìng)品的分類體系抽樣對(duì)自己產(chǎn)品的內(nèi)容/用戶進(jìn)行分類標(biāo)注,可以快速發(fā)現(xiàn)哪些標(biāo)注分類是缺少的,哪些存在分類不清的問題,再進(jìn)行針對(duì)性的改動(dòng),不斷迭代自己的體系。

2)明確業(yè)務(wù)導(dǎo)向,標(biāo)簽需要為業(yè)務(wù)目標(biāo)服務(wù)

這是指比如你建設(shè)視頻的二級(jí)分類標(biāo)簽體系,是為了更好的給用戶做個(gè)性化推薦,那么需要思考,哪些內(nèi)容在推薦上具有共性;比如游戲內(nèi)容,二級(jí)分類分到游戲攻略,這是很難給用戶做推薦的。因?yàn)轱@然沒有用戶對(duì)游戲攻略這個(gè)分類內(nèi)容感興趣,而如果劃分為角色扮演游戲,這是可以推薦給喜歡RPG游戲的用戶的。

3)標(biāo)簽分類附解釋與case

因?yàn)镻M不是直接進(jìn)行數(shù)據(jù)標(biāo)注的人,實(shí)際進(jìn)行標(biāo)注的一般是外包標(biāo)注人員,在信息傳達(dá)的時(shí)候難免有損耗,如果不將標(biāo)簽的具體含義以及相應(yīng)的case附上,很容易造成PM單方面自嗨,實(shí)際標(biāo)注效果不盡如人意的情況。

2. 設(shè)置合理的標(biāo)注與檢驗(yàn)流程

在標(biāo)簽體系初步制定之后,就該進(jìn)行到下一步,實(shí)際標(biāo)注了,從我自己的實(shí)際上手體驗(yàn)來看,這部分是坑最多,最容易出現(xiàn)問題的部分,需要PM和標(biāo)注人員進(jìn)行反復(fù)的溝通,反復(fù)的迭代,最后才能交付較好的標(biāo)注數(shù)據(jù),供訓(xùn)練模型使用。

在這里給出兩種標(biāo)注流程,具體使用哪種需要根據(jù)自身業(yè)務(wù)特性與人員配置來決定。

第一種是單層的,高級(jí)標(biāo)注人員負(fù)責(zé)任務(wù)下發(fā)、抽檢、人員培訓(xùn),這種適合高級(jí)標(biāo)注人員素質(zhì)過硬,且能力較強(qiáng),優(yōu)點(diǎn)在于中間流程較少,信息傳遞不容易出現(xiàn)偏差,整體時(shí)間也偏長(zhǎng)。

推薦策略產(chǎn)品經(jīng)理:構(gòu)建標(biāo)簽體系的二三事

單層標(biāo)注流程

第二種是雙層的,在高級(jí)和初級(jí)標(biāo)注之間增加一層中級(jí),負(fù)責(zé)標(biāo)注質(zhì)檢和確定部分不確定case,這種優(yōu)點(diǎn)在于每個(gè)人負(fù)責(zé)的事情相對(duì)較少,不容易出現(xiàn)差錯(cuò),且責(zé)任到人,對(duì)個(gè)人能力要求相對(duì)較低。

推薦策略產(chǎn)品經(jīng)理:構(gòu)建標(biāo)簽體系的二三事

雙層標(biāo)注流程

雙層中,具體各方職責(zé)如下([T]中T代表當(dāng)天,T+1代表第二天):

PM:

  • 負(fù)責(zé)數(shù)據(jù)抽取[T]
  • 對(duì)齊高級(jí)標(biāo)注人員不確定的case[T+1]
  • 評(píng)估標(biāo)準(zhǔn)的更新與修正

高級(jí)標(biāo)注人員:

  • 負(fù)責(zé)標(biāo)注任務(wù)的拆解與下發(fā)[T]
  • 對(duì)齊中級(jí)標(biāo)注人員不確定的case,自主判斷給出分類,如果個(gè)人無法確定,再與PM對(duì)齊[T+1:下班前對(duì)齊]
  • 標(biāo)準(zhǔn)更新,對(duì)齊標(biāo)準(zhǔn)的傳達(dá)與人員培訓(xùn)[T+1]

中級(jí)標(biāo)注人員:

  • 收束每天初級(jí)標(biāo)注人員標(biāo)注中不確定case,自主判斷給出分類,無法確定再與高級(jí)標(biāo)注人員對(duì)齊[T+1:先進(jìn)行這部分,T+1下午3點(diǎn)前對(duì)齊]
  • 負(fù)責(zé)抽檢初級(jí)標(biāo)注標(biāo)注確定的部分(抽取比例需討論)[T+1:后進(jìn)行這部分,T+1結(jié)束前完成]

初級(jí)標(biāo)注人員:

  • 負(fù)責(zé)完成高級(jí)標(biāo)注人員下發(fā)的標(biāo)注任務(wù),對(duì)于確定的case進(jìn)行標(biāo)注,對(duì)于不確定的給出初步判斷,并提供給中級(jí)標(biāo)注人員[T]

3. 標(biāo)簽體系的優(yōu)劣衡量

在對(duì)標(biāo)注結(jié)果進(jìn)行數(shù)據(jù)驗(yàn)收的時(shí)候,更多的是采用準(zhǔn)確率和召回率指標(biāo),準(zhǔn)確率對(duì)應(yīng)不重、召回率對(duì)應(yīng)不漏,即“分的準(zhǔn)+有的分”。

一般來說,準(zhǔn)確率能達(dá)到85%以上,召回率能達(dá)到90%,整體數(shù)據(jù)可用性就達(dá)到要求了,如果標(biāo)簽體系建立的合理且優(yōu)秀,執(zhí)行也很出色的話,部分可以做到90%以上的準(zhǔn)確率。

在標(biāo)注過程中,有兩個(gè)準(zhǔn)召情況(更多看準(zhǔn)確率)需要重點(diǎn)關(guān)注,一是標(biāo)注人員的準(zhǔn)召,二是標(biāo)注類別的準(zhǔn)召。

前者能讓我們更了解不同標(biāo)注人員的素質(zhì),進(jìn)行更合理的人員培訓(xùn)或者任務(wù)分配,后者讓我們更了解不同分類的標(biāo)注難易情況,對(duì)標(biāo)注標(biāo)準(zhǔn)與規(guī)范進(jìn)行不斷地迭代完善。

三、標(biāo)簽體系避坑指南

雖然整體來看負(fù)責(zé)標(biāo)簽體系是較為枯燥的,但這并不是一件容易事情,如果沒有考慮周全,在標(biāo)注過程中非常容易出現(xiàn)問題,從而拖慢標(biāo)注進(jìn)度,影響最后標(biāo)注數(shù)據(jù)質(zhì)量,最后影響模型效果。

在此我也羅列幾個(gè)容易踩的坑,希望大家可以盡量規(guī)避:

1. 標(biāo)簽標(biāo)注的流程搭建

坑一:標(biāo)注體系在標(biāo)注中并非不可更改,但如無必要,勿增“其他”。

不管初始設(shè)置的標(biāo)注分類體系有多好,在實(shí)際標(biāo)注中,還是會(huì)出現(xiàn)“重 or 漏”的情況,遇到這種情況的時(shí)候,錯(cuò)誤的處理方式是胡亂塞一個(gè)分類/強(qiáng)行塞進(jìn)分類。

如果仍然碰見重的情況,根據(jù)標(biāo)注的目的進(jìn)行判斷,比如作用于推薦,A類用戶更容易更喜歡這類內(nèi)容,則將其放置于A類則明顯更合適。

而盡量不增“其他”是說盡量不要在標(biāo)簽體系中給予標(biāo)注人員可以偷懶的大而全的分類項(xiàng);比如在軍事分類中,給一個(gè)分類叫“軍事相關(guān)”,這個(gè)是很難定義清楚的,標(biāo)注人員不確定的東西容易全塞這個(gè)分類中,導(dǎo)致在推薦中難以被使用。

坑二:標(biāo)注層級(jí)無序,標(biāo)注進(jìn)行混亂

PM與直接標(biāo)注人員之間不應(yīng)該是單層的關(guān)系,而是需要有中間層來負(fù)責(zé)分發(fā)標(biāo)注任務(wù)、把控標(biāo)注進(jìn)度、進(jìn)行標(biāo)注檢驗(yàn),這中間層級(jí)當(dāng)然并不是越多越好,一般1-2層足矣。

2. 人員管理與培訓(xùn)

坑一:少干預(yù),任由發(fā)揮

首先要記住,標(biāo)簽數(shù)據(jù)的積累一般涉及到眾多的標(biāo)注人員,而一旦涉及到人,則需要PM進(jìn)行管理,缺少干預(yù),讓高級(jí)標(biāo)注人員進(jìn)行統(tǒng)籌,一般來說效果是欠佳的;因?yàn)槿舜嬖诙栊?,且如果沒有干預(yù)的話,標(biāo)注效質(zhì)量好壞對(duì)于標(biāo)注人員來說其實(shí)意義不大,也會(huì)影響整體標(biāo)注效果。

這需要我們建立相應(yīng)的獎(jiǎng)懲機(jī)制,對(duì)于標(biāo)注質(zhì)量較高的個(gè)人,給予獎(jiǎng)勵(lì),而對(duì)于標(biāo)注質(zhì)量較低的個(gè)人,需要給予一定的懲罰或者激勵(lì),只有這樣才能有效提高標(biāo)注人員的標(biāo)注效率和質(zhì)量。

坑二:朝令夕改,標(biāo)注人員無所適從

在標(biāo)注過程中,可能會(huì)存在對(duì)于標(biāo)注分類進(jìn)行增刪改的操作,這種操作不易過分頻繁,頻繁不但會(huì)導(dǎo)致之前積累數(shù)據(jù)的可用性差,拖慢標(biāo)注數(shù)據(jù)積累速度,也會(huì)導(dǎo)致標(biāo)注人員的混亂,標(biāo)注質(zhì)量的劣化。

好的標(biāo)注流程當(dāng)然不反對(duì)進(jìn)行增刪改,但需要更多集中在早期,對(duì)應(yīng)工廠生產(chǎn),在產(chǎn)品研發(fā)和產(chǎn)能爬坡時(shí)期,標(biāo)注的可用性不是最應(yīng)該關(guān)注的指標(biāo);而應(yīng)該是標(biāo)注體系的完善,標(biāo)注人員的培訓(xùn),當(dāng)這兩個(gè)做到位的時(shí)候,接下來就可以積累標(biāo)注數(shù)據(jù),推進(jìn)標(biāo)注工作有序進(jìn)行了。

四、小結(jié)

整體來說,標(biāo)簽體系的構(gòu)建是內(nèi)容理解和用戶理解的重要組成部分,也是策略實(shí)行的基礎(chǔ)之一;如何設(shè)置合理的標(biāo)簽結(jié)構(gòu),標(biāo)簽分類,如何有序高效地推進(jìn)標(biāo)注數(shù)據(jù)的積累與標(biāo)簽分類模型的搭建,以及最后策略的運(yùn)用,是PM需要掌握的一項(xiàng)基本技能。

而將基礎(chǔ)的事情做好,并不容易。

共勉~

#專欄作家#

隨心將夜,微信公眾號(hào) : 互聯(lián)網(wǎng)菜鳥產(chǎn)品進(jìn)階之路,人人都是產(chǎn)品經(jīng)理專欄作家。關(guān)注社交賽道和社區(qū)發(fā)展,擅長(zhǎng)分析行業(yè)趨勢(shì)。

本文由@隨心將夜 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 請(qǐng)問下如何衡量人和標(biāo)簽的準(zhǔn)確率和召回率呢?

    來自北京 回復(fù)
    1. 高級(jí)外包re,產(chǎn)品本人在此基礎(chǔ)上也要抽re,召回比較難,準(zhǔn)確還好

      來自北京 回復(fù)
    2. 加質(zhì)檢 二檢 事后抽檢 定期評(píng)估 都可以

      回復(fù)
  2. 大佬可不可以講些標(biāo)簽策略相關(guān)啊

    回復(fù)
    1. 下次有機(jī)會(huì)聊

      回復(fù)