人工智能的人工部分—數(shù)據(jù)標(biāo)注(下)
大模型背后,大多需要數(shù)據(jù)標(biāo)注甚至人工標(biāo)注的支持,那么,怎么理解數(shù)據(jù)標(biāo)注呢?這篇文章里,作者主要從業(yè)務(wù)角度出發(fā),介紹標(biāo)注規(guī)則的細(xì)則構(gòu)建、標(biāo)注團(tuán)隊培養(yǎng)與管理的具體方法,一起來看。
如今的人工智能已是大模型的天下,但再強(qiáng)的智能,再大的模型,也需要人工標(biāo)注的支持。上篇文章主要介紹了數(shù)據(jù)標(biāo)注的分類、標(biāo)注規(guī)則制定的原則,本篇文章主要從業(yè)務(wù)角度出發(fā),介紹標(biāo)注規(guī)則的細(xì)則構(gòu)建、標(biāo)注團(tuán)隊培養(yǎng)與管理的具體方法。
一、標(biāo)注規(guī)則構(gòu)建
為了便于大家理解,本模塊主要參考王陽明先生“格物致知”的邏輯去展開,說明標(biāo)注體系的搭建過程,就是一個“悟道”的過程,當(dāng)然自己才疏學(xué)淺,如有運(yùn)用不當(dāng)?shù)牡胤?,希望大家多多包涵?/p>
1. 單因子拆解標(biāo)注——析物
上篇文章講了標(biāo)注規(guī)則的三步法:單因子標(biāo)注、多維因子排列組合、綜合策略評分,其中最基礎(chǔ)也是最重要的一環(huán)就是第一步:單因子標(biāo)注,就是將所有影響標(biāo)注結(jié)果的因素依次列舉,對每個影響因素單獨(dú)標(biāo)注。
例如,標(biāo)注簡歷與職位的匹配度,即模擬HR招人的思路給推薦的簡歷打分,首先要將影響HR招人的因素全部列出來,例如工作地點、行業(yè)類別、薪資水平、學(xué)歷要求、專業(yè)要求等。
然后分別對每個因素進(jìn)行標(biāo)注打分,打分時要將行業(yè)的一些通用規(guī)則考慮進(jìn)去,例如,某職位要求學(xué)歷是本科,這里的本科大概率是指全日制統(tǒng)招本科,而不是花點錢就能上,或者根本不需要學(xué)習(xí)就能獲得證書的成考或自考本科。
那么問題來了,如何識別統(tǒng)招學(xué)歷呢?什么樣的學(xué)歷屬于全日制的呢?哪些院校是統(tǒng)招的呢?野雞大學(xué)算不算統(tǒng)招的呢?有沒有識別野雞大學(xué)的方法?
僅學(xué)歷一個因素標(biāo)注細(xì)則就很多,識別邏輯也很復(fù)雜,我們要將十幾項因子里的每一項,都進(jìn)行多維度深度思考與分析,并給出可衡量的標(biāo)注規(guī)則與指標(biāo)。這一層的核心是“析物”,即深入剖析每一個因子,直到剖到每個因子的根部,程頤認(rèn)為,凡一物上有一理,須窮致其理。
2. 多因子排列組合——量物
在上篇文章就講到,多因子排列組合不是單純的給每個因子賦予固定的權(quán)重,而是將每個因子結(jié)合具體場景,分析各因子在具體場景中的的重要程度,因為場景不同,標(biāo)注細(xì)則就不同。
那么有哪些具體場景呢?
第一,標(biāo)注對象不同,標(biāo)注細(xì)則就不同,在招聘業(yè)務(wù)中,標(biāo)注對象是職位,職位類型不同標(biāo)注的關(guān)注點就不同,比如,招聘銷售類崗位關(guān)注行業(yè)經(jīng)驗、業(yè)績能力、客戶群體等,招聘藍(lán)領(lǐng)崗位只要候選人愿意做、身體健康即可,招聘財務(wù)類崗位則會要求資格證書。
第二,各影響因子的程度不同,標(biāo)注細(xì)則也不同,比如要招聘一位初級文員,但是候選人年齡超過了50歲,再比如要招聘一名銷售員,但是候選人五年前做過銷售,現(xiàn)在早就不做銷售了,而且也不想再做銷售了,類似這種情況可能因為這一個因子,總分就可能給到0分。
所以標(biāo)注細(xì)則的場景數(shù)量,是標(biāo)注對象類型與影響因子的乘積,但在招聘業(yè)務(wù)場景中,標(biāo)注對象類型有1000多種,影響因子有十多種,所以標(biāo)注細(xì)則是一萬多條嗎?在實際操作中不可能列出所有場景,并給出所有的標(biāo)注細(xì)則,這些場景需要標(biāo)注員基于實際業(yè)務(wù)靈活運(yùn)用規(guī)則。這一層的核心是“量物”,即衡量所有標(biāo)注對象,并將其與影響因子融會貫通,活學(xué)活用,找到那個平衡的度。
3. 各因子融會貫通——悟物
在第二步中講到標(biāo)注細(xì)則的場景數(shù)量,是標(biāo)注對象類型與影響因子的乘積,這個數(shù)量級太大了,在實際業(yè)務(wù)中需要融會貫通,但是怎么能做到融會貫通呢?有沒有一些歸類方法,或針對不同場景的指導(dǎo)思想呢?
答案是肯定的,首先,影響因子可以按照對最終結(jié)果的重要程度分為三類:重要因子,時而重要因子,弱項影響加減分的因子,其次,職位類別可以按照對專業(yè)技能的強(qiáng)弱分為四類:強(qiáng)技能類職位,較強(qiáng)技能職位,弱技能職位,無技能職位,最后,根據(jù)此等分類,我們得到了12種場景,此時我們可以針對這12種場景做細(xì)節(jié)的標(biāo)注規(guī)則了。
分類之后是匯總,就是所謂的融會貫通,不管是規(guī)則制定者還是標(biāo)注員,到這一階段都要到達(dá)一種境界,就是忘掉之前的細(xì)節(jié)規(guī)則,從良知出發(fā)評估簡歷與職位的匹配度,是非常匹配,還是比較匹配,還是不太匹配,還是非常不匹配,也就是王陽明先生所謂的“致良知”。
完成最終評分后,不要忘記將不匹配的原因以標(biāo)簽的形式固定下來,這樣便于后面的問題分析與策略優(yōu)化。
二、標(biāo)注團(tuán)隊管理
1. 新人培訓(xùn)與管理
無規(guī)矩不成方圓,可見規(guī)矩是形成方圓的關(guān)鍵,但是方圓之內(nèi)要有田地苗木,才是一塊好的方圓之地,標(biāo)注規(guī)則就是這規(guī)矩,而標(biāo)注所依賴的領(lǐng)域知識就是其中的田地苗木,所以新人入職首先要學(xué)習(xí)標(biāo)注規(guī)則,但同時也要學(xué)習(xí)領(lǐng)域知識,尤其是專業(yè)性比較強(qiáng)的領(lǐng)域,如此兩條腿走路,才能學(xué)好整個標(biāo)注體系。
在學(xué)習(xí)的前提下,標(biāo)注練習(xí)是必不可少的,首先可以做單因子標(biāo)注的練習(xí),合格之后再進(jìn)行綜合評分的練習(xí),此時的練習(xí),最好是有正確答案的,這樣可以隨時監(jiān)督新人練習(xí)的進(jìn)度和質(zhì)量,也可以制定一套新人培訓(xùn)學(xué)習(xí)體系,里面不僅要包括要學(xué)的內(nèi)容,還要列清楚練習(xí)期間的任務(wù)數(shù)量,以及每個階段所要達(dá)成的質(zhì)量指標(biāo),以此來評判新人培訓(xùn)期間的成績。
2. 質(zhì)量把控與管理
相信做過標(biāo)注工作的同學(xué)都明白,低質(zhì)量的標(biāo)注數(shù)據(jù)會直接影響模型的訓(xùn)練效果,所以數(shù)據(jù)質(zhì)量是標(biāo)注工作的重中之重。保證標(biāo)注質(zhì)量的前提是做好任務(wù)的培訓(xùn),明確標(biāo)注需求、標(biāo)注方法和驗收標(biāo)準(zhǔn)。數(shù)據(jù)驗收環(huán)節(jié)一般會采用自檢、交叉檢驗,或者按任務(wù)進(jìn)行分類檢驗的方式進(jìn)行檢驗,甚至大一些的標(biāo)注團(tuán)隊會設(shè)置專門的質(zhì)檢小組,對標(biāo)注員的標(biāo)注結(jié)果進(jìn)行抽檢或全檢。
本文重點介紹另外一種質(zhì)檢方式,即提前插入正確樣本,以檢驗標(biāo)注質(zhì)量的方式,此種方式可以節(jié)約一定的成本,因為不用進(jìn)行雙驗或多驗了,還能時刻檢驗標(biāo)注員的工作態(tài)度,以及對任務(wù)是否真的理解,能否達(dá)到要求的質(zhì)量標(biāo)準(zhǔn),如果發(fā)現(xiàn)質(zhì)量不合格,則可以立刻更換標(biāo)注員或進(jìn)行再次培訓(xùn)。
此種方式主要適用于結(jié)構(gòu)化且需要長期標(biāo)注的項目,要提前設(shè)置好正確樣本,建任務(wù)時插入樣本,至于插入的比例,可以根據(jù)具體任務(wù)需求,或不同標(biāo)注人群進(jìn)行設(shè)置。
需要注意的是,一組正確樣本如果長期使用,可能標(biāo)注員都記住哪些是樣本了,所以一定要經(jīng)常更換正確樣本,以達(dá)到“混淆視聽”的效果,此外還需要保證正確樣本的質(zhì)量,不能出現(xiàn)正確樣本不正確的情況。標(biāo)注質(zhì)量把控是一項非常重要,也非常有難度的事情,后續(xù)可能會單獨(dú)寫一篇質(zhì)量把控相關(guān)的文章,請大家多多關(guān)注。
至此,整個標(biāo)注體系的重點工作或原則都講完了,如有不足或錯誤的地方,還希望大家能不吝賜教,指正出來。開篇就說到,如今的人工智能已是大模型的天下了,那么下篇文章會重點講講大模型標(biāo)注那些事,請大家多多關(guān)注。
本文由 @艷杰 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!