大模型標(biāo)注:你看不上的數(shù)據(jù)標(biāo)注正在成為高薪工作

2 評(píng)論 3761 瀏覽 6 收藏 10 分鐘

大模型的出現(xiàn)激發(fā)出了不少新興崗位,也讓越來(lái)越多崗位備受人關(guān)注。數(shù)據(jù)標(biāo)注這個(gè)崗位就是其中之一。想了解更多有關(guān)數(shù)據(jù)標(biāo)注、大模型標(biāo)注的同學(xué),或許可以看看這篇文章。

2022年底,ChatGPT引爆大語(yǔ)言模型,全球科技巨頭紛紛入局,后來(lái)各家不僅限于自然語(yǔ)言技術(shù),更是將文生圖、文生音頻、文生視頻、圖生視頻等多模態(tài)技術(shù)“玩”出了新高度,近期大模型生成的兵馬俑,還跳起了“科目三”的熱舞。

大模型的熱潮為人工智能開(kāi)啟了新篇章,作為大模型數(shù)據(jù)能力鏈條上的重要一環(huán),數(shù)據(jù)標(biāo)注受到前所未有的關(guān)注,數(shù)據(jù)是人工智能的基礎(chǔ),是人工智能更是大模型源源不斷的養(yǎng)分來(lái)源,數(shù)據(jù)標(biāo)注這個(gè)環(huán)節(jié)做得如何,直接決定了大模型有多聰明。

OpenAI這家公司,在全球大模型領(lǐng)域是跑在最前面的,在數(shù)據(jù)標(biāo)注上也有一套自己的方法論,他們的數(shù)據(jù)標(biāo)注方式是先做出預(yù)訓(xùn)練模型,再用強(qiáng)化學(xué)習(xí)加上人工反饋來(lái)調(diào)優(yōu),也就是RLHF(Reinforcement Learning from Human Feedback)。

他們找了很多家數(shù)據(jù)公司來(lái)共同完成數(shù)據(jù)標(biāo)注,自己還組建了一個(gè)由幾十名哲學(xué)博士組成的質(zhì)檢團(tuán)隊(duì),對(duì)標(biāo)注好的數(shù)據(jù)進(jìn)行檢查,但不是以對(duì)錯(cuò)來(lái)評(píng)估,而是給每個(gè)問(wèn)題選出多個(gè)匹配的結(jié)果,再經(jīng)過(guò)多人多倫的結(jié)果排序,直至模型數(shù)據(jù)符合常人思維,甚至某些專業(yè)領(lǐng)域的結(jié)果要達(dá)到中等以上知識(shí)水平,OpenAI成立8年,花費(fèi)10億美元用于模型訓(xùn)練,可見(jiàn)其對(duì)數(shù)據(jù)的重視程度。

一、大模型標(biāo)注的特點(diǎn)

1. 非結(jié)構(gòu)化

上一代數(shù)據(jù)標(biāo)注工作,主要以“打點(diǎn)”和“畫(huà)框”為主,就是讓機(jī)器學(xué)習(xí)什么是“人臉”,什么是“障礙物”,需要嚴(yán)格按照客戶給定的標(biāo)注規(guī)范進(jìn)行,標(biāo)注要求也偏客觀?,F(xiàn)在的大模型標(biāo)注更像是在做閱讀理解,讓模型學(xué)習(xí)應(yīng)該給出什么樣的內(nèi)容,大模型生成的多個(gè)結(jié)果哪個(gè)更接近滿分答案,標(biāo)注要求偏主觀,難以形成統(tǒng)一的標(biāo)準(zhǔn)。

標(biāo)準(zhǔn)從客觀到主觀,使得標(biāo)注工作更難做了,這非??简?yàn)標(biāo)注師的主觀能動(dòng)性以及解決問(wèn)題的能力,而且標(biāo)注師需要具備很廣的知識(shí)面,這說(shuō)明數(shù)據(jù)標(biāo)注工作,不再是個(gè)結(jié)構(gòu)化的簡(jiǎn)單工作,而是變成了需要邏輯思維的非結(jié)構(gòu)化工作。

2. 知識(shí)密集型

大模型背景下的標(biāo)注工作主要分為兩類:通識(shí)大模型標(biāo)注、領(lǐng)域大模型標(biāo)注。目前市面上的大模型產(chǎn)品多數(shù)是通識(shí)大模型,即便是通識(shí)大模型,標(biāo)注工作也是非結(jié)構(gòu)化的,需要標(biāo)注師具備很廣的知識(shí)面,且具備較強(qiáng)的自然語(yǔ)言能力,實(shí)現(xiàn)了百分百本科的百度智能云海口標(biāo)注基地,承擔(dān)的主要工作就是通識(shí)類的標(biāo)注。

至于領(lǐng)域大模型標(biāo)注,對(duì)學(xué)歷、能力、專業(yè)度的要求則更高,目前大多數(shù)行業(yè)或企業(yè),需要的都是具備領(lǐng)域知識(shí)的專業(yè)人才,他們要重點(diǎn)解決金融、醫(yī)療、科技等領(lǐng)域的專業(yè)問(wèn)題,最終形成符合專業(yè)邏輯的高質(zhì)量數(shù)據(jù)。比如,政務(wù)大模型中,用戶通常會(huì)問(wèn)很多“專精”的問(wèn)題,例如“社保斷繳5年怎么辦?”這需要標(biāo)注師讀取大量的政府文件,并能從中找到準(zhǔn)確答案。

3. 學(xué)歷要求高

當(dāng)年,數(shù)據(jù)標(biāo)注被稱為AI領(lǐng)域的流水線工人,通常集中在東南亞、非洲或是中國(guó)的河南、山西、山東等人力資源豐富的地區(qū)。為了控制成本,標(biāo)注公司的老板們會(huì)在縣城租一塊場(chǎng)地,擺上電腦,有訂單了就在附近招人兼職來(lái)做,沒(méi)單子就解散休息。

簡(jiǎn)單來(lái)說(shuō),這個(gè)工種有點(diǎn)類似馬路邊上的臨時(shí)裝修工。如今的標(biāo)注師坐在窗明幾凈的寫(xiě)字樓,有自己的工位,很寬敞,上下班要打卡,看起來(lái)和互聯(lián)網(wǎng)公司里的白領(lǐng)們差不多,事實(shí)上也是如此,就像百度在海口的大模型標(biāo)注基地,本科比例已經(jīng)達(dá)到了100%,甚至很多專業(yè)領(lǐng)域的標(biāo)注人員都是碩士或博士學(xué)歷,他們的身份不再是標(biāo)注員,而是領(lǐng)域標(biāo)注專家。

二、大模型標(biāo)注的崗位情況

1. 崗位要求現(xiàn)狀

在北京,普通標(biāo)注員的薪資水平在6-8k之間,和基礎(chǔ)的文員崗位薪資差不多,而大模型標(biāo)注的薪資卻高得多,在招聘網(wǎng)站上看了一些大模型標(biāo)注的崗位,薪資水平多數(shù)在10-15k之間,甚至某些專業(yè)領(lǐng)域的標(biāo)注人員薪資水平接近兩萬(wàn),這些崗位可都是執(zhí)行層的標(biāo)注人員,并非管理崗或?qū)<翌悕徫弧?/p>

當(dāng)然這些崗位的要求也比較高,學(xué)歷要求基本都是本科起,某些還會(huì)要求一本或211/985院校,除了硬性的學(xué)歷要求,對(duì)專業(yè)能力或綜合能力要求也比較高,某些會(huì)要求專業(yè)領(lǐng)域經(jīng)驗(yàn),比如下圖中的兩個(gè)樣例,一個(gè)是教育領(lǐng)域的,一個(gè)是財(cái)經(jīng)領(lǐng)域的,或者某些會(huì)要求外語(yǔ)水平,這也是很容易理解,因?yàn)榇竽P褪呛褪澜缃榆壍?,?guó)內(nèi)很多大模型產(chǎn)品也需要部署外語(yǔ)環(huán)境下的大模型。

2. 崗位發(fā)展建議

由此,給在做數(shù)據(jù)標(biāo)注或考慮做數(shù)據(jù)標(biāo)注的同學(xué)兩條建議:第一,有機(jī)會(huì)一定要轉(zhuǎn)型到大模型領(lǐng)域,如果沒(méi)有機(jī)會(huì)就要想辦法創(chuàng)造機(jī)會(huì),總之這波大模型的趨勢(shì)我們一定要抓住,因?yàn)檫@可能是我們普通標(biāo)注員為數(shù)不多的發(fā)展機(jī)會(huì)了。第二,一定要從事有專業(yè)知識(shí)的標(biāo)注工作,簡(jiǎn)單標(biāo)注工作薪資水平低,關(guān)鍵是很容易被替代,所以要建立自己的專業(yè)壁壘,才能在變幻莫測(cè)的職場(chǎng)中,使自己立于不敗之地。

三、大模型標(biāo)注的發(fā)展前景

1. 職業(yè)發(fā)展前景

數(shù)據(jù)標(biāo)注這條流水線目前主要由標(biāo)注師和質(zhì)檢員組成,完成標(biāo)注后,直接交給算法工程師,他們會(huì)用數(shù)據(jù)對(duì)大模型做測(cè)試,看看哪些方面還有不足,再有針對(duì)性的做下一輪標(biāo)注和調(diào)試。

未來(lái),這條流水線上還會(huì)出現(xiàn)更多細(xì)分崗位,例如模型評(píng)估師(指導(dǎo)大模型調(diào)優(yōu)方向)、指令工程師(研究與大模型交互更高效的方式)、視頻音頻標(biāo)注師、專業(yè)領(lǐng)域標(biāo)注師等,這些崗位都是現(xiàn)在標(biāo)注人員的發(fā)展方向,不僅崗位有更細(xì)分、更專業(yè)的發(fā)展方向,而且崗位需求量也會(huì)不斷增大,預(yù)計(jì)未來(lái)五年,數(shù)據(jù)標(biāo)注相關(guān)專業(yè)人才缺口將達(dá)百萬(wàn)量級(jí)。

2. 行業(yè)發(fā)展前景

目前數(shù)據(jù)標(biāo)注市場(chǎng)主要有兩類參與者,一類是第三方標(biāo)注公司,另一類是頭部科技公司自建數(shù)據(jù)標(biāo)注團(tuán)隊(duì)。

此外還有一些中間商,對(duì)接公司需求和標(biāo)注團(tuán)隊(duì)。傳統(tǒng)的數(shù)據(jù)標(biāo)注行業(yè)主要依靠渠道、人力等形成的低成本優(yōu)勢(shì),在未來(lái),數(shù)據(jù)需求方將更看重?cái)?shù)據(jù)質(zhì)量、場(chǎng)景多樣性和可擴(kuò)展性,這樣才能讓大模型發(fā)揮更大的作用。在大模型為主的“智能革命”浪潮下,國(guó)內(nèi)基礎(chǔ)數(shù)據(jù)服務(wù)業(yè)將達(dá)到百億市場(chǎng)規(guī)模,成為智能時(shí)代的新寵兒。

本文由 @艷杰 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 有幫助,謝謝樓主

    來(lái)自北京 回復(fù)
  2. 寫(xiě)的很專業(yè),樓主棒棒噠

    來(lái)自北京 回復(fù)