談?wù)剶?shù)據(jù)標(biāo)注那些事
關(guān)于數(shù)據(jù)標(biāo)注你了解多少?
一、什么是數(shù)據(jù)標(biāo)注
首先談?wù)勈裁词菙?shù)據(jù)標(biāo)注。數(shù)據(jù)標(biāo)注有許多類型,如分類、畫(huà)框、注釋、標(biāo)記等等,我們會(huì)在下面詳談。
要理解數(shù)據(jù)標(biāo)注,得先理解AI其實(shí)是部分替代人的認(rèn)知功能?;叵胍幌挛覀兪侨绾螌W(xué)習(xí)的,例如我們學(xué)習(xí)認(rèn)識(shí)蘋(píng)果,那么就需要有人拿著一個(gè)蘋(píng)果到你面前告訴你,這是一個(gè)蘋(píng)果。然后以后你遇到了蘋(píng)果,你才知道這玩意兒叫做“蘋(píng)果”。
類比機(jī)器學(xué)習(xí),我們要教他認(rèn)識(shí)一個(gè)蘋(píng)果,你直接給它一張?zhí)O果的圖片,它是完全不知道這是個(gè)啥玩意的。我們得先有蘋(píng)果的圖片,上面標(biāo)注著“蘋(píng)果”兩個(gè)字,然后機(jī)器通過(guò)學(xué)習(xí)了大量的圖片中的特征,這時(shí)候再給機(jī)器任意一張?zhí)O果的圖片,它就能認(rèn)出來(lái)了。
這邊可以順帶提一下訓(xùn)練集和測(cè)試集的概念。訓(xùn)練集和測(cè)試集都是標(biāo)注過(guò)的數(shù)據(jù),還是以蘋(píng)果為例子,假設(shè)我們有1000張標(biāo)注著“蘋(píng)果”的圖片,那么我們可以拿900漲作為訓(xùn)練集,100張作為測(cè)試集。機(jī)器從900張?zhí)O果的圖片中學(xué)習(xí)得到一個(gè)模型,然后我們將剩下的100張機(jī)器沒(méi)有見(jiàn)過(guò)的圖片去給它識(shí)別,然后我們就能夠得到這個(gè)模型的準(zhǔn)確率了。想想我們上學(xué)的時(shí)候,考試的內(nèi)容總是不會(huì)和我們平時(shí)的作業(yè)一樣,也只有這樣才能測(cè)試出學(xué)習(xí)的真正效果,這樣就不難理解為什么要?jiǎng)澐忠粋€(gè)測(cè)試集了。
我們知道機(jī)器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)的效果是不可控的,常常是被用來(lái)做探索性的實(shí)驗(yàn)。而在實(shí)際產(chǎn)品應(yīng)用中,通常使用的是有監(jiān)督學(xué)習(xí)。有監(jiān)督的機(jī)器學(xué)習(xí)就需要有標(biāo)注的數(shù)據(jù)來(lái)作為先驗(yàn)經(jīng)驗(yàn)。
在進(jìn)行數(shù)據(jù)標(biāo)注之前,我們首先要對(duì)數(shù)據(jù)進(jìn)行清洗,得到符合我們要求的數(shù)據(jù)。數(shù)據(jù)的清洗包括去除無(wú)效的數(shù)據(jù)、整理成規(guī)整的格式等等。具體的數(shù)據(jù)要求可以和算法人員確認(rèn)。
二、常見(jiàn)的幾種數(shù)據(jù)標(biāo)注類型
1.分類標(biāo)注:分類標(biāo)注,就是我們常見(jiàn)的打標(biāo)簽。一般是從既定的標(biāo)簽中選擇數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽,是封閉集合。如下圖,一張圖就可以有很多分類/標(biāo)簽:成人、女、黃種人、長(zhǎng)發(fā)等。對(duì)于文字,可以標(biāo)注主語(yǔ)、謂語(yǔ)、賓語(yǔ),名詞動(dòng)詞等。
適用:文本、圖像、語(yǔ)音、視頻
應(yīng)用:臉齡識(shí)別,情緒識(shí)別,性別識(shí)別
2.標(biāo)框標(biāo)注:機(jī)器視覺(jué)中的標(biāo)框標(biāo)注,很容易理解,就是框選要檢測(cè)的對(duì)象。如人臉識(shí)別,首先要先把人臉的位置確定下來(lái)。行人識(shí)別,如下圖。
適用:圖像
應(yīng)用:人臉識(shí)別,物品識(shí)別
3.區(qū)域標(biāo)注:相比于標(biāo)框標(biāo)注,區(qū)域標(biāo)注要求更加精確。邊緣可以是柔性的。如自動(dòng)駕駛中的道路識(shí)別。
適用:圖像
應(yīng)用:自動(dòng)駕駛
4.描點(diǎn)標(biāo)注:一些對(duì)于特征要求細(xì)致的應(yīng)用中常常需要描點(diǎn)標(biāo)注。人臉識(shí)別、骨骼識(shí)別等。
適用:圖像
應(yīng)用:人臉識(shí)別、骨骼識(shí)別
5.其他標(biāo)注:標(biāo)注的類型除了上面幾種常見(jiàn),還有很多個(gè)性化的。根據(jù)不同的需求則需要不同的標(biāo)注。如自動(dòng)摘要,就需要標(biāo)注文章的主要觀點(diǎn),這時(shí)候的標(biāo)注嚴(yán)格上就不屬于上面的任何一種了。(或則你把它歸為分類也是可以的,只是標(biāo)注主要觀點(diǎn)就沒(méi)有這么客觀的標(biāo)準(zhǔn),如果是標(biāo)注蘋(píng)果估計(jì)大多數(shù)人標(biāo)注的結(jié)果都差不多。)
三、數(shù)據(jù)標(biāo)注的過(guò)程
1.標(biāo)注標(biāo)準(zhǔn)的確定
確定好標(biāo)準(zhǔn)是保證數(shù)據(jù)質(zhì)量的關(guān)鍵一步,要保證有個(gè)可以參照的標(biāo)準(zhǔn)。一般可以:
- 設(shè)置標(biāo)注樣例、模版。例如顏色的標(biāo)準(zhǔn)比色卡。
- 對(duì)于模棱兩可的數(shù)據(jù),設(shè)置統(tǒng)一處理方式,如可以棄用,或則統(tǒng)一標(biāo)注。
參照的標(biāo)準(zhǔn)有時(shí)候還要考慮行業(yè)。以文本情感分析為例,“疤痕”一詞,在心理學(xué)行業(yè)中,可能是個(gè)負(fù)面詞,而在醫(yī)療行業(yè)則是一個(gè)中性詞。
2.標(biāo)注形式的確定
標(biāo)注形式一般由算法人員制定,例如某些文本標(biāo)注,問(wèn)句識(shí)別,只需要對(duì)句子進(jìn)行0或1的標(biāo)注。是問(wèn)句就標(biāo)1,不是問(wèn)句就標(biāo)0。
3.標(biāo)注工具的選擇
標(biāo)注的形式確定后,就是對(duì)標(biāo)注工具的選擇了。一般也是由算法人員提供。大公司可能會(huì)內(nèi)部開(kāi)發(fā)一個(gè)專門(mén)用于數(shù)據(jù)標(biāo)注的可視化工具。如:
也有使用開(kāi)源的數(shù)據(jù)標(biāo)注工具的,如推薦 Github 上的小工具labelImg
四、數(shù)據(jù)標(biāo)注產(chǎn)品的設(shè)計(jì)
結(jié)合自己做過(guò)一款數(shù)據(jù)標(biāo)記工具談?wù)勗O(shè)計(jì)數(shù)據(jù)標(biāo)注工具的幾個(gè)小技巧。
一個(gè)數(shù)據(jù)標(biāo)注工具一般包含:
- 進(jìn)度條:用來(lái)指示數(shù)據(jù)標(biāo)注的進(jìn)度。標(biāo)注人員一般都是有任務(wù)量要求的,一方面方便標(biāo)注人員查看進(jìn)度,一方面方便統(tǒng)計(jì)。
- 標(biāo)注主體:這個(gè)可以根據(jù)標(biāo)注形式進(jìn)行設(shè)計(jì),原則上是越簡(jiǎn)潔易用越好。根據(jù)標(biāo)注所需要的注意力可以分為單個(gè)標(biāo)注和多個(gè)標(biāo)注的形式,可根據(jù)需求選擇。
- 數(shù)據(jù)導(dǎo)入導(dǎo)出功能:如果你的標(biāo)注工具是直接數(shù)據(jù)對(duì)接到模型上的,可以不需要。
- 收藏功能:這個(gè)可能是沒(méi)有接觸過(guò)數(shù)據(jù)標(biāo)注的不會(huì)想到。標(biāo)注人員常常會(huì)出現(xiàn)的一種情況就是疲勞,或者是遇到了那種模棱兩可的數(shù)據(jù),則可以先收藏,等后面再標(biāo)。
- 質(zhì)檢機(jī)制:在分發(fā)數(shù)據(jù)的時(shí)候,可以隨機(jī)分發(fā)一些已經(jīng)標(biāo)注過(guò)的數(shù)據(jù),來(lái)檢測(cè)標(biāo)注人員可靠性。
#專欄作家#
躚塵,人人都是產(chǎn)品經(jīng)理專欄作家。人工智能產(chǎn)品經(jīng)理,獨(dú)立音樂(lè)人,擅長(zhǎng)需求分析、原型設(shè)計(jì)和項(xiàng)目管理。喜歡閱讀、思考、創(chuàng)作。網(wǎng)易云音樂(lè)主頁(yè):躚塵。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 unsplash,基于 CC0 協(xié)議
分類標(biāo)注下面 的應(yīng)用,第一個(gè)應(yīng)該是年齡識(shí)別吧
AI在進(jìn)化,對(duì)數(shù)據(jù)的要求也越來(lái)越高。舉個(gè)例子,在自動(dòng)駕駛領(lǐng)域,從前拉框就能滿足的需求,現(xiàn)在需要2D+3D點(diǎn)云融合標(biāo)注,以提供更精細(xì)立體的數(shù)據(jù)。所以大膽設(shè)想一下,未來(lái)數(shù)據(jù)標(biāo)注會(huì)增加什么方式? ?? 歡迎搜索Testin云測(cè)的AI數(shù)據(jù)服務(wù),探討交流
數(shù)據(jù)標(biāo)注,就找云琪海智,我找過(guò)這家公司,真的很效率。
貴方還需要數(shù)據(jù)嗎?我們是數(shù)據(jù)標(biāo)注公司,質(zhì)量保障。微信:18772118636
有個(gè)錯(cuò)別字 → 那么我們可以拿900漲作為訓(xùn)練集,100張作為測(cè)試集。