AI(NLP語義方向)標(biāo)注工具產(chǎn)品設(shè)計的5個錦囊

5 評論 6494 瀏覽 46 收藏 7 分鐘

編輯導(dǎo)讀:數(shù)據(jù)是AI公司的必需品,數(shù)據(jù)標(biāo)注是AI產(chǎn)品模型開發(fā)中重要的一環(huán),也是AI產(chǎn)品經(jīng)理必須要了解的基本技術(shù),本文作者從認(rèn)知基礎(chǔ)、為什么我們需要標(biāo)注、錦囊三個方面對AI標(biāo)注工具的產(chǎn)品設(shè)計工作展開了分析說明,與大家分享。

一、認(rèn)知基礎(chǔ)

個人觀點的認(rèn)知基礎(chǔ)如下,如果讀者不認(rèn)同50%以上,那么就沒必要浪費時間閱讀后續(xù)內(nèi)容了,反之,我希望大家多質(zhì)疑與交流,通過Q&A來共同進(jìn)步。

認(rèn)知1:人工智能發(fā)展粗略可以分3個階段:符號主義(第1階段)→ 聯(lián)結(jié)主義(第2階段)→ 理想AI(第3階段),我們將長期(>30年)處于第2階段

符號主義:代表人物紐厄爾和西蒙,認(rèn)為人類的智能不管多復(fù)雜,歸根到底都是由符號計算來實現(xiàn)的。只要計算機(jī)科學(xué)家設(shè)計了適合的程序,計算機(jī)早晚有一天能憑著符號的計算,也能提出相對論、創(chuàng)造羅納爾多的射門、而剪紙捏泥人和書法篆刻就更不在話下。

符號主義的缺陷:很難在非常復(fù)雜的求解組合中快速找到最優(yōu)解。

聯(lián)結(jié)主義:代表人物大衛(wèi)休謨,認(rèn)為人工智能的首要任務(wù)是建立大腦的模型,不是預(yù)先給定解決問題的算法,而是構(gòu)建一個在計算機(jī)上模擬的“神經(jīng)元網(wǎng)絡(luò)”,讓機(jī)器自主地建立不同神經(jīng)元之間的“聯(lián)結(jié)”,通過最終結(jié)果的反饋,不斷調(diào)整聯(lián)結(jié)的模式,最終逼近最優(yōu)解。

聯(lián)結(jié)主義的缺陷:過于依賴經(jīng)驗數(shù)據(jù)

理想AI:感知智能+認(rèn)知智能+情感的主觀感受+自我意識

理想AI的缺陷:暫時無實現(xiàn)方案

認(rèn)知2:AI執(zhí)行語義理解任務(wù),當(dāng)前已經(jīng)到了技術(shù)成熟期,后續(xù)依賴產(chǎn)品力和數(shù)據(jù)

粗暴一點說,各家算法基本無差別(<10%)。以解決實際業(yè)務(wù)問題、實現(xiàn)業(yè)務(wù)價值為衡量標(biāo)準(zhǔn)的話,產(chǎn)品的易用性(決定落地門檻/規(guī)模/效果)、組件化程度(決定成本),數(shù)據(jù)的數(shù)量和質(zhì)量,才是決定價值的砝碼。

認(rèn)知3:中國現(xiàn)階段(10年內(nèi))ToB市場,大B的真需求都在自給自足,第三方服務(wù)中小B才是正途

大B只有探索型需求和偽需求(為了體制內(nèi)的升官發(fā)財)才會留給第三方,所以一個第三方公司如果敢說只做大B,那么一定是死路一條或者半死不活(無法建立壁壘/低利潤率)

二、為什么我們需要標(biāo)注?

認(rèn)知1中提到“聯(lián)結(jié)主義的缺陷在于過度依賴經(jīng)驗數(shù)據(jù)”,那經(jīng)驗數(shù)據(jù)是什么?經(jīng)驗數(shù)據(jù) = 已標(biāo)注數(shù)據(jù)。

未標(biāo)注數(shù)據(jù)只能用于無監(jiān)督機(jī)器學(xué)習(xí),當(dāng)前執(zhí)行99%以上AI任務(wù)的都是有監(jiān)督機(jī)器學(xué)習(xí)模型,預(yù)計未來30年以內(nèi)還會保持現(xiàn)狀。所以數(shù)據(jù)標(biāo)注就是繞不開的檻。

三、錦囊

效率高是好的標(biāo)注工具的唯一標(biāo)準(zhǔn),所以3條錦囊全部都是圍繞語義標(biāo)注工具效率提升。

效率 = 認(rèn)知效率 + 操作效率 + 智能化,以下錦囊也都是沿著這3個提升效率的方向進(jìn)行的產(chǎn)品設(shè)計。

錦囊1:互斥性原則

語義模型本質(zhì)上是一個分類模型,分類最關(guān)鍵的是類別清晰,例如想想折磨我們的垃圾分類?;コ庑灾档镁褪遣煌愔g要做到不重不漏(漏的部分一定設(shè)置專門的“其他分類”來兜?。?。

具體到產(chǎn)品設(shè)計上,歧義優(yōu)化(根據(jù)向量相似度,自動識別不同類之間存在交疊關(guān)系的語料),分類說明(設(shè)置為必填項)等都是互斥性原理的具體體現(xiàn)。

錦囊2:聚類冷啟動

Bert無監(jiān)督聚類模型做冷啟動,“效果杠杠的,誰用誰知道”。缺失此模塊,數(shù)據(jù)標(biāo)注人員冷啟動階段就全靠想象力“瞎編”。我見過太多數(shù)據(jù)人員編寫相似句(同一語義不同句式表達(dá)方式)寫到生無可戀。上線周期還會因為標(biāo)注效率低和效果差一拖再拖。

錦囊3:By分類智能推薦待標(biāo)注語料

來,這一條錦囊大家可以在評論區(qū)猜一猜是啥意思?

錦囊4:Badcase閉環(huán)調(diào)優(yōu)

語義模型調(diào)優(yōu) = 正向調(diào)優(yōu)(By準(zhǔn)確率)+ 反向調(diào)優(yōu)(By Badcase)

Badcase指模型判斷結(jié)果存在偏差的語料(來自于測試集+業(yè)務(wù)側(cè)收集反饋),是極其寶貴的復(fù)盤資料。設(shè)計原理是從點狀問題(Badcase)順藤摸瓜找到本質(zhì)問題(如ASR準(zhǔn)確率、語義分類體系問題、存在大量歧義等)進(jìn)行解決。反向調(diào)優(yōu)可以極大提升模型的準(zhǔn)確率、覆蓋率等核心指標(biāo)。

錦囊5:隔離數(shù)據(jù)管理與標(biāo)注工具

若不進(jìn)行隔離,隨著產(chǎn)品功能復(fù)雜度的提升,標(biāo)注工具的認(rèn)知門檻會陡增。可以理解為廚房里的原材料和鍋碗瓢盆混在一起丟到了一個櫥柜中。這將嚴(yán)重影響產(chǎn)品給用戶的確定感,會將標(biāo)注效率直接打6折。

結(jié)語

AI執(zhí)行語義任務(wù),標(biāo)注是繞不過的檻。但只要我們通過“傻瓜式工具”輔助用戶輕松邁過去,AI對真實場景的賦能價值將被放大100倍以上。

 

作者:張佳偉,AI產(chǎn)品經(jīng)理

本文由 @張佳偉 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 錦囊三 是訓(xùn)練一個分類模型,待標(biāo)注語料先通過分類模型預(yù)測一個類別,推薦給作為標(biāo)注人員作為標(biāo)注類別候選,是這個意思嗎?

    來自上海 回復(fù)
    1. 對,是這樣的,實際應(yīng)用提效大約30%

      回復(fù)
  2. 錦囊說清楚應(yīng)用的標(biāo)注任務(wù)類型會更好~

    來自廣東 回復(fù)
  3. 我完全看不懂篇文章 我還做了快一年的NLP自然語言處理UI設(shè)計 完了。。。

    回復(fù)
    1. 不不不,主要是這個文章太細(xì)分領(lǐng)域

      回復(fù)