萬字干貨 | 圖像標注工具競品分析

5 評論 15558 瀏覽 77 收藏 37 分鐘

編輯導語:圖像標注是機器視覺(Computer Vision, 下面將簡稱為“CV”)模型開發(fā)流程中的重要一環(huán),也是十分耗時的一環(huán)。隨著深度學習的興起,企業(yè)對于圖像標注工具的需求也愈演愈烈。據(jù)知名行研機構估算,2025年全球標注工具的市場規(guī)模將達到16億美元。本文選取了3款行業(yè)中較有代表性的產(chǎn)品:CVAT、ModelArts、 Supervisely,從產(chǎn)品視角來試圖探究標注工具行業(yè)現(xiàn)狀及未來趨勢。

1. 什么是圖像標注

圖像標注是在原始圖像打上標簽的行為。在訓練深度學習模型前,需要準備足量的,已被標注的樣本用于訓練。而圖像標注就是樣本準備中的一個步驟,如圖1:

圖1:Supervisely中的圖片標注

原始圖像類型包括:二維圖片、三維圖片、視頻等。

標注形式包括:標簽、包圍框(二維和三維形式)、點、線、多邊形、像素圖(Bitmap)。

根據(jù)不同的標注形式,圖像標注類型可分為:

  1. 分類 (Classification):識別出圖片中有什么物體,如上圖中的1號箭頭,表示整張圖片中有people,通過標簽進行標注。
  2. 檢測 (Detection):比圖片分類再進一步,不僅知道圖片里有什么,還檢測出物體大概位置,即物體所屬包圍框(Bounding Box)的位置,如上圖中的2號用包圍框標注了一個行人。通過包圍框/線+標簽進行標注。
  3. 分割 (Segmentation):比目標檢測再進一步,知道每個像素屬于哪個標簽,如上圖中的3號描繪出了行人像素級別的輪廓。具體還可細分成語義分割 (Semantic Segmentation)和實例分割 (Instance Segmentation)兩類,語義分割用于識別不同種類的物體,而實例分割在語義分割的基礎上進一步區(qū)分了同類物體中的不同實例。通過多邊形/像素圖+標簽進行標注。
  4. 姿態(tài)估計 (Pose Estimation):又稱關鍵點檢測,主要用于識別圖像內的關鍵區(qū)域,例如表情識別,運動姿勢檢測等。通過點/線+標簽進行標注。
  5. 視頻行為識別(Video Action Recognition):識別目標的意圖,例如識別打架行為,這種場景很難僅憑單張圖片判斷(比如在單張圖片下打架和擁抱是類似的),通常需要識別一段視頻才能判斷目標意圖。僅通常使用包圍框/點/線+標簽的在插值模式下進行標注。

下圖為各個標注類型的示例:

圖2:各類標注類型的示例,來源:https://gluon-cv.mxnet.io/contents.html

通常,企業(yè)會有各式各樣的標注需求,作為一款通用的標注產(chǎn)品,產(chǎn)品功能(如支持各種輸入格式,各種標注類型,各種標注形式,以及額外功能)會是我們關注的一個重點。

另一方面,實際情況中標注是一件十分費時費力的工作,例如需要標出上圖中的大部分行人,而這樣的圖片至少得有幾百上千張。由此可見,因此用戶體驗是我們需要關注的另一個重點。

綜上,本文將主要從產(chǎn)品功能和用戶體驗這兩個維度來分析行業(yè)中的代表性產(chǎn)品。

2. 核心業(yè)務流程

完成圖片標注訓練的整個工作流程,通常需要經(jīng)歷”數(shù)據(jù)準備”、”數(shù)據(jù)標注”、“數(shù)據(jù)進化”三個環(huán)節(jié)。具體業(yè)務流程如下圖所示:

圖3:圖像標注通用業(yè)務流程

2.1 數(shù)據(jù)準備

數(shù)據(jù)準備包含:數(shù)據(jù)采集、數(shù)據(jù)預處理兩步。

1. 數(shù)據(jù)采集:采集途徑很多如:本地上傳,調用其他數(shù)據(jù)集數(shù)據(jù),攝像頭數(shù)據(jù)導入,從云服務調用獲取數(shù)據(jù)等。

2. 數(shù)據(jù)預處理:數(shù)據(jù)清洗是獲取高質量訓練數(shù)據(jù)的前提,并且通過清洗不合格的數(shù)據(jù)也可以減少無意義的標注工作,提高標注效率。數(shù)據(jù)清洗通常的操作包括:清洗模糊數(shù)據(jù),清洗相似數(shù)據(jù),裁剪,旋轉,鏡像,圖片亮度,圖片對比度,圖片銳化等。

2.2 數(shù)據(jù)標注

數(shù)據(jù)標注包括:建立標注集、數(shù)據(jù)標注、標注審核。

2.2.1 建立標注集

標注集是標注工作的基本任務管理單元,在此不做過多贅述。

2.2.2 數(shù)據(jù)標注

具體方式見表1:

表1:數(shù)據(jù)標注具體方式

2.2.3 標注審核

針對“任務標注”,標注審核是對下發(fā)的標注任務進行管理并對標注結果審核,一般審核維度包括:標注進度、驗收情況、標簽數(shù)量、難例、標注質量等。

針對“自動標注”,標注審核是對自動標注的結果進行逐一檢查確認,并修改標注有誤的圖片。

2.3 數(shù)據(jù)進化

數(shù)據(jù)進化包括:模型訓練、模型推理。

2.3.1 模型訓練

是將標注數(shù)據(jù)進行訓練得出模型結果的過程。

2.3.2 模型推理

用于對訓練的模型結果進行校驗預測,并將錯誤或者有誤差的校驗結果記錄下來帶入到下一次模型訓練中用于模型的優(yōu)化迭代,從而形成由數(shù)據(jù)標注到模型訓練再到模型迭代優(yōu)化的閉合環(huán)路。

3. 競品簡介

目前市面上標注工具較多,首先需要確定競品選取原則:

  • 基于Web的應用,排除本地應用及移動端應用,理由:和筆者公司產(chǎn)品形態(tài)一致
  • 有線上體驗環(huán)境,理由:能夠體驗才能給出準確分析
  • 功能較為完善,有代表性,理由: 完善的產(chǎn)品參考意義更大
  • 因眾包模式與筆者公司的產(chǎn)品戰(zhàn)略有偏差,排除基于數(shù)據(jù)眾包模式的產(chǎn)品,如Amazon Mechanical Turk。

綜上,選取了以下3款競品:

  1. CVAT: Intel出品的開源標注工具,發(fā)布于2018年6月。其支持視頻、圖片等多種數(shù)據(jù)類型的標注,功能全面。
  2. ModelArts: 華為出品的機器學習平臺,發(fā)布于2018年10月,其中包含了數(shù)據(jù)標注模塊。其支持從數(shù)據(jù)導入到模型運維的全流程開發(fā),訓練速度較快。
  3. Supervisely: 俄羅斯Deep System旗下的模型訓練平臺,發(fā)布于2017年8月。其數(shù)據(jù)標注功能強大,特別是Smart Tool令人影響深刻:可以快速完成語義分割任務的標注。

表2:3款產(chǎn)品的概括對比

4. 功能對比

本節(jié)中,針對3款產(chǎn)品,我們從根據(jù)第2章的核心業(yè)務流程來探究產(chǎn)品功能間差異。

4.1 CVAT

CVAT的使用流程雖然十分簡單,但功能十分全面和豐富。

圖4:CVAT的標注流程

4.1.1 創(chuàng)建數(shù)據(jù)集

CVAT中以標注任務(Task)的概念替代數(shù)據(jù)集,一個任務可以包含多個作業(yè),每個作業(yè)可以分配一個標注人員。

在創(chuàng)建標注任務時,CVAT也提供了豐富的高級選項,例如:

  1. 支持使用Git LFS: Git Large File Storage, 大文件的git管理插件。
  2. 調整圖片質量:通過降低圖片質量(壓縮比)來加快高清圖片的加載。
  3. 作業(yè)數(shù)和重疊數(shù):如果一個任務中的圖片量很大,可以將其分成多個作業(yè)。再配合重疊數(shù),可以實現(xiàn)分配一張圖片到多個作業(yè)的效果,不過暫時沒有想到重疊數(shù)的使用場景。

總結來看,CVAT在標注任務模塊匯中的一個優(yōu)勢是支持直接上傳視頻類型文件,上傳完的視頻會被根據(jù)用戶設定的幀率(Frame)轉換成圖片。

CVAT在該模塊中也有個明顯的劣勢:缺少一個統(tǒng)一的視角去總覽任務中所有的圖片(如下圖所示,任務詳情頁中僅能看到首張圖的照片),以及每張圖片上所有的標注,推測是因為由于一張圖片可能存在在多個作業(yè)中所導致。

圖5:CVAT的標注任務詳情頁

4.1.2 自動標注

由于CVAT并未提供模型服務的能力,其自動標注功能還處在發(fā)展的初期,僅能滿足個人實驗。

添加自動標注模型需要用戶上傳模型文件,而非鏡像或API,這種非服務化的方式很容易因為運行環(huán)境差異(例如2個服務器上安裝了不同版本的依賴包),而影響標注成功率以及準確率。

4.1.3 人工標注

4.1.3.1 人工標注支持3種標注模式,且各個模式之前可來回切換:

  1. 標準模式(Standard):用于常規(guī)標注。
  2. 屬性標注模式(Attribute Annotation):在“屬性模式”下用戶可以專注于修改標注框屬性和標簽屬性,提升了對標注屬性檢查和修改的效率。此模式專門用于對同一個物體設置一個或多個屬性的場景,如人臉標注中需要標注年齡,性別等。
  3. 標簽標注模式(Tag Annotation):在“標簽模式”下用戶可以迅速實現(xiàn)增刪標簽和對標簽屬性的選擇和修改。同時為圖片分類型標注定制的模式,還可為每個標簽設置快捷鍵。極大提升了圖片分類的標注效率。

4.1.3.2 針對CVAT我們體驗下來總結了以下幾點優(yōu)勢:

1)靈活的標簽和屬性定義

同一圖片可以標注多個標簽,且一個標簽可以設置多個屬性且平臺將屬性定義分為:多選(Select)、單選(Radio)、是否(Checkbox)、文本(Text)、數(shù)字(Number)五種。CVAT標簽自定義的自由度基本滿足了絕大部分的標注需求。

圖6:CVAT中的5種標簽屬性

2)豐富的標注形式

為了支持各種類型的標注,CVAT提供了6種的標注形式,包括:標簽、點、矩形、折線、多邊形、長方體等。同時支持AI多邊形標注:只需指定至少四個點就可以在系統(tǒng)的幫助下框選出一個目標的輪廓,這點同Supervisely相同,我們者體驗下來在AI識別速度上還是期待進一步提升。

3)標注方式快捷鍵的統(tǒng)一

選擇一個標注方式則快捷鍵”N“就代表這種標注方式。重新選擇標注方式則”N”代表的方式隨之對應改變??旖萱I的統(tǒng)一進一步降低了用戶的操作成本。

4)任務分析

通過任務分析儀表板中的分析,您可以查看每個用戶在每個任務上花費了多少時間,以及他們在任何時間范圍內完成了多少工作,任務分析拓展了CVAT的團隊標注能力。

圖7:CVAT中的Analytics儀表板(圖片來源CVAT用戶手冊)

5)追蹤模式(Track mode)

用于對視頻文件進行標注。視頻會按照幀率被分割成若干畫面(Frame)。用戶僅需在關鍵畫面(Key frame,和Flash中的關鍵幀很類似)上進行標注,關鍵畫面之間的畫面也會自動帶上標注。CVAT目前僅支持包圍框和點使用插值模式。Propagate功能很實用,場景:如果想將當前圖片中的標注傳遞(Propagate)給后面的n張圖片。同時CVAT的追蹤模式結合合并(Merge)功能、分割(Split)功能共同支撐起CVAT獨具優(yōu)勢的視頻或動圖標注能力。

4.1.3.3 可能正因為其支持的功能過于豐富,導致使用起來有一定的學習成本,用戶體驗會有些差強人意。例如:

  1. 標注時圖片無法預覽無法獲知圖片的總體標注情況,當下次在進入作業(yè)時不能快速定位到未標注的圖片,這點雖說對與效率不會有太大影響但會影響用戶的操作體驗。
  2. 另外如果是做用戶圖片分類的標注,則需要使用屬性模式,這一點用戶難以感知。(我們一開始還以為只能通過畫一個完全覆蓋圖片的框才能實現(xiàn))

4.2 ModelArts

Modelarts在2019年10月17日版本更新后(特別是團隊標注功能),業(yè)務流程覆蓋趨于完整。整體用戶流程如下:

圖8:ModelArts的標注流程(圖片來自ModelArts官網(wǎng))

由于本文以數(shù)據(jù)標注功能的討論為主,數(shù)據(jù)標注之后的功能(包括訓練、推理、數(shù)據(jù)校正等)不在本文的討論范圍內。

4.2.1 創(chuàng)建數(shù)據(jù)集

在創(chuàng)建圖片數(shù)據(jù)集時,ModelArts將圖像標注類型設定在了數(shù)據(jù)集層面,即創(chuàng)建數(shù)據(jù)集時就需要區(qū)分標注類型.

這一點與Supervisely和CVAT區(qū)別較大,具體分析見Supervisely的人工標注章節(jié)。目前支持圖片分類及目標檢測兩種任務。

圖9:ModelArts中放入創(chuàng)建數(shù)據(jù)集

4.2.2 數(shù)據(jù)處理

華為的數(shù)據(jù)處理功能位于對象存儲服務中,其提供了便利且功能全面的圖片處理能力。

華為對象存儲服務中提供了“圖形界面模式”和“代碼編輯模式”兩種圖片處理操作方式,適用了普通用戶和開發(fā)者用戶的使用。

同時最終的處理結果存放于內容分發(fā)網(wǎng)絡(Content Delivery Network,CDN)加速,后續(xù)請求可以通過URL直接從CDN下載,可以將結果用于任意可以通過URL導入數(shù)據(jù)的標注平臺,極大的拓展了平臺的功能拓展性。

華為圖片處理提供的能力主要包括:設置圖片效果(亮度、對比度、銳化、模糊)、設置縮略、旋轉圖片、剪切圖片、設置水印、轉化格式、壓縮圖片。

圖10:華為對象存儲中的圖片處理模塊

4.2.3 智能標注

ModelArts智能標注包含:主動學習(半自動標注)和預標注(全自動標注), 目前只有“圖像分類”和“物體檢測”類型的數(shù)據(jù)集支持智能標注功能。下面簡單分析一下智能標注模塊:

  1. 系統(tǒng)只對未標注圖片進行標注,這樣可以減少重復標注,減少對于運算資源的浪費。
  2. 使用效果不理想,系統(tǒng)實際體驗下來標注的準確性大概只能維持在60%。系統(tǒng)篩選難例的準確性也較低。
  3. 全自動標注支持選擇自行訓練的模型或ModelArts自帶模型,在模型選擇上靈活性較高,在下次進行作業(yè)時可以繼承每次標注的結果進一步提升模型的準確率。
  4. 智能標注結果展示頁面可以進行條件篩選,可選的條件包括:難例級,標簽,樣本創(chuàng)建時間,文件名,標注人,樣本屬性,置信度。精準的篩選可以滿足大部分場景的需求。

4.2.4 人工標注

華為ModelArts人工標注的特點主要有以下三點:

4.2.4.1 目標檢測標注支持多達6種形式的標注

包括方形、多邊形、正圓、點、單線、虛線(見圖11),豐富的標注方式覆蓋了更廣泛的標注場景,同時可以提高標注的精度。

4.2.4.2 高效的標簽選擇方式

在數(shù)據(jù)標注的交互上,華為ModelArts在畫完選框后會自動彈出標簽下拉框已經(jīng)展開的添加標簽彈窗(見圖11),省去了用戶框選完成后自行點擊標簽下拉框的步驟。且彈出的標簽選項卡就在選框旁邊(見圖11),這樣減短了滑動鼠標選擇標簽的鼠標移動行程。

圖11:ModelArts圖像檢測的數(shù)據(jù)標注界面

4.2.4.3 圖片分組

在標注預覽頁面華為ModelArts提供了圖片分組功能(見圖12),此功能會使用聚類算法或根據(jù)清晰度、亮度、圖像色彩對圖片進行分組。自動分組可以理解為數(shù)據(jù)標注的預處理,用戶可根據(jù)分組結果,進行分組打標、圖片清洗等操作。此功能可以提高圖片標注效率,尤其是在圖片分類標注的情況下再配合批量標注功能可以在標注速度上有質的提升。但我們在實際體驗后感覺此功能分組的成功率較低。

圖12:ModelArts中的圖片自動分組

4.2.5 團隊標注

華為ModelArts的團隊標注功能設置很齊全,有很多亮點,這里從創(chuàng)建,標注,審核三個方面探討:

4.2.5.1 創(chuàng)建

華為啟用團隊標注后可以直接指定標注團隊,也可以選擇指定管理員然后由管理員分配標注人力并做審核工作。選則完類型后團隊成員會收到系統(tǒng)郵件,按郵件提示可以很輕松的完成標注和審核。

可以選擇是否將新增文件自動同步至標注團隊。同時可以選擇標注團隊的文件是否加載智能標注結果。這些操作增加了管理員對任務分配和自動標注之間關系的調節(jié)自由度。

圖13:ModelArts團隊標注創(chuàng)建頁面

4.2.5.2 標注

標注一張圖片并保存后,圖片自動進入“待審核”狀態(tài)。我們認為這樣的狀態(tài)切換超出用戶預期,特別是用戶如果還想再檢查標注是否有誤的話還需切換到“待審核”頁面去檢查,這樣會給用戶帶來不便。

“待審核”的圖片仍然可以修改,在管理員發(fā)起驗收前,修改有效。但在驗收時,如果圖片被抽樣到則修改不會保存在數(shù)據(jù)集中,如果圖片未被抽樣到則修改會被保存在數(shù)據(jù)集中。這樣的審核邏輯限定可以減少在審核中產(chǎn)生不必要的混亂,防止審核結果產(chǎn)生誤差。

4.2.5.3 審核

ModelArts將審核稱為“驗收”,驗收分了2個層級:單張圖片的驗收和一批次圖片的驗收。流程是用戶對一批圖片做驗收。審核層級過多,邏輯復雜,導致操作結果可能不符合用戶預期。

標注狀態(tài)混亂:例如管理員分配圖片A給到標注人a,a標注完,管理員使用智能標注同時標注圖片A,如果2個結果都被管理員確認,無論先確認哪種標注,最后只有智能標注的結果有效,而標注人a的標注則無效。

ModelArts提供了審核的儀表盤,儀表盤方便了審核的統(tǒng)計環(huán)節(jié),用可視化的方式展示了任務進度。儀表盤的評判指標包括:驗收進展統(tǒng)計、難例集數(shù)量、標簽數(shù)與含標簽的樣本數(shù)、標注人進展統(tǒng)計等5個,見圖14:

圖14:ModelArts中的標注審核儀表盤

4.3 Supervisely

圖15:Supervisely的標注流程

從圖中可以看到團隊標注一塊的邏輯相比其他產(chǎn)品更加復雜,分析背后的原因:

表面上看很多步驟是為了滿足團隊標注這一需求(特別是外部標注團隊),包括創(chuàng)建團隊、邀請成員、創(chuàng)建標注作業(yè)、標注審核等等,但本質上則是安全把控和質量把控需求:

  1. 安全把控體現(xiàn)在管理員可以分配給團隊成員不同的角色以控制成員的權限,例如標注者(Annotator)只能查看自己任務中的圖片;
  2. 質量把控體現(xiàn)在標注完后還會有管理員審核標注情況以保證標注質量。

因此,這樣復雜的鏈路是一個企業(yè)級標注產(chǎn)品應有的設計,盡管這樣不可避免會造成用戶認知成本的升高,以及用戶體驗的降低。

4.3.1 創(chuàng)建數(shù)據(jù)集

在Supervisely中,用戶可以在一個數(shù)據(jù)集中完成4種標注(視頻標注除外),即分類、檢測、分割、姿態(tài)估計。

與ModelArts不同,Supervisely對數(shù)據(jù)集的定位更像是圖片集。一批圖片只需要導入一次,無論做哪種類型的標注都可以在同一個數(shù)據(jù)集上完成。且后續(xù)做訓練時,可以直接得到一張圖片上的所有標注。

綜上,Supervisely統(tǒng)一的數(shù)據(jù)集模塊,提升了圖片導入,圖片標注以及圖片后處理的效率。但這種方式也有缺點:所有標注類型的操作模式固定,無法針對特定類型(例如Modelarts的圖片分類可同時選擇多張圖片一起標注)做深入優(yōu)化。

4.3.2 數(shù)據(jù)處理

Supervisely的數(shù)據(jù)處理模塊叫做DTL, Data Transformation Language,是一種基于JSON的腳本語言,通過配置DTL腳本可以完成合并數(shù)據(jù)集、標簽映射、圖片增強、格式轉換、圖片去噪、圖片翻轉等46種操作,滿足各類數(shù)據(jù)處理需求。

圖16:Supervisely中為圖片加入高斯模糊

雖然功能相比ModelArts來說更加強大,但是由于僅提供代碼形式操作,僅適合工程師,然而大部分工程師已掌握通過python處理圖片的方式,再額外學習一種語言無疑會增加學習成本。

另一方面這種特殊的語言對效率的提升也存在未知數(shù),例如用戶想進行某種圖片操作,但調研了半天發(fā)現(xiàn)該語言不支持,最后還是要通過python來完成,到頭來降低了效率。

4.3.3 自動標注

Supervisely目前提供了14款預訓練的模型,訓練用數(shù)據(jù)大部分來自COCO(微軟發(fā)布的大型圖像數(shù)據(jù)集),少部分來自PASCAL VOC2012, Cityscapes, ADE20K等其他公開數(shù)據(jù)集。

在自動標注部分,Supervisely的優(yōu)勢在于支持語義分割型的自動標注,加上產(chǎn)品在語義分割型的人工標注上擁有出色的體驗,使這類型任務的標注效率得以大幅提升。

Supervisely的自動標注模塊產(chǎn)品化程度較低,主要體現(xiàn)在以下兩點:

  1. 由于本身不提供模型訓練及推理服務,需要用戶自行準備自動標注所需的硬件環(huán)境,且限制較多(僅支持Nvidia GPU,需要Linux和Cuda驅動)。
  2. 通過JSON格式的配置文件來配置模型推理參數(shù)(見圖17)。相比華為簡單的配置界面,這種形式的靈活性雖然更高,但用戶真的需要那么配置還是指想系統(tǒng)直接給出一個自動標注的結果就好呢?

圖17:Supervisely(左)與華為ModelArts(右)的全自動標注配置對比

4.3.4 人工標注

Supervisely的標注功能十分強大,主要有以下2個特點:

  1. 豐富的標注形式:為了支持各種類型的標注,Supervisely提供了多達9種的標注形式,包括:標簽、點、矩形、折線、多邊形、長方體、像素圖、智能工具 (Smart Tool)、關鍵點等。
  2. 復雜的標簽系統(tǒng):抽象出了對象(Object),類(Class),標簽(Tag)三個實體,在復雜場景中提高了實體之間的復用性。

4.3.4.1 豐富的標注形式

在所有9種標注形式中,智能工具令人印象深刻:

智能工具用于分割類型的標注,用戶只需要2次點擊框選一個物體,通過算法對目標進行描邊即可完成一個初步的分割,再通過標注積極點和消極點完成精確標注,大大降低了分割類任務的標注成本。

圖18:Supervisely中經(jīng)過11次點擊后完成了一個語義分割

4.3.4.2 復雜的標簽系統(tǒng)

為了滿足一個數(shù)據(jù)集涵蓋多種標注類型的需求,Supervisely有一套復雜的標簽系統(tǒng)。我們通過對3款產(chǎn)品的ER圖來具體分析一下這套標簽系統(tǒng)的優(yōu)劣。

在圖19的行人識別場景中,我們會畫一個個行人包圍框。那么我們就需要定義一個標簽叫:行人。

圖19:Supervisely中的行人標注場景

但是每個行人的屬性又有不同,例如行人A戴帽,行人B不戴帽.如果我們需要區(qū)分戴帽的行人和不戴帽的行人,一種做法是創(chuàng)建兩個標簽:戴帽的行人、不戴帽的行人。

但這樣的兩個標簽會喪失關聯(lián)性——如果模型只要檢測行人,還需要對這兩個標簽進行轉換,效率較低。

比較合理的做法是在行人標簽下創(chuàng)建一個屬性——是否戴帽;并抽象出一個概念:對象。

用戶每畫一個包圍框,系統(tǒng)就會創(chuàng)建一個對象(例如:行人A),每個對象會對應一個標簽(例如:行人),然后每個對象可以設置該標簽所具有的屬性值(例如:是否戴帽=是)。

CVAT和ModelArts都是這樣的做法,區(qū)別是CVAT可以直接為圖片加上標簽,用于圖片分類。而ModelArts由于劃分了圖片分類和目標檢測數(shù)據(jù)集,因此標簽僅能在圖片分類型數(shù)據(jù)中被應用在圖片上。

圖20:CVAT(左)和ModelArts(右)的圖片-對象-標簽ER圖對比

而Supervisely則是把標簽和屬性拆分成了兩個實體,再通過對象實體來關聯(lián)標簽和屬性(如下圖):

這種做法可以提高屬性的復用,例如在Supervisely中,用戶只需要定義一遍顏色屬性,之后無論是標注行人(作為一個標簽)還是車輛(作為一個標簽)的顏色都可以應用同一個“顏色”下面的屬性,提高了復雜標注集的準備效率。

但同時這種做法對用戶體驗設計提出了較大挑戰(zhàn),從上手難度來看,Supervisely無疑是三款產(chǎn)品中最難上手的。

圖21:Supervisely的圖片-對象-標簽-對象ER圖

5. 總結與展望

5.1 總結對比

下表為三款標注產(chǎn)品的功能總結:

表3:三款產(chǎn)品的功能總結對比

  1. CVAT: 人工標注功能最為強大,但自動標注功較為薄弱。獨有的追蹤模式免去了對視頻的預處理,對標注效率的提升也十分巨大。CVAT的任務分析功能由于環(huán)境原因未能完全體驗,從介紹來看應該會在這塊發(fā)力。
  2. ModelArts: 作為華為云的一個功能模塊,ModelArts的產(chǎn)品戰(zhàn)略也更加偏向通用性,平臺性。通過與華為OBS系統(tǒng)的結合給其帶來了強大的數(shù)據(jù)處理能力也強化了其平臺的可拓展性和兼容性。同時自動標注和半自動標注作為ModelArts的優(yōu)勢是CVAT和Supervisely所不具備的,也從側面體現(xiàn)了ModelArts依靠華為云所帶來的強大運算力和算法優(yōu)勢??傮w來說ModelArts是一個均衡的選手,具有優(yōu)秀的業(yè)務拓展能力。
  3. Supervisely:整體功能最為完善,適合企業(yè)級應用。對語義分割類任務支持較好,但部分功能(如數(shù)據(jù)處理,自動標注)需要通過代碼方式完成,效率提升有限。

當然我們也發(fā)現(xiàn)有一些功能在3款產(chǎn)品中都沒有看到,例如水印功能,會適用于保密要求的場景,如監(jiān)獄,銀行等。

5.2 標注工具的未來趨勢

5.2.1 人工標注這個環(huán)節(jié)不會消失

這其實是個悖論:假設我需要訓練一個CV模型,訓練模型需要準備標注好的圖片,如果圖片標注只需要自動標注而無需人工干預,那意味著模型已經(jīng)能夠準確預測出結果.

如果能做到準確預測,說明已經(jīng)這個模型已經(jīng)被訓練完全,不再需要訓練,這就和假設相悖了。

5.2.2 自動標注的價值主要體現(xiàn)在單個標注需要花費較長時間的標注類型中,如分割和姿態(tài)估計

既然人工標注一定會存在,那么自動標注存在意義就是提高人工標注效率,而非代替人工標注。在分類和檢測任務這類單次標注耗時較短的場景中,自動標注的價值較小。

假設從0開始完成一個標注花費5秒鐘,而已經(jīng)進行了自動標注的情況下,修改一個標注需要花2秒,標注效率提升60%(假設跑自動標注模型是在下班之后,不影響人工標注時間)。

但我們看到可能有些圖片上模型的標注結果偏差太大,這樣用戶還需要話1秒來刪掉自動標注的結果,反而這次標注的效率降低了20%(ie., 1/5),如此高的負收益使得整體效率算下來沒有提高很多。

5.2.3 人工標注的主要內容將從創(chuàng)建標注轉變?yōu)樾薷臉俗?/strong>

雖然人工標注環(huán)節(jié)不會消失,但顯然自動標注將會在標注環(huán)節(jié)起到越來越重要的作用,今后常見的標注流程將會從創(chuàng)建一個新標注,轉變?yōu)樾薷囊粋€由模型創(chuàng)建的標注。

因此,優(yōu)化修改標注時的用戶體驗將會是一個提高標注效率的突破點。

 

作者:薛康杰,AIoT產(chǎn)品經(jīng)理,AIops, CV和IoT等平臺類產(chǎn)品;江海龍,AI產(chǎn)品實習生,主攻CV產(chǎn)品設計。

本文由 @DarrickBM 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協(xié)議

更多精彩內容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 干貨滿滿!收獲巨大!作者大大賽高~

    來自四川 回復
  2. 有收獲

    來自上海 回復
  3. 夠干!!

    來自上海 回復
  4. 干貨滿滿 提升巨大

    來自上海 回復
  5. 干貨滿滿

    來自浙江 回復