內(nèi)容審核平臺設(shè)計思路分享
筆者所在的公司,去年重構(gòu)了內(nèi)容審核系統(tǒng)。筆者從0到1參與搭建了該審核系統(tǒng),借此機會,跟大家分享一下內(nèi)容審核系統(tǒng)的流程及業(yè)務(wù)模式,希望能對你有所幫助。
一、為何要搭建內(nèi)容審核系統(tǒng)
筆者所在的公司,是一家金融行業(yè)公司,受證監(jiān)會等監(jiān)管機構(gòu)嚴格管控。公司每天都會開直播,以及發(fā)布大量的內(nèi)容到自建app里,為了保證用戶以及公司內(nèi)部人員發(fā)布的內(nèi)容合法合規(guī),阻斷內(nèi)容風(fēng)險,對此,我們急需建立內(nèi)容審核系統(tǒng)。
說完搭建的背景,再來聊一聊,何為內(nèi)容審核?
內(nèi)容審核,說簡單一點就是我們在社交等平臺上傳,發(fā)布文字,圖片,音視頻,文件等內(nèi)容,平臺會對我們發(fā)布的內(nèi)容進行審核過濾,從而保證平臺的平臺產(chǎn)生的內(nèi)容都是高質(zhì)量且符合規(guī)定的。
例如,我們在抖音平臺發(fā)布視頻內(nèi)容,抖音平臺對我們發(fā)布的內(nèi)容進行審核。一旦發(fā)現(xiàn)發(fā)布的內(nèi)容違法或違規(guī),平臺就會下架我們的內(nèi)容,或?qū)ξ覀兊馁~號進行封禁管理。
講到這,可能有朋友留意到,不用的平臺審核方式會有差距。一般審核方式有2種,分別是先審后發(fā)和先發(fā)后審,我們公司由于行業(yè)性質(zhì)的限制,基本都是采用的先審后發(fā)的方式,大家可以根據(jù)行業(yè)要求,自行選擇合適的審核方式。
二、審核方式
先審后發(fā):用戶提交內(nèi)容后,經(jīng)人工/機器審核通過后,其他人才可見。
先發(fā)后審:用戶提交內(nèi)容后其他人可見,后再進行人工/機器審核,人工/機器審核結(jié)果會影響內(nèi)容是否繼續(xù)可見。
我們公司的審核流程一般是這樣的,大家可以參考一下。
對于這個審核方式,我們?yōu)榱藚^(qū)分不同的應(yīng)用,我們是在后臺做了配置,支持選擇先審后發(fā)還是先發(fā)后審。
當該應(yīng)用配置的審核方式是先發(fā)后審時,我們是默認用戶一發(fā)言,即所有人可見,后續(xù)人工可進行二次復(fù)審,復(fù)審的結(jié)果會影響初審結(jié)果。一旦復(fù)審不通過,則內(nèi)容更改為僅本人可見。
如果配置的先審后發(fā),我們會先判斷該應(yīng)用是否有配置阿里云第三方審核,若沒有配置阿里云審核,則進入人工審核階段;若有配置阿里云審核,我們根據(jù)客戶發(fā)言內(nèi)容是否符合阿里云審核模板要求,按照規(guī)則和算法執(zhí)行機器審核。這里需要注意的是,對于不同的應(yīng)用內(nèi)容,我們還采用了機器審核是否作為絕對值的選擇。
一般像一些直播間發(fā)言,我們會開啟阿里云審核作為絕對值,一旦發(fā)言內(nèi)容符合要求,則作為機審?fù)ㄟ^,機審?fù)ㄟ^后所有用戶可見該內(nèi)容。若配置的是參考值,則該機審狀態(tài)僅作為參考值,最終以人工審核結(jié)果為主。
三、機審&人工審核
上文講完了常見的審核方式,接下來我們詳細拆解一下機器審核和人工審核。在講具體的審核類型之前,我們先跟大家介紹一下,一般常見的審核消息類型分別是:文本、圖片、音頻、視頻、文件。針對這幾種類型,我們都接入了機器審核和人工審核。
1. 機器審核
1)文本
針對文本消息,一般主要采用關(guān)鍵詞匹配和NLP(自然語言處理)技術(shù)這2種方式。
① 關(guān)鍵詞匹配:關(guān)鍵詞我們一般分為白名單詞、黑名單詞。
- 白名單,是指用戶提交的內(nèi)容與白名單詞或白名單語句完全匹配時,則默認機審?fù)ㄟ^,支持人工對機審結(jié)果進行復(fù)核。
- 黑名單詞,也可理解為禁止關(guān)鍵詞,一般是一些明確的宗教禁止用語、淫穢色情等語句,當用戶評論內(nèi)容帶有該詞時,會自動將該次高亮標記出來,同時判定為機審不通過,需人工進行審核決定該發(fā)言內(nèi)容是否通過。
② NLP(自然語言處理),即通過語法分析、情感分析、詞向量分析,對發(fā)言內(nèi)容進行識別和歸類,當分類結(jié)果與平臺的素材庫符合時,則返回違規(guī)內(nèi)容。例如,暗示收益、廣告識別等。
2)圖片審核
圖片審核一般采用OCR技術(shù),將圖片拆解成多個模塊,提取圖片中存在的問題,例如圖片主體、圖片文字、聯(lián)系方式、廣告信息(二維碼、水印等),在根據(jù)各片段內(nèi)容匯總分類,返回審核結(jié)果。
3)音頻審核
音頻審核,我們公司目前采用的是科大訊飛的語音轉(zhuǎn)寫服務(wù),將音頻內(nèi)容降噪斷句,轉(zhuǎn)寫成文字,再通過對文字的審核返回音頻審核結(jié)果。
4)視頻審核
視頻審核可理解為音頻審核+圖片審核。即對視頻進行抽幀,并以幀為單位將視頻中的文字和圖片分別進行識別,以此來判定視頻內(nèi)容是否合規(guī)。
5)文件審核
目前我司的文件審核技術(shù)比較簡單,即對文件里的圖文內(nèi)容進行解析提取,以此來識別是否存在敏感、色情、違禁等風(fēng)險內(nèi)容。
2. 人工審核
人工審核即專門安排人員在審核后臺操作審核,審核人員根據(jù)公司的規(guī)章制度以及自己的經(jīng)驗,判斷該內(nèi)容(文字、圖片、音頻等)是否存在不合規(guī)的情況。人工審核這個工作量是非常大,一般涉及到審核模塊的,每個公司都會專門設(shè)置審核組用于審核工作。為了提高審核人員的效率,一鍵建議做倍速播放,批量審核等功能。
四、審核內(nèi)容的展示
審核內(nèi)容展示與否,一般受咱們上文所說的先審后發(fā)或先發(fā)后審的審核方式影響,咱們這里以先審后發(fā)為例進行說明。
- 未審核:審核人員在進行審核操作時,先看到該內(nèi)容的審核狀態(tài),未審核的內(nèi)容需要審核人員進行操作,審核人員未通過之前,對其他用戶屏蔽該內(nèi)容,近發(fā)布者本人可見,同時該作者的主頁相關(guān)的分享等功能,也需同樣屏蔽該內(nèi)容,避免不合理內(nèi)容的傳播。
- 審核通過:審核通過之后,即對所有用戶放開內(nèi)容,所有用戶可見該內(nèi)容。但初審的審核結(jié)果會受復(fù)審結(jié)果的影響,一旦審核人員復(fù)核發(fā)現(xiàn)該內(nèi)容存在疑似違規(guī)時,可進行復(fù)核拒絕。被復(fù)核拒絕的內(nèi)容,則進行屏蔽,近限發(fā)布者本人可見。
- 審核拒絕:審核拒絕,則僅本人可見該內(nèi)容。同時,在用戶端,我們需明顯提示被審核拒絕的原因,且給到用戶申訴或重新發(fā)起審核的操作。
- 拉黑用戶:拉黑是針對用戶而言的,當審核人員發(fā)現(xiàn)該用戶經(jīng)常在社區(qū)或內(nèi)容平臺發(fā)布各種違法不實,涉情涉政等內(nèi)容時,可拉黑用戶,用戶被拉黑后,則不可在平臺發(fā)表內(nèi)容。同樣,我們需提醒用戶,是因何原因被平臺拉黑禁用的,給到用戶申訴的空間。
五、總結(jié)
以上內(nèi)容,是筆者根據(jù)本人經(jīng)驗總結(jié)的審核平臺的審核方式,審核流程。合規(guī)審核對公司是一個非常重要的環(huán)節(jié),能有效方式避免違規(guī)內(nèi)容的傳播,作為審核平臺,我們需要不斷完善審核的機制,提供審核人員效率。
本文由 @一個摸魚的職場人 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
抄襲的易盾的官網(wǎng)