Facebook、YouTube都會遇到的內(nèi)容審核難題,今日頭條是怎么解決的?
本文作者結(jié)合Facebook和YouTube的案例,為我們介紹了今日頭條的內(nèi)容審核機(jī)制,以及未來相關(guān)技術(shù)的發(fā)展對審核的影響。
時間來到2019年年中,F(xiàn)acebook全球月活已經(jīng)突破22億,Youtube是19億,微信也超過10億,可以說互聯(lián)網(wǎng)已經(jīng)覆蓋了全球大部分人口,而隨著使用人口同步激增的還有用戶時長,以及內(nèi)容的生產(chǎn)消費(fèi)量級也呈指數(shù)級井噴,這海量的內(nèi)容無論對大平臺還是小公司都形成了巨大的管理難度和審核挑戰(zhàn)。
2018年Facebook 上每天上傳的照片超過3億張,每分鐘發(fā)布51萬條評論,30萬條新狀態(tài);每天在Instagram上的照片和視頻分享量為9500萬次;而在微信朋友圈,每天有10億張圖片被上傳。
截止 2018 年,每天約有2.5萬億字節(jié)的數(shù)據(jù)被創(chuàng)建,過去兩年里生成的數(shù)據(jù)占到了全球總數(shù)據(jù)的90%,而預(yù)計(jì)到 2022年,全球互聯(lián)網(wǎng)流量講達(dá)到每秒 7.2 PB。
在內(nèi)容數(shù)量井噴的同時,內(nèi)容的形式也在不斷變化。除了傳統(tǒng)的圖文類內(nèi)容,音頻、長視頻和短視頻,以及直播的比例在不斷增加,這對于那些那些既追求實(shí)時性(發(fā)布速度和用戶體驗(yàn))、又追求不出問題(舉報(bào)率和負(fù)面事件)的內(nèi)容平臺審核管理,提出了巨大而嚴(yán)峻的挑戰(zhàn)。
包括Facebook和Youtube在內(nèi)的國際頂級UGC平臺,如今在這類老生常談的問題上依然十分吃力,尤其是發(fā)達(dá)國家最為在意的低齡內(nèi)容、種族歧視和跨國文化/多語言等問題,它倆其實(shí)一直未能交出一份讓各方滿意的答卷。
而國內(nèi)今年比較知名的互聯(lián)網(wǎng)內(nèi)容社區(qū)類產(chǎn)品里,下架甚至關(guān)停的已經(jīng)不下于10余款,盡管它們各自都有各自的問題,比如色情內(nèi)容、微商、內(nèi)容涉政等等,但歸根結(jié)底,這還是用戶激增帶來的日益增長的內(nèi)容生產(chǎn)量和無法跟上的審核措施和效率之間的矛盾。
一、Facebook:用AI和算力應(yīng)對海量內(nèi)容
Facebook在整個2018年遭遇過巨大的信任危機(jī),除了數(shù)據(jù)接口和用戶隱私的處理不當(dāng),平臺上的內(nèi)容審核政策也受到嚴(yán)重質(zhì)疑。
但其實(shí),它背后的核心問題是,這家公司本就是世界互聯(lián)網(wǎng)內(nèi)容吞吐量最大的平臺。
而這些內(nèi)容并不只在Facebook app發(fā)布和消費(fèi),還在這家公司旗下月活15億的Whatsapp 、13億的Facebook Messenger和10億的Instagram上面?zhèn)鞑ズ屯茝V,所以這家公司承受的內(nèi)容審核壓力才會如此之大。
那么Facebook拿出的應(yīng)對措施是什么?
在去年那場著名的美國國會聽證會上,扎克伯格在一小時內(nèi)提及AI三十余次,堅(jiān)稱AI是平臺內(nèi)容審核的答案,他的原話是:“未來的五到十年,AI將成為世界上最大的社交網(wǎng)絡(luò)的捍衛(wèi)者,在全球范圍內(nèi)解決其最緊迫的問題,同時也幫助公司回答有關(guān)審核、公平和人類無節(jié)制等棘手問題。”
小扎自稱,F(xiàn)acebook上99%有關(guān)ISIS和基地組織的內(nèi)容,都在人們看到之前被人工智能系統(tǒng)標(biāo)記,并且被刪掉。
但AI想要和內(nèi)容審核結(jié)合并落地,必須拿出一些具體的手段來。Facebook現(xiàn)在的審核分為文字審核、圖片和視頻審核,以及大量的人工配合。
文字審核方面,F(xiàn)acebook推出了DeepText(深度文本)引擎,利用深層神經(jīng)網(wǎng)絡(luò)架構(gòu)去理解那些帖子的內(nèi)容,據(jù)稱它能夠以近乎人類的精確度、每秒同時理解數(shù)千篇文章的文本內(nèi)容。
相比國內(nèi)的各大平臺的審核體系來說,它的優(yōu)勢除了速度更快,另一方面是Facebook作為一個全球化的社區(qū),DeepText能夠?qū)徍顺^20多種語言的文字。
DeepText甚至能實(shí)時通過用戶發(fā)送的內(nèi)容分析用戶的想法,通過對意圖、情緒和實(shí)體(人物/地點(diǎn)/事件)的提取,結(jié)合文本、圖片,并自動移除垃圾信息的干擾,這一能力在Facebook Messenger上已經(jīng)被測試驗(yàn)證。當(dāng)然這個AI技術(shù)也并不只被用來審核一些可能發(fā)生的危險(xiǎn)(針對青少年的犯罪),它還可以改進(jìn)用戶體驗(yàn),幫助廣告商進(jìn)行有目標(biāo)的宣傳活動。
Facebook為這些實(shí)時而海量的信息編目錄、并讓其被搜索是件很困難的事情,所以他們才轉(zhuǎn)向了人工智能。
同時,News Feed做為短小而高頻的內(nèi)容素材,恰好就是眾多開展深度學(xué)習(xí)活動的有效場所之一,因?yàn)槊總€Feed的背后,包含了人們希望看到哪些與他們相關(guān)的內(nèi)容。
而Facebook的圖片和視頻審核系統(tǒng)名為Rosetta,利用光學(xué)字符識別系統(tǒng)來處理圖片和視頻內(nèi)容,每天可以實(shí)時地從超過10億張圖像和視頻幀中提取信息并識別多種語言背后的含義。
另外,F(xiàn)acebook在上周剛剛開源了它們在圖像識別及視覺領(lǐng)域的最新模型:ResNext101。這是一個在Instagram的圖片標(biāo)簽上預(yù)訓(xùn)練,并在ImageNet上微調(diào)的模型。
ImageNet是由知名人工智能專家李飛飛教授團(tuán)隊(duì)于2009年發(fā)布,包含了超過兩萬類物體共計(jì)一千四百多萬張圖片,后來的很多計(jì)算機(jī)視覺任務(wù)模型都以此為基礎(chǔ)進(jìn)行訓(xùn)練。
而ResNext101更上一層樓,利用了Instagram上的35億張圖片(比 ImageNet的1400萬多了200多倍)進(jìn)行了預(yù)訓(xùn)練,并以人們?yōu)閳D片添加的話題標(biāo)簽(#hashtag)為類別,研發(fā)出來的有著超強(qiáng)特征提取能力的圖像識別模型。
在這兩大系統(tǒng)的背后,其實(shí)是Facebook的人工智能研究院FAIR(Facebook Artificial Intelligence Research)在發(fā)揮功勞。
比如其物體識別技術(shù)(Object recognition),以含有數(shù)十億參數(shù)和數(shù)百萬案例訓(xùn)練的神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),給了挑戰(zhàn)最大的圖片和視頻審核有力的支持。
另外它們也使用自我監(jiān)督學(xué)習(xí)(SSL)探索大量數(shù)據(jù),讓機(jī)器可以通過分析未標(biāo)記的圖像、視頻或音頻來學(xué)習(xí)世界的抽象表達(dá),這也是 FAIR 將 AI 能力規(guī)?;呐χ弧?/p>
FAIR 還在研究用戶頭像的面部識別、上傳照片的環(huán)境識別等,它承擔(dān) Facebook 所有 AI 相關(guān)的基礎(chǔ)研究、應(yīng)用研究和技術(shù)開發(fā)。
比如它推出的剛剛獲得了國際視覺模型挑戰(zhàn)賽冠軍的Mask R-CNN ,這個系統(tǒng)可以將計(jì)算機(jī)視覺世界的物體檢測與語義分割結(jié)合到了一起,不但可以檢測劣質(zhì)視頻內(nèi)容,甚至可以幫助視障人士自動替代文字。
不過,你可千萬別以為世界上最大的社交網(wǎng)絡(luò)和內(nèi)容平臺,光靠AI和審核系統(tǒng)就搞定了一切。截止目前,F(xiàn)acebook聘請了超過2萬人(是的你沒看錯),來輔助內(nèi)容篩查,并配合監(jiān)測和刪除爭議內(nèi)容。
二、YouTube:版權(quán)審核系統(tǒng)的升級之路
YouTube的內(nèi)容審核系統(tǒng)名為Content ID,會監(jiān)測并直接刪除涉及色情、低俗和暴力等違規(guī)內(nèi)容。不過,這個系統(tǒng)的誕生一開始僅僅是為了解決YouTube上內(nèi)容的版權(quán)問題。
早年間YouTube以草根內(nèi)容起家,后來出現(xiàn)了大量的搬運(yùn)號,主要以盜版電視臺的精品內(nèi)容為主。雖然平臺的數(shù)據(jù)因此飆漲,但也因此陷入了曠日持久的官司里。
2007 年至 2009 年,包括維亞康姆(美國第三大傳媒公司),Mediaset (意大利的傳媒集團(tuán))和英超聯(lián)賽(英國最大足球聯(lián)賽)等在內(nèi)的組織對 YouTube 提起訴訟,聲稱它在用戶上傳侵權(quán)內(nèi)容方面毫無作為。
維亞康姆要求其作出10 億美元賠償金,他們聲稱已經(jīng)在 YouTube上 發(fā)現(xiàn)超過 15 萬條版權(quán)內(nèi)容片段,累計(jì)播放量超過 15 億次。在耗時耗力的多年訴訟和公關(guān)戰(zhàn)之后,直到2014 年,雙方才最終協(xié)商解決了爭議,但具體條件并未公開。
所以當(dāng)年在被Google收購之后,YouTube從2007年開始就逐步投入巨資建立起Content ID版權(quán)系統(tǒng),慢慢幫助版權(quán)所有者能夠識別平臺上的侵權(quán)行為,并讓版權(quán)所有者在平臺上能夠獲直接獲得收入。截止 2018 年,谷歌為該技術(shù)研發(fā)共計(jì)投入超 1 億美元。
后來,Content ID的內(nèi)容監(jiān)測能力在不斷改進(jìn)后,比如使用哈希算法標(biāo)記有風(fēng)險(xiǎn)視頻,阻?它們被?次上傳,也獲得了顯著的成效。以2017年Q4為例,平臺刪除了800萬條“令人反感”的視頻,有670萬條都由監(jiān)測軟件自動標(biāo)記。大約75%被標(biāo)記的視頻,在被用戶觀看之前就被下架。
人性化的是,YouTube 于 2014 年 9 ?在前端增加了受限模式(Restricted Mode),用以過濾?情暴?內(nèi)容,但是?戶可以自己選擇開啟還是關(guān)閉。依據(jù)?戶舉報(bào)以及其它識別規(guī)則,受限模式可以直接為用戶過濾?部分不當(dāng)內(nèi)容。
當(dāng)然,YouTube的這些內(nèi)容審核能力有賴于谷歌的深度學(xué)習(xí)技術(shù)Google Brain作為支持。Google Brian擁有一個收集用戶信息(如觀看歷史和用戶反饋)的神經(jīng)網(wǎng)絡(luò), 以及一個用于對所顯示部分視頻進(jìn)行排列的神經(jīng)網(wǎng)絡(luò),通過引入機(jī)器學(xué)習(xí)工具,自動標(biāo)記暴力、色情和低俗等極端視頻,并將違規(guī)內(nèi)容報(bào)告給人工審核員進(jìn)行驗(yàn)證。
和Facebook類似的是,就算有了Google多方面的技術(shù)支持(包括資金、人才、算法、云和服務(wù)器等),YouTube的AI標(biāo)記、內(nèi)容審核與識別技術(shù)也并不完美。2018的時候YouTube CEO蘇珊·沃西基承諾,未來會雇傭至少一萬名人工審核員,以補(bǔ)足算法的局限。
因?yàn)楦缰坝鸵恍V告公司發(fā)現(xiàn),自己的廣告被推薦到了緊挨著極端主義分子上傳的視頻內(nèi)容的旁邊,造成了許多惡劣的影響,多方政府和廣告主們聯(lián)名宣布將因此撤下自己在YouTube賬號上的內(nèi)容。
不過,Google對 YouTube 的幫助也不會僅僅限于內(nèi)容審核,Google Brain的技術(shù)已經(jīng)被應(yīng)用在安卓系統(tǒng)的語音識別、Google+ 的圖片搜索、以及 YouTube 的智能推薦。
所以,現(xiàn)在的YouTube早已從一個視頻UGC社區(qū),到慢慢成為擁有海量內(nèi)容、搜索驅(qū)動的視頻綜合網(wǎng)站,到擁有了視頻推送能力的應(yīng)用。如今,占據(jù)用戶在 YouTube 上觀看視頻總時長 70%的內(nèi)容 ,是由推薦算法引擎驅(qū)動的。
三、頭條:審核系統(tǒng)對外開放會帶來哪些變化?
如今的今日頭條已經(jīng)擁有海量的用戶和多種形式的UGC內(nèi)容,盡管體量上還頗有不如,但在內(nèi)容審核方面遭遇的挑戰(zhàn)同臉書和Youtube已經(jīng)十分類似。
頭條在這方面的一個創(chuàng)舉是,經(jīng)過多年的技術(shù)儲備和經(jīng)驗(yàn)積累后,它開放了內(nèi)部反低俗系統(tǒng)的一個簡化版本“靈犬反低俗助手”,希望普通創(chuàng)作者、社會公眾更了解和關(guān)注反低俗。截至2019年6月,靈犬反低俗助手的外部使用人次已經(jīng)超過了300萬。
用戶只需要在靈犬的小程序內(nèi)輸入一段文字或文章鏈接,靈犬就可以幫助其檢測內(nèi)容健康指數(shù),返回一個鑒定結(jié)果。對于用戶輸入的內(nèi)容(文字或者圖片),“靈犬”會先進(jìn)行提取、分詞和語義識別,然后根據(jù)相關(guān)規(guī)則,輸出對應(yīng)的分?jǐn)?shù)、評級和結(jié)論。
在文本識別領(lǐng)域,頭條同時應(yīng)用了“Bert”和半監(jiān)督技術(shù),訓(xùn)練數(shù)據(jù)集包含920萬個樣本,準(zhǔn)確率提升至91%。在圖片識別領(lǐng)域,“靈犬”采用深度學(xué)習(xí)作為解決方案,在數(shù)據(jù)、模型、計(jì)算力等方面均做了針對性優(yōu)化。
最近新版的靈犬3.0發(fā)布,重點(diǎn)拓展了反低俗識別類型和模型能力,現(xiàn)已覆蓋圖片識別和文本識別,后續(xù),靈犬還將支持難度最大的語音識別和視頻識別。
不過,今日頭條的人工智能實(shí)驗(yàn)室王長虎也提到,AI暫時還是有缺陷的,今日頭條現(xiàn)在有將近萬余人的審核團(tuán)隊(duì)在輔助AI的審核。
比如對于低俗內(nèi)容,它的定義本來就相對籠統(tǒng)難以精確,這項(xiàng)工作即使對人來說也不容易,交給機(jī)器做更難實(shí)現(xiàn)。
比如世界名畫中常常出現(xiàn)裸體女子,如果完全交由機(jī)器判斷,機(jī)器通過識別畫中人物的皮膚裸露面積,就會認(rèn)為這幅畫是色情低俗的;而某些拍攝芭蕾舞的圖片,以機(jī)器的視角來看,其實(shí)類似于裙底偷拍。
Facebook 曾經(jīng)因?yàn)椤奥懵丁保`刪了一張著名的越戰(zhàn)新聞?wù)掌?,?nèi)容是一位小女孩遭到汽油彈炸傷、渾身赤裸奔跑,事件發(fā)生后引起了美國新聞界的巨大爭議。
但是,在當(dāng)前內(nèi)容創(chuàng)作和消費(fèi)規(guī)模海量增長的趨勢下,如果依然純靠人工去解決所有問題,那么必然效率低的同時還無法滿足用戶需求。
所以,AI+人工的內(nèi)容審核方式在相當(dāng)長的時間內(nèi)都會是一種常規(guī)手段,這也是Facebook和YouTube等國際頭部內(nèi)容平臺采用的處理方式。
四、結(jié)語
未來,隨著用戶和內(nèi)容數(shù)量的繼續(xù)增長,內(nèi)容審核的挑戰(zhàn)會越來越嚴(yán)峻,政策相關(guān)的監(jiān)管也會越來越嚴(yán)格,圖文的內(nèi)容識別問題雖然逐步被克服,語音和視頻的內(nèi)容理解更加任重道遠(yuǎn),人工和機(jī)器檢測都更為不易,尤其是當(dāng)需要聯(lián)系具體的用戶使用場景和政治社會語境時,難度會成倍提高。
比如鄧麗君的歌曲,早年被認(rèn)為是低俗情色歌曲,如今早已被普遍接受并傳唱大街小巷;比如內(nèi)衣和內(nèi)衣模特出現(xiàn)在購物平臺上,會被默認(rèn)為正常,但如果頻繁出現(xiàn)在新聞資訊平臺上,就可能被認(rèn)為有低俗嫌疑;而正常的熱舞內(nèi)容,提供給成年人看,符合常規(guī)標(biāo)準(zhǔn),但如果開啟了青少年模式,這些內(nèi)容就不應(yīng)該出現(xiàn)。
這就是由于時代背景、使用場景、用戶人群不同而導(dǎo)致審核標(biāo)準(zhǔn)可能大幅變動的案例。
海量數(shù)據(jù)的產(chǎn)生、不斷變化的標(biāo)準(zhǔn),這都要求大公司在這方面的投入必須越來越多,而這本質(zhì)上就成了一場資本豐厚的對手之間的軍備競賽。
今年卡耐基梅隆大學(xué)(CMU)和 Google 合作研發(fā)的 XLNet 模型,在Bert模型的基礎(chǔ)上更進(jìn)一步,在足足 512 塊 TPU 上訓(xùn)練了兩天半時間。以 Google Cloud的計(jì)價標(biāo)準(zhǔn),只是訓(xùn)練一次XLNet 模型就需要人民幣一百六十多萬。
若再考慮上整個模型研發(fā)過程中的不斷試錯和調(diào)參驗(yàn)證等過程,XLNet的開銷簡直天文數(shù)字。未來中小團(tuán)隊(duì)將難以競爭,這就是一個巨頭獨(dú)霸的競技場。
不過好在,隨著人類進(jìn)入社會的數(shù)字化程度越來越高,新一代的移動互聯(lián)網(wǎng)原住民們在享受技術(shù)帶來的便利的同時,也對技術(shù)可能的負(fù)面在耐受度和適應(yīng)性上不斷提高。
畢竟自工業(yè)革命之后起,就有無數(shù)人曾對技術(shù)會帶給社會的沖擊抱有極端負(fù)面和悲觀的預(yù)期,認(rèn)為技術(shù)可能會加速崩壞我們數(shù)萬年來自然形成的人類社會結(jié)構(gòu),但是哪一次,人類社會不又是順利轉(zhuǎn)型成功、發(fā)展出與技術(shù)相匹配的職業(yè)和生活模式、并且越走越好了呢?
#專欄作家#
柳胖胖,微信公眾號:一個胖子的世界。11年起有過兩年O2O創(chuàng)業(yè)實(shí)戰(zhàn)經(jīng)驗(yàn),現(xiàn)在互聯(lián)網(wǎng)金融社區(qū)做產(chǎn)品,長期對互聯(lián)網(wǎng)產(chǎn)品保持觀察,對商業(yè)模式和實(shí)戰(zhàn)案例有自己獨(dú)到的見解。
本文由 @柳胖胖 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
還行
而國內(nèi)今年比較知名的互聯(lián)網(wǎng)內(nèi)容社區(qū)類產(chǎn)品里,下架甚至關(guān)停的已經(jīng)不下于0余款 這里應(yīng)該是個小錯誤吧
感覺是0之前少了一個數(shù)字吧