你拍的短視頻竟被它“看懂”了?無(wú)理解,不AI

0 評(píng)論 5443 瀏覽 13 收藏 10 分鐘

或許你還以為視頻僅能依靠用戶(hù)數(shù)據(jù)間接地進(jìn)行理解,其實(shí)不然,“它”也可以……

每當(dāng)你觀看短視頻的精彩內(nèi)容時(shí),可曾想過(guò),這或許是你這一天距離AI最近的時(shí)刻?

也許你是互聯(lián)網(wǎng)圈的業(yè)內(nèi)人士或者互聯(lián)網(wǎng)技術(shù)的愛(ài)好者,你會(huì)說(shuō):“知道啊,不就是智能推薦、分發(fā)系統(tǒng)嗎?很多產(chǎn)品都有啊?!比欢?,AI對(duì)于短視頻的應(yīng)用僅限于此嗎?

Of course not!事實(shí)上,從視頻的錄制,到視頻的編碼,從視頻內(nèi)容的理解,到用戶(hù)畫(huà)像的建模,從審核過(guò)濾,到分發(fā)推薦,AI幾乎走完了每一個(gè)環(huán)節(jié)。其中,最讓人意想不到的是,在視頻理解環(huán)節(jié),AI是用“看”的!

那么下面就為大家科普一下,共同揭開(kāi)快手AI的神秘面紗!

“視頻一直被視為計(jì)算機(jī)視覺(jué)里的暗物質(zhì)?!惫雀柙剖紫茖W(xué)家、ImageNet發(fā)起人李飛飛曾這樣描述,視頻理解之難可想而知。為了更好的理解視頻,我們通常會(huì)為它打好標(biāo)簽,下面是幾種常見(jiàn)的方法:

  1. 發(fā)布者或?qū)徍巳藛T人工添加標(biāo)簽:發(fā)布者添加標(biāo)簽不需要依賴(lài)算法技術(shù),但容易出現(xiàn)未標(biāo)注、弱標(biāo)注和誤標(biāo)注的情況。而審核人員逐個(gè)標(biāo)注視頻,對(duì)于每日產(chǎn)生1500萬(wàn)條視頻的快手來(lái)說(shuō),將會(huì)帶來(lái)巨大的人力成本。
  2. 將視頻看作黑盒,直接依靠用戶(hù)行為數(shù)據(jù)進(jìn)行推薦:比如,與你有著相似用戶(hù)畫(huà)像的人中,大多數(shù)都點(diǎn)贊了的某個(gè)視頻,就把它直接推薦給你。這種方法不需依靠計(jì)算機(jī)視覺(jué)這種高難度技術(shù),且能取得不錯(cuò)的效果,目前非常主流。
  3. 用戶(hù)行為數(shù)據(jù)與視頻內(nèi)容理解相結(jié)合:也是快手正在使用的,更考驗(yàn)技術(shù)人員對(duì)“多模態(tài)”技術(shù)的理解(視頻的多種模態(tài)可以理解為視覺(jué)、聽(tīng)覺(jué)、文本的綜合信息形式),再加上用戶(hù)行為數(shù)據(jù)也是另外一種模態(tài)的數(shù)據(jù),所以理解短視頻成了一種極為復(fù)雜的多模態(tài)問(wèn)題。

那么,如此高深的視頻理解技術(shù)是如何發(fā)展出來(lái)的呢?又將走向何方呢?且聽(tīng)我慢慢道來(lái)。

一切的一切,從認(rèn)識(shí)事物開(kāi)始——最初的它

為了讓AI識(shí)別物體,科學(xué)家們可謂是煞費(fèi)苦心,甚至為此建立了世界上最大的圖像數(shù)據(jù)庫(kù)——ImageNet,里面的每張圖片都人為打好了標(biāo)簽,來(lái)讓AI進(jìn)行視覺(jué)訓(xùn)練。

在去年的ImageNet視覺(jué)識(shí)別挑戰(zhàn)賽中,有八成參賽隊(duì)伍的圖像識(shí)別準(zhǔn)確率超過(guò)95%。

別小看了這個(gè)基礎(chǔ)的物體識(shí)別,實(shí)際上它大大豐富了短視頻的趣味性!

其中,正是因?yàn)橛辛巳四橁P(guān)鍵點(diǎn)的識(shí)別,才有了“快手時(shí)光機(jī)”等眾多魔法表情;正是因?yàn)橛辛酥w識(shí)別技術(shù),才有了“跳舞機(jī)”有趣的魔法表情游戲;也正是因?yàn)橛辛藢?duì)平面、邊角的識(shí)別,才有了逼真的AR玩法。

今年烏鎮(zhèn)的世界互聯(lián)網(wǎng)大會(huì)上,快手科技的展臺(tái)被圍得水泄不通,人們都想體驗(yàn)一把“找到世界上另一個(gè)自己”的黑科技。

如圖,體驗(yàn)者走到屏幕前,點(diǎn)擊拍攝按鈕,右邊的屏幕上就會(huì)出現(xiàn)了一個(gè)與自己長(zhǎng)相非常相似的人!并播放這段用戶(hù)公開(kāi)視頻。

其實(shí),這些數(shù)據(jù)是事先提取出來(lái)的,在用戶(hù)將視頻上傳到服務(wù)器后,AI就會(huì)根據(jù)視頻的內(nèi)容進(jìn)行理解,提取一些基本信息,包括面部的三維特征,另外,AI還會(huì)進(jìn)一步分析,進(jìn)而得出人臉的年齡、性別、甚至是顏值。

知曉你的憂,洞悉你的愁——現(xiàn)在的它

前面提到了AI對(duì)圖像的物體識(shí)別有了巨大突破,那么一組圖像和一個(gè)視頻有什么差別嗎?視頻不就是由圖片組成的嗎?

其實(shí)兩者之間是有區(qū)別的。

首先,視頻的圖像間是有時(shí)間順序的,比如,運(yùn)動(dòng)的物體的通常具有特殊語(yǔ)義,把一組舞蹈動(dòng)作圖片分開(kāi)來(lái)看,就很難知道這是什么舞,而識(shí)別物體的移動(dòng)、變化對(duì)AI來(lái)講不是一件易事。

再者,正如前面提到的,視頻是多模態(tài)的,包括圖像、人臉、音頻、文本多個(gè)部分,AI需要對(duì)同一時(shí)刻的音頻、視頻等多個(gè)維度綜合分析,才能形成更為“立體”的認(rèn)知,而這對(duì)于技術(shù)人員又是巨大的挑戰(zhàn)。

而為了豐富AI的認(rèn)知,我們又不得不為它創(chuàng)立一套認(rèn)知體系——知識(shí)圖譜。

知識(shí)圖譜可以理解為AI的“記憶”,圖譜里面的每一個(gè)概念都不是簡(jiǎn)單的文本,而是立體的形象,比如一只小狗,在AI的印象里,會(huì)有它的大量照片,以及狗叫聲,還會(huì)知道它愛(ài)吃骨頭,這和我們?nèi)祟?lèi)對(duì)狗的記憶頗為一致,但是也存在著遺漏,像是觸覺(jué)這種,目前無(wú)法達(dá)到。

在快手的知識(shí)圖譜中,除了種類(lèi)繁多的實(shí)體概念,還存在著高級(jí)的精神概念,如喜怒哀樂(lè)、親情和愛(ài)情。

那么短視頻是如何被讀懂的呢?我們舉個(gè)實(shí)際的例子,一場(chǎng)球賽的最后幾分鐘(視頻):梅西帶球破門(mén),踢出關(guān)鍵一球,全場(chǎng)觀眾歡呼慶祝,解說(shuō)員宣布比賽勝利。

在這個(gè)視頻中,AI首先進(jìn)行人臉識(shí)別,識(shí)別出梅西和其他球員;同時(shí),場(chǎng)景識(shí)別和物體識(shí)別會(huì)確認(rèn)“球場(chǎng)”和“足球”,確定這是場(chǎng)足球比賽;而在情緒識(shí)別上面,AI會(huì)通過(guò)觀眾的歡呼和球員的表情確定“喜悅、慶祝”的氛圍;并且,解說(shuō)員的語(yǔ)音,也會(huì)被讀懂,更直觀地理解視頻里發(fā)生的內(nèi)容(即便是非常嘈雜的比賽環(huán)境,聰明的AI也會(huì)智能地為其降噪)。

機(jī)器亦有“心”——未來(lái)的它

雖然目前的AI在情感層面的理解上,無(wú)法達(dá)到較高的準(zhǔn)確性。但是,以現(xiàn)在的AI發(fā)展速度來(lái)看,相信在不遠(yuǎn)的將來(lái),AI就會(huì)成為精神世界的一道風(fēng)景線。

關(guān)于未來(lái)的AI(視頻理解、視覺(jué)理解方向),我想到了未來(lái)可能發(fā)生的三種應(yīng)用,一起來(lái)分享給大家:

  • 率先發(fā)生的是無(wú)人駕駛,AI對(duì)于物體(尤其是運(yùn)動(dòng)的物體)可以無(wú)障礙識(shí)別,完美解決路況分析問(wèn)題。
  • 第二階段是影評(píng)大師,AI對(duì)于人類(lèi)的情感以及電影的藝術(shù)手法有了深刻的認(rèn)識(shí),可以做出權(quán)威的評(píng)價(jià)。
  • 第三階段是AI男/女朋友,各項(xiàng)人工智能技術(shù)發(fā)展成熟,相互融合,而計(jì)算機(jī)視覺(jué)不再是一個(gè)獨(dú)立體,而更像是一個(gè)器官——“眼睛”,最終的AI成品可以作為我們的靈魂伴侶(完美解決我國(guó)男性的單身問(wèn)題,笑)。

無(wú)論如何,AI的萌芽已經(jīng)被種下了,到底會(huì)結(jié)出怎樣的果實(shí)呢,相信大家也滿(mǎn)懷期待吧,歡迎大家在評(píng)論區(qū)留言,說(shuō)說(shuō)自己心中未來(lái)的“它”!

 

本文由 @?信管專(zhuān)業(yè)學(xué)生 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!