李飛飛創(chuàng)業(yè)后首次專訪:空間智能不僅適用虛擬世界生成,還可融合現(xiàn)實(shí)世界,AI 技術(shù)進(jìn)步將帶來無法想象的新應(yīng)用場景
在人工智能的浪潮中,空間智能作為AI領(lǐng)域的一個新前沿,正逐漸展現(xiàn)出其巨大的潛力和應(yīng)用前景。李飛飛教授的創(chuàng)業(yè)公司W(wǎng)orld Labs和全明星創(chuàng)業(yè)團(tuán)隊(duì),為我們描繪了一個關(guān)于空間智能的未來。
不久之前,李飛飛教授的空間智能創(chuàng)業(yè)公司 World Labs 以及全明星的創(chuàng)業(yè)陣容正式亮相。
隨后,李飛飛與另一位聯(lián)合創(chuàng)始人 Justin Johnson 接受了 a16z 的專訪。
在這次訪談播客中,李飛飛重點(diǎn)分享了 AI 領(lǐng)域新的研究前沿:空間智能。她說:「視覺空間智能非常根本,與語言一樣根本」。
節(jié)目中,她首先介紹了自己的早期貢獻(xiàn) ImageNet 對計(jì)算機(jī)視覺發(fā)展的影響。之后介紹了計(jì)算和數(shù)據(jù)在 AI 發(fā)展中的作用。
然后,她定義了 AI 的終極目標(biāo)以及空間智能在這其中所扮演的重要角色。最后,她介紹了自己的 World Labs 團(tuán)隊(duì)以及度量空間智能發(fā)展進(jìn)展的方式。
以下為這次對話主要內(nèi)容,enjoy~
Martin Casado
在過去的兩年里,我們看到了一波涌現(xiàn)的消費(fèi)級 AI 公司和技術(shù),這個過程非常瘋狂。而你們已經(jīng)在這個領(lǐng)域工作了幾十年。所以我們可能聊一下,你們在這個過程中做出的關(guān)鍵貢獻(xiàn)以及洞見。
Feifei Li
這是一個非常激動人心的時刻,回顧一下, AI 正處于一個令人興奮的時刻。我個人已經(jīng)從事這個領(lǐng)域超過二十年,我們走出了上一次的 AI 寒冬,見證了現(xiàn)代 AI 的誕生。隨后我們看到深度學(xué)習(xí)的興起,它向我們展示了各種可能性,比如下棋。
然后,我們開始看到技術(shù)的深入發(fā)展以及行業(yè)對早期可能性的應(yīng)用,比如語言模型?,F(xiàn)在,我認(rèn)為我們正處在一次“寒武紀(jì)大爆發(fā)”中。
在某種意義上來說,現(xiàn)在除了文本,我們還看到像素、視頻、音頻等都開始與 AI 應(yīng)用和模型結(jié)合,所以這是一個非常令人興奮的時刻。
Martin Casado
我認(rèn)識你們倆很久了,很多人也認(rèn)識你們,因?yàn)槟銈冊谶@個領(lǐng)域非常突出。但并不是所有人都了解你們在 AI 領(lǐng)域的起步,所以或許我們可以簡單介紹一下你們的背景,幫助觀眾建立基礎(chǔ)認(rèn)知。
Justin Johnson
好的,我最初接觸 AI 是在本科快結(jié)束時。我在加州理工學(xué)院(Caltech)學(xué)習(xí)數(shù)學(xué)和計(jì)算機(jī)科學(xué),那段時間非常棒。在那期間,有一篇非常有名的論文發(fā)布了,那就是 Home Neck Lee 和 Andrew Ng 等人在 Google Brain 的“貓論文”,這是我第一次接觸深度學(xué)習(xí)的概念。
這種技術(shù)讓我感到驚艷,那是我第一次遇到這種配方:強(qiáng)大的通用學(xué)習(xí)算法、巨大的計(jì)算資源和大量的數(shù)據(jù)結(jié)合在一起時,會發(fā)生一些神奇的事情。我大約在 2011 年、 2012 年左右接觸到這個想法,當(dāng)時我就覺得這將是我未來要做的事情。
顯然,要做這些工作必須去讀研究生,于是我發(fā)現(xiàn) Feifei 在斯坦福,她當(dāng)時是世界上少數(shù)幾位深入研究這一領(lǐng)域的人之一。當(dāng)時是從事深度學(xué)習(xí)和計(jì)算機(jī)視覺的絕佳時機(jī),因?yàn)檫@是技術(shù)從萌芽期走向成熟并廣泛應(yīng)用的時刻。
那段時間,我們看到了語言建模的開端,也看到了區(qū)分性計(jì)算機(jī)視覺的起步——你可以通過圖片理解其中的內(nèi)容。這段時間還出現(xiàn)了我們今天稱之為生成式 AI 的早期發(fā)展,生成圖像、生成文本等算法核心部分也是在我讀博期間由學(xué)術(shù)界解決的。
當(dāng)時每天早上醒來,我都會打開 arXiv 查看最新的研究成果,就像拆圣誕禮物一樣,幾乎每天都有新的發(fā)現(xiàn)。過去兩年里,世界其他人也開始意識到,每天通過 AI 技術(shù)有新的“圣誕禮物”收到。但對我們這些從事這個領(lǐng)域十多年的人來說,這種體驗(yàn)早就有了。
Feifei Li
顯然,我比Justin要年長得多。我是從物理學(xué)進(jìn)入 AI 領(lǐng)域的,因?yàn)槲业谋究票尘笆俏锢韺W(xué)。物理學(xué)是一門教你思考大膽問題的學(xué)科,比如世界上未解之謎。在物理學(xué)中,這些問題可能與原子世界、宇宙相關(guān),但這種訓(xùn)練讓我產(chǎn)生了對另一個問題的興趣——智能。因此,我在加州理工學(xué)院做了 AI 和計(jì)算神經(jīng)科學(xué)的博士研究。Justin和我雖然沒有在加州理工學(xué)院重疊過,但我們共享相同的母校。
Justin Johnson
還有相同的導(dǎo)師?
Feifei Li
是的,你的本科導(dǎo)師也是我的博士導(dǎo)師,Pietro Perona。在我讀博期間, AI 在公眾視野里正處于寒冬,但在我眼中并非如此。這更像是春天前的冬眠期,機(jī)器學(xué)習(xí)和生成模型正在蓄積力量。我認(rèn)為我是機(jī)器學(xué)習(xí)領(lǐng)域的“本地人”,而 Justin 的那一代是深度學(xué)習(xí)的“原住民”。
機(jī)器學(xué)習(xí)是深度學(xué)習(xí)的前身,我們當(dāng)時實(shí)驗(yàn)了各種模型。但在我博士結(jié)束時以及擔(dān)任助理教授期間,我的學(xué)生和我實(shí)驗(yàn)室意識到,有一個被忽視的 AI 元素在驅(qū)動著泛化能力,這個領(lǐng)域當(dāng)時并未深入思考,那就是數(shù)據(jù)。我們當(dāng)時專注于貝葉斯模型等復(fù)雜模型,而忽略了讓數(shù)據(jù)驅(qū)動模型的重要性。
這是我們押注 ImageNet 的原因之一。當(dāng)時所有領(lǐng)域的數(shù)據(jù)集規(guī)模都很小,計(jì)算機(jī)視覺和自然語言處理的標(biāo)準(zhǔn)數(shù)據(jù)集都是幾千或幾萬條數(shù)據(jù),但我們意識到需要提升到互聯(lián)網(wǎng)規(guī)模。幸運(yùn)的是,互聯(lián)網(wǎng)時代也正在崛起,我們乘上了這股浪潮,也正是在這個時候我來到了斯坦福。
Martin Casado
這些時代就像我們經(jīng)常談?wù)摰哪切热?ImageNet 顯然是推動或至少是讓計(jì)算機(jī)視覺在生成式 AI 領(lǐng)域中流行并具備可行性的重要時代。我們通常會提到兩個關(guān)鍵的突破:一個是 Transformer 的論文,即“注意力機(jī)制”(attention),另一個是較少談到的“穩(wěn)定擴(kuò)散”(stable diffusion)。
用這種方式來理解這兩個來自學(xué)術(shù)界(尤其是谷歌)的算法突破是否合理?或者說這更是一個有意為之的過程?亦或是還有其他一些不常被提及的重大突破也推動了我們走到今天?
Justin Johnson
是的,我認(rèn)為最大的突破在于計(jì)算能力。我知道 AI 的故事往往也是計(jì)算能力的故事,但即便人們經(jīng)常提到它,我認(rèn)為它的影響還是被低估了。
過去十年我們在計(jì)算能力上看到的增長是驚人的。被認(rèn)為是深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域突破性時刻的第一篇論文是 AlexNet,這是一篇 2012 年的論文,深度神經(jīng)網(wǎng)絡(luò)在 ImageNet 挑戰(zhàn)賽中表現(xiàn)出色,遠(yuǎn)超其他當(dāng)時的算法。
在研究生期間你可能會接觸到的那些算法,和 AlexNet 相比相形見絀。AlexNet 是一個擁有 6000 萬個參數(shù)的深度神經(jīng)網(wǎng)絡(luò),它在兩張 GTX 580 顯卡上訓(xùn)練了六天,GTX 580 是當(dāng)時最強(qiáng)大的消費(fèi)級顯卡,發(fā)布于 2010 年。
我昨晚查了一些數(shù)據(jù),想把這些放在一個更大的背景中看待。英偉達(dá)最新的顯卡是 GB200,你們猜一下 GTX 580 和 GB200 之間的計(jì)算能力差距有多大?
數(shù)量在幾千左右,所以我昨晚算了一下數(shù)據(jù)。像是那兩周的訓(xùn)練,那六天是在兩塊GTX 580上運(yùn)行的,如果擴(kuò)展一下,大概可以在一塊GB200上運(yùn)行不到五分鐘。
這樣想的話,真的有個很好的論點(diǎn)—— 2012 年 AlexNet 在 ImageNet 挑戰(zhàn)賽上的論文真的是一個非常經(jīng)典的模型,那就是卷積神經(jīng)網(wǎng)絡(luò)模型。
而實(shí)際上,這個概念早在 1980 年代就已經(jīng)出現(xiàn)了,我還記得作為研究生學(xué)習(xí)的第一篇論文,內(nèi)容也差不多,有六七層的網(wǎng)絡(luò)結(jié)構(gòu)。AlexNet 和卷積神經(jīng)網(wǎng)絡(luò)模型的唯一區(qū)別幾乎就是 GPU ——使用了兩個 GPU 和海量的數(shù)據(jù)。
所以我本來要說的是,大多數(shù)人現(xiàn)在都熟悉所謂的“痛苦的教訓(xùn)”(bitter lesson),這個教訓(xùn)說的是,如果你開發(fā)一個算法,只要確保你能利用現(xiàn)有的計(jì)算資源,因?yàn)檫@些資源會逐漸變得可用。于是你只需要一個能夠不斷進(jìn)步的系統(tǒng)。
另一方面,似乎還有另一個同樣有說服力的觀點(diǎn),那就是新的數(shù)據(jù)源實(shí)際上解鎖了深度學(xué)習(xí)。ImageNet 就是一個很好的例子。雖然很多人認(rèn)為自注意力機(jī)制對 Transformer 模型很重要,但他們也會說這是利用人工標(biāo)注數(shù)據(jù)的一種方式。
因?yàn)槿祟悶榫渥咏Y(jié)構(gòu)提供了標(biāo)注,如果你看看 CLIP 模型,它實(shí)際上是通過互聯(lián)網(wǎng)讓人類使用alt標(biāo)簽來標(biāo)記圖片。因此,這實(shí)際上是一個關(guān)于數(shù)據(jù)的故事,而不是關(guān)于計(jì)算的故事。那么答案是兩者兼有,還是更偏向某一方呢?我認(rèn)為是兩者兼有,但你也提到了另一個非常關(guān)鍵的點(diǎn)。
Martin Casado
我覺得在算法領(lǐng)域中,實(shí)際上有兩個明顯不同的時代。ImageNet 時代是監(jiān)督學(xué)習(xí)的時代。在這個時代,我們有很多數(shù)據(jù),但我們不知道如何僅憑數(shù)據(jù)本身來訓(xùn)練。
ImageNet 和其他同時期的數(shù)據(jù)集的預(yù)期是,我們會有大量的圖像,但我們需要人類對每張圖像進(jìn)行標(biāo)注。而我們訓(xùn)練的所有數(shù)據(jù),都是由人類標(biāo)注員逐一查看并標(biāo)注的。
而算法的重大突破在于,我們現(xiàn)在知道如何在不依賴人類標(biāo)注的數(shù)據(jù)上進(jìn)行訓(xùn)練。對于一個沒有 AI 背景的普通人來說,似乎如果你在訓(xùn)練人類數(shù)據(jù),人類實(shí)際上已經(jīng)進(jìn)行了標(biāo)注,只是這種標(biāo)注并不是顯式的。
Justin Johnson
是的,哲學(xué)上來說,這是一個非常重要的問題,但這個問題在語言領(lǐng)域比在圖像領(lǐng)域更為真實(shí)。是的,但我確實(shí)認(rèn)為這是一個重要的區(qū)別。CLIP 確實(shí)是由人類標(biāo)注的。我認(rèn)為自注意力機(jī)制是人類已經(jīng)理解了事物之間的關(guān)系,然后你通過這些關(guān)系進(jìn)行學(xué)習(xí)。
所以它仍然是由人類標(biāo)注的,只不過這種標(biāo)注是隱式的,而不是顯式的。區(qū)別在于,在監(jiān)督學(xué)習(xí)時代,我們的學(xué)習(xí)任務(wù)受到更多限制。我們必須設(shè)計(jì)出一套我們想要發(fā)現(xiàn)的概念本體論。
比如在 ImageNet 中,F(xiàn)ei-Fei Li和她的學(xué)生們花了很多時間思考 ImageNet 挑戰(zhàn)賽中的一千個類別應(yīng)該是什么。而在同時期的其他數(shù)據(jù)集,如用于目標(biāo)檢測的COCO數(shù)據(jù)集,他們也花了很多心思去決定放入哪些80個類別。
Martin Casado
那么讓我們談?wù)勆墒?AI 。當(dāng)我攻讀博士學(xué)位的時候,在你們出現(xiàn)之前,我上過 Andrew Ng 的機(jī)器學(xué)習(xí)課程,還學(xué)過 Daphne Koller 非常復(fù)雜的貝葉斯課程,對我來說這些都很復(fù)雜。
當(dāng)時的很多內(nèi)容都是預(yù)測建模。我還記得你解鎖了整個視覺領(lǐng)域的東西,但是生成式 AI 大約是在過去四年中才出現(xiàn)的。這對我來說是一個完全不同的領(lǐng)域——你不再是識別物體,也不是在預(yù)測什么,而是在生成新的東西。
所以也許我們可以談?wù)勈鞘裁搓P(guān)鍵因素讓生成式 AI 得以實(shí)現(xiàn),它和之前的不同之處,以及我們是否應(yīng)該以不同的方式去看待它,它是否是一個連續(xù)發(fā)展的部分還是另一個全新的領(lǐng)域?
Feifei Li
這非常有趣,即使在我研究生時代,生成模型就已經(jīng)存在了。我們當(dāng)時就想做生成,只不過沒人記得了,即使是用字母和數(shù)字做生成,我們也在嘗試一些事情。Jeff Hinton 當(dāng)時有一些關(guān)于生成的論文,我們也在思考如何生成。
實(shí)際上,如果你從概率分布的角度來看,數(shù)學(xué)上是可以進(jìn)行生成的,只是當(dāng)時生成的東西根本無法讓人感到驚艷。所以,盡管從數(shù)學(xué)理論上來看生成的概念是存在的,但實(shí)際上沒有任何生成效果讓人感到滿意。
然后我想特別提到一位博士生,他在深度學(xué)習(xí)方面有著濃厚的興趣,來到了我的實(shí)驗(yàn)室。這個博士生的整個博士學(xué)習(xí)經(jīng)歷幾乎可以說是這個領(lǐng)域發(fā)展軌跡的縮影。
他的第一個項(xiàng)目是數(shù)據(jù),我逼著他做,盡管他不喜歡,但事后他也承認(rèn)學(xué)到了很多有用的東西。“現(xiàn)在我很高興你能這么說?!庇谑俏覀冝D(zhuǎn)向深度學(xué)習(xí),核心問題是如何從圖像生成文字。實(shí)際上,這個過程中有三個明確的階段。
第一個階段是將圖像和文字進(jìn)行匹配。我們有圖像,也有文字,接下來我們要看它們之間的關(guān)聯(lián)度。我的第一篇學(xué)術(shù)論文,也是我的第一篇博士論文,研究的就是基于場景圖的圖像檢索。接下來,我們繼續(xù)深入研究,從像素生成文字,這方面他和 Andrej 都做了很多工作,但依然是一種非常有損的生成方式,信息從像素世界中獲取時損失很大。
中間階段有一個非常著名的工作,那個時候有人第一次實(shí)現(xiàn)了實(shí)時化。2015 年,一篇叫《神經(jīng)算法的藝術(shù)風(fēng)格》的論文由 Leon Gatys 領(lǐng)導(dǎo)發(fā)表。他們展示了將現(xiàn)實(shí)世界的照片轉(zhuǎn)換為梵高風(fēng)格的圖片。
我們現(xiàn)在可能習(xí)以為常,但那是在 2015 年,那篇論文突然出現(xiàn)在 arXiv 上,震驚了我。我感覺大腦中被注入了一種“生成 AI 的病毒”。我心想:“天哪,我需要理解這個算法,玩一玩,試著把自己的圖片變成梵高風(fēng)格。”
于是,我花了一個長周末重新實(shí)現(xiàn)了這個算法,讓它能夠正常運(yùn)行。其實(shí)它是一個非常簡單的算法,我的實(shí)現(xiàn)大概只有 300 行代碼,當(dāng)時是用Lua寫的,因?yàn)槟菚r候還沒有 PyTorch,我們用的是 Lua Torch。不過盡管算法簡單,它的速度很慢。每生成一張圖片,你都需要運(yùn)行優(yōu)化循環(huán),耗費(fèi)很多時間。生成的圖片很漂亮,但我就是希望它能更快一點(diǎn)。最后,我們確實(shí)讓它變快了。
還有一點(diǎn)我非常自豪的是,在生成 AI 真正走向世界之前,他在博士研究的最后一部分做了一個非常前沿的工作。這個項(xiàng)目是通過輸入自然語言來生成完整的圖像,這可以說是最早的生成 AI 工作之一。我們使用的是GANs,但當(dāng)時它非常難用。問題是,我們還沒有準(zhǔn)備好用自然語言來描述一幅完整的圖像。
于是,他采用了一個場景圖結(jié)構(gòu)輸入方式,輸入內(nèi)容是“羊群”、“草地”、“天空”等,并用這種方式生成了一幅完整的圖像。
從數(shù)據(jù)匹配到風(fēng)格轉(zhuǎn)換,再到生成圖像,我們逐漸看到了一個完整的轉(zhuǎn)變。你問這是否是一個巨大的變化,對于像我們這樣的人來說,這是一個持續(xù)的過程,但對于大眾而言,成果確實(shí)顯得突然且具有沖擊力。
Martin Casado
我讀了你的書,真是一本很棒的書,我強(qiáng)烈推薦大家去讀。而且,F(xiàn)ei-Fei,我想說的是,長期以來,你的很多研究和方向都聚焦于空間智能、像素處理等領(lǐng)域?,F(xiàn)在你在做的 World Labs 也和空間智能相關(guān)。能談?wù)勥@是你長期旅程的一部分嗎?你為什么現(xiàn)在決定去做這個?這是否是某種技術(shù)突破或個人原因?你能否帶我們從 AI 研究的背景過渡到 World Labs?
Fei-Fei Li
對于我來說,這既是個人的追求,也是智力上的旅程。你提到了我的書,我的整個智力旅程實(shí)際上是一種對“北極星”的追尋,同時也堅(jiān)信這些北極星對于我們領(lǐng)域的進(jìn)步至關(guān)重要。
在一開始的時候,我還記得研究生畢業(yè)后,我認(rèn)為我的北極星是“為圖像講故事”,因?yàn)閷ξ襾碚f,這是視覺智能的一個重要組成部分,也就是你所說的 AI 的一部分。
但是,當(dāng) Justin 和 Andrej 完成他們的工作時,我想:“天哪,這就是我一生的夢想,我接下來要做什么?”這個進(jìn)展比我預(yù)期的快得多——我本以為需要一百年才能實(shí)現(xiàn)這些。
視覺智能始終是我的熱情所在。我堅(jiān)信,對于每一個有智能的存在,比如人類、機(jī)器人,或者其他形式的存在,學(xué)會如何看待這個世界、如何推理、如何與世界互動是至關(guān)重要的。無論是導(dǎo)航、操控、制造,甚至是構(gòu)建文明,視覺和空間智能都在其中扮演著基礎(chǔ)性角色。
它的基礎(chǔ)性可能和語言一樣,甚至在某些方面更加古老和基本。因此,World Labs的北極星,就是解鎖空間智能,而現(xiàn)在是正確的時機(jī)。
就像 Justin 說的那樣,我們已經(jīng)具備了所需的資源——計(jì)算能力和對數(shù)據(jù)更深的理解。與 ImageNet 時代相比,我們在數(shù)據(jù)理解上變得更加復(fù)雜。
我們也擁有了算法方面的進(jìn)展,比如我們的共同創(chuàng)始人 Ben Mildenhall 和 Christoph Lassner 在 Nerf 方面的前沿工作。我們覺得現(xiàn)在是下定決心、專注這一領(lǐng)域并解鎖其潛力的最佳時機(jī)。
Martin Casado
為了讓大家理解清楚,你現(xiàn)在創(chuàng)辦了這家公司——World Labs,而你們要解決的問題就是“空間智能”。你能簡明扼要地描述一下,什么是空間智能嗎?
Fei-Fei Li
空間智能指的是機(jī)器理解、感知、推理并在 3D 空間和時間中采取行動的能力。具體來說,它是指理解物體和事件如何在 3D 空間和時間中定位,以及世界中的交互如何影響這些 3D 位置。
這不僅僅是讓機(jī)器停留在數(shù)據(jù)中心或主機(jī)中,而是讓它走向現(xiàn)實(shí)世界,去理解這個豐富的 3D 、4D 世界。
Martin Casado
你說的這個“世界”是指現(xiàn)實(shí)的物理世界,還是一種抽象概念上的世界?
Fei-Fei Li
我認(rèn)為兩者兼有。這也代表了我們長期的愿景。即使你是在生成虛擬世界或內(nèi)容,定位于 3D 中仍然有很多好處。或者當(dāng)你在識別現(xiàn)實(shí)世界時,能夠?qū)?3D 理解應(yīng)用到真實(shí)世界中也是其中的一部分。
Martin Casado
你們的共同創(chuàng)始人團(tuán)隊(duì)真是非常強(qiáng)大。那你覺得為什么現(xiàn)在是做這件事的合適時機(jī)呢?
Fei-Fei Li
這實(shí)際上是一個長期進(jìn)化的過程。在博士畢業(yè)后,我開始尋找成為獨(dú)立研究員的道路,并且思考 AI 和計(jì)算機(jī)視覺領(lǐng)域中的大問題。當(dāng)時我得出的結(jié)論是,過去十年主要是在理解已經(jīng)存在的數(shù)據(jù),而接下來的十年將會是理解新的數(shù)據(jù)。
過去的數(shù)據(jù),主要是網(wǎng)絡(luò)上已經(jīng)存在的圖像和視頻,而未來的數(shù)據(jù)則是全新的——智能手機(jī)出現(xiàn)了,這些手機(jī)有相機(jī),有新的傳感器,并且可以在 3D 世界中定位。這不僅僅是你從互聯(lián)網(wǎng)上獲取一堆像素并試圖判斷這是一只貓還是一只狗的問題了。
我們希望把這些圖像當(dāng)作與物理世界的通用傳感器,幫助我們理解世界的 3D 和4D 結(jié)構(gòu),無論是在物理空間還是生成空間中。
博士畢業(yè)后,我做了一個很大的轉(zhuǎn)變,進(jìn)入了 3D 計(jì)算機(jī)視覺領(lǐng)域,與我的同事們一起研究如何預(yù)測物體的 3D 形狀。后來,我對通過 2D 數(shù)據(jù)學(xué)習(xí) 3D 結(jié)構(gòu)的想法產(chǎn)生了濃厚的興趣。
我們討論數(shù)據(jù)時常會提到,獲取 3D 數(shù)據(jù)很難,但實(shí)際上 2D 圖像是 3D 世界的投影,這里有很多可以利用的數(shù)學(xué)結(jié)構(gòu)。即便你有大量的 2D 數(shù)據(jù),你也可以通過這些數(shù)學(xué)結(jié)構(gòu)推導(dǎo)出 3D 世界的結(jié)構(gòu)。
2020年是一個突破性時刻。我們的共同創(chuàng)始人 Ben Mildenhall 提出了 Nerf (神經(jīng)輻射場)方法。這是一種非常簡單、清晰的方式,可以通過 2D 觀測推導(dǎo)出 3D 結(jié)構(gòu),點(diǎn)燃了整個 3D 計(jì)算機(jī)視覺領(lǐng)域。
與此同時, LLM 也開始嶄露頭角。很多語言建模的工作實(shí)際上在學(xué)術(shù)界已經(jīng)發(fā)展了很長時間。即使在我的博士階段,我也與 Andrej Karpathy 在 2014 年進(jìn)行了一些語言建模工作。
Justin Johnson
這其實(shí)是出現(xiàn)在 Transformer 之前的事情,但到了 GPT-2 的時代,你在學(xué)術(shù)界已經(jīng)很難再做這樣的模型了,因?yàn)樗鼈冃枰挠?jì)算資源太大了。然而,有趣的是,Ben 提出的 Nerf 方法,只需要在單個 GPU 上訓(xùn)練幾個小時。
這讓很多學(xué)術(shù)研究者開始重新聚焦于這些問題,因?yàn)榭梢栽谟邢薜挠?jì)算資源下解決一些核心算法問題,而且你可以在單個 GPU 上獲得最先進(jìn)的成果。所以當(dāng)時很多學(xué)術(shù)研究者都在思考:我們?nèi)绾瓮ㄟ^核心算法來推動這個領(lǐng)域的發(fā)展?我和Fei-Fei聊了很多,我們都非常確信這一點(diǎn)。
Fei-Fei Li
是的,我們發(fā)現(xiàn)我們的研究方向在某種程度上正朝著相似的目標(biāo)前進(jìn)。我還想講述一個很有趣的技術(shù)問題,或者說一個關(guān)于像素的技術(shù)故事。
很多從事語言研究的人可能不知道,在生成 AI 時代之前,我們這些從事計(jì)算機(jī)視覺領(lǐng)域的人,實(shí)際上有一個很長的歷史,叫做 3D 重建的研究。
這可以追溯到上世紀(jì)70年代,你可以通過拍攝照片——因?yàn)槿祟愑袃芍谎劬Γ钥梢杂昧Ⅲw照片來嘗試三角測量,構(gòu)建 3D 形狀。然而這是一個非常難的問題,至今尚未完全解決,因?yàn)榇嬖谄ヅ鋯栴}等復(fù)雜情況。
這個領(lǐng)域有著長期的進(jìn)展,但是當(dāng) Nerf 和生成方法結(jié)合,尤其是在擴(kuò)散模型的背景下, 3D 重建與生成突然開始融合。在計(jì)算機(jī)視覺領(lǐng)域內(nèi),我們突然發(fā)現(xiàn),如果我們看到某個東西,或者想象某個東西,二者都可以匯聚到生成它的方向。這是一個非常重要的時刻,但很多人可能沒有注意到這一點(diǎn),因?yàn)槲覀儧]有像談?wù)?LLM 那樣廣泛討論它。
Justin Johnson
對,在像素空間中有重建,例如你重建一個真實(shí)的場景;而如果你看不到那個場景,則會使用生成技術(shù)。這兩者實(shí)際上是非常相似的。整個對話中你一直在談?wù)撜Z言和像素,或許這是一個好時機(jī)來討論空間智能與語言方法的對比,比如它們是互補(bǔ)的,還是完全不同的?
Fei-Fei Li
我認(rèn)為它們是互補(bǔ)的。我不確定如何定義“完全不同”,但我可以嘗試做個對比。如今,很多人都在談?wù)揋PT、開放 AI 以及多模態(tài)模型。大家覺得這些模型既能處理像素,也能處理語言。那么它們是否能實(shí)現(xiàn)我們想要的空間推理呢?為了回答這個問題,我們需要打開這些系統(tǒng)的“黑箱”,看看它們是如何在底層工作的。
語言模型和我們現(xiàn)在看到的多模態(tài)語言模型,其底層的表示是“一維的”。我們談?wù)撋舷挛拈L度、 Transformer 、序列、注意力機(jī)制,但歸根結(jié)底,這些模型的表示是基于一維的序列化令牌。
這種表示在處理語言時是非常自然的,因?yàn)槲谋颈旧砭褪怯梢痪S的離散字母序列組成的。這種一維表示是 LLM 成功的基礎(chǔ),現(xiàn)在我們看到的多模態(tài) LLM 也是如此,它們將其他模態(tài)(如圖像)“硬塞進(jìn)”這種一維的表示中。
而在空間智能領(lǐng)域,我們的思路正好相反——我們認(rèn)為世界的三維本質(zhì)應(yīng)該成為表示的核心。從算法的角度來看,這為我們處理數(shù)據(jù)和獲得不同類型的輸出提供了新的機(jī)會,幫助我們解決一些截然不同的問題。
即使從一個粗略的層面來看,你可能會說:“多模態(tài) LLM 也能看圖像。”確實(shí)可以,但它們在處理圖像時沒有將三維的本質(zhì)置于其方法的核心。
Justin Johnson
我完全同意,討論一維與三維表示的根本性區(qū)別是非常核心的。此外,還有一個稍微哲學(xué)化的觀點(diǎn),但對我來說同樣重要:語言本質(zhì)上是一種純生成的信號,世界上不存在語言。你走到大自然中不會看到天上寫著文字。無論你輸入什么數(shù)據(jù),語言模型幾乎都可以通過足夠的泛化將相同的數(shù)據(jù)吐出來,這就是語言生成的特質(zhì)。
但 3D 世界不同,它遵循物理法則,擁有自己的結(jié)構(gòu)和材料。能夠從根本上提取這些信息,進(jìn)行表示和生成,這是一種完全不同的問題。盡管我們會借鑒語言模型中的一些有用的想法,但從根本上來說,這是一個不同的哲學(xué)問題。
Martin Casado
對,所以語言模型是一維的,可能是對物理世界的不良表示,因?yàn)樗侨祟惿傻模瑤в袚p失。而另一個生成模型的模態(tài)是像素,即 2D 圖像和視頻。如果你看視頻,可以看到 3D 場景,因?yàn)閿z像機(jī)可以平移。那么空間智能與 2D 視頻有什么不同呢?
Fei-Fei Li
這里有兩點(diǎn)值得思考。一是底層的表示,二是用戶體驗(yàn)的便利性。這兩者有時會讓人混淆。我們感知的是 2D ——我們的視網(wǎng)膜是二維的結(jié)構(gòu),但我們的大腦將其視為三維世界的投影。
你可能希望移動物體、移動攝像機(jī),原則上你可以用二維的表示和模型來做這些事情,但它并不適合解決你提出的問題。動態(tài)三維世界的二維投影可能可以建模,但將三維表示放在模型的核心,能夠更好地適應(yīng)問題的需求。
我們的目標(biāo)是將更多的三維表示融入模型的核心,從而為用戶提供更好的體驗(yàn)。這也與我的“北極星”相關(guān)。為什么我們強(qiáng)調(diào)“空間智能”,而不是“平面像素智能”?
因?yàn)橹悄艿陌l(fā)展軌跡,如果你回顧進(jìn)化史,它的最終目的是讓動物和人類能夠在世界中自由移動、互動,進(jìn)而創(chuàng)造文明,甚至是做一片三明治。因此,將這種 3D 的本質(zhì)轉(zhuǎn)化為技術(shù),是釋放無數(shù)潛在應(yīng)用的關(guān)鍵,即便有些看起來只是表面上的進(jìn)步。
Martin Casado
我認(rèn)為這是一個非常微妙卻至關(guān)重要的觀點(diǎn)?;蛟S我們可以通過談?wù)撘恍?yīng)用場景來進(jìn)一步深入討論。當(dāng)我們談?wù)撻_發(fā)一種可以實(shí)現(xiàn)空間智能的技術(shù)模型時,它可能具體是什么樣子的?有哪些潛在的應(yīng)用場景?
Fei-Fei Li
我們設(shè)想的空間智能模型可以做很多事情,其中一個讓我特別興奮的是“世界生成”。類似于文本-圖像生成器,我們現(xiàn)在已經(jīng)有了文本-視頻生成器——輸入一張圖像或一段視頻,系統(tǒng)就能生成一個兩秒鐘的驚人片段。但我認(rèn)為我們可以將這一體驗(yàn)提升到 3D 世界。
我們可以想象空間智能未來幫助我們將這些體驗(yàn)提升到 3D ,不僅僅生成一張圖片或一段視頻,而是生成一個完整的、模擬的、豐富的互動 3D 世界。也許用于游戲,也許用于虛擬攝影,應(yīng)用領(lǐng)域廣泛得令人難以想象。
Justin Johnson
我覺得這項(xiàng)技術(shù)會隨著時間的推移逐漸進(jìn)步。構(gòu)建這些東西非常困難,所以靜態(tài)問題可能會相對簡單一些,但從長遠(yuǎn)來看,我們希望它是完全動態(tài)的、可交互的,正如你剛才所描述的一切。
Fei-Fei Li
是的,這正是空間智能的定義。我們會從更多的靜態(tài)問題開始,但你提到的所有內(nèi)容都在空間智能的未來規(guī)劃中。
Justin Johnson
這也體現(xiàn)在我們公司“World Labs”的名字上——這個名字的含義是關(guān)于構(gòu)建和理解世界。起初我們告訴別人這個名字時,他們并不總是能理解,因?yàn)樵谟?jì)算機(jī)視覺、重建和生成領(lǐng)域,我們通常會對所能做的事情進(jìn)行區(qū)分。第一級是識別物體,比如麥克風(fēng)、椅子等這些世界上的離散物體。許多 ImageNet 的工作都與識別物體有關(guān)。
但接下來我們提升到了場景的層次——場景是由物體組成的。例如,現(xiàn)在我們有一個錄音室,里面有桌子、麥克風(fēng)和坐在椅子上的人,這是物體的組合。但我們想象的“世界”是超越場景的。場景可能是單一的東西,但我們希望打破這些界限,走出門外,走到街上,看到車流穿梭,看到樹葉在風(fēng)中搖動,并能夠與這些東西互動。
Fei-Fei Li
另一件非常令人興奮的事情是關(guān)于“新媒體”這個詞。借助這項(xiàng)技術(shù),現(xiàn)實(shí)世界、虛擬想象世界或增強(qiáng)世界、預(yù)測世界之間的界限變得模糊。真實(shí)世界是 3D 的,所以在數(shù)字世界中,必須有 3D 表示才能與真實(shí)世界融合。你不能只用 2D 甚至 1D 來有效地與真實(shí)的 3D 世界交互。
這種能力解鎖了無限的應(yīng)用場景。就像 Justin 提到的第一個應(yīng)用場景,虛擬世界的生成可以用于任何用途。第二個可能是增強(qiáng)現(xiàn)實(shí)。就在 World Labs 成立的那段時間,蘋果發(fā)布了 Vision Pro,他們使用了“空間計(jì)算”這個詞。我們幾乎也在講同樣的事情,我們強(qiáng)調(diào)的是“空間智能”??臻g計(jì)算需要空間智能,這一點(diǎn)是毫無疑問的。
我們不知道未來的硬件形式會是什么樣子——可能是護(hù)目鏡、眼鏡,甚至隱形眼鏡。但在真實(shí)世界與虛擬世界之間的界面,無論是增強(qiáng)你的工作能力、幫助你修理汽車,哪怕你不是專業(yè)技工,或者只是為娛樂提供一個類似于“Pokemon Go++”的體驗(yàn),這項(xiàng)技術(shù)將成為 AR/VR 的操作系統(tǒng)。
Justin Johnson
極限情況下,AR 設(shè)備需要做的事情就是一直陪伴著你,實(shí)時理解你所看到的世界,幫助你完成日常生活中的任務(wù)。我對此感到非常興奮,尤其是虛擬與現(xiàn)實(shí)之間的融合。當(dāng)你能夠?qū)崟r完美地理解周圍環(huán)境中的 3D 時,它甚至可能取代現(xiàn)實(shí)世界中的一些事物。
比如說,現(xiàn)在我們有各種不同尺寸的屏幕—— iPad、電腦顯示器、電視、手表等,它們在不同的場景中呈現(xiàn)信息。但如果我們能夠無縫地將虛擬內(nèi)容與物理世界融合,這些設(shè)備就不再必要了。虛擬世界可以在正確的時刻用最合適的方式向你展示所需的信息。
另一項(xiàng)巨大的應(yīng)用是混合數(shù)字虛擬世界與 3D 物理世界,尤其是機(jī)器人領(lǐng)域。機(jī)器人必須在物理世界中行動,而它們的計(jì)算和大腦在數(shù)字世界中。學(xué)習(xí)與行為之間的橋梁,必須由空間智能來搭建。
Martin Casado
你提到了虛擬世界、增強(qiáng)現(xiàn)實(shí),現(xiàn)在你又談到了純粹的物理世界,比如用于機(jī)器人領(lǐng)域。這個方向非常廣泛,尤其是如果你計(jì)劃涉足這些不同的領(lǐng)域。你們?nèi)绾慰创疃燃夹g(shù)與這些具體應(yīng)用領(lǐng)域的關(guān)系?
Fei-Fei Li
我們認(rèn)為自己是一家深度技術(shù)公司,作為一個平臺公司,提供能夠服務(wù)于這些不同應(yīng)用場景的模型。至于哪個應(yīng)用場景更適合我們一開始關(guān)注的,我覺得現(xiàn)在的設(shè)備還不夠完善。
實(shí)際上,我在研究生時期就擁有了我的第一臺 VR 頭戴設(shè)備。當(dāng)我戴上它時,我心里想:“天哪,這太瘋狂了!”我相信很多人第一次使用VR時都有類似的體驗(yàn)。
我非常喜歡 Vision Pro,發(fā)布的那天我熬夜搶購了一個,但現(xiàn)在作為大眾市場的平臺,它還未完全成熟。因此,我們作為公司,可能會選擇一個已經(jīng)更為成熟的市場進(jìn)入。
有時通用性中也會有簡潔性。我們有一個作為深度技術(shù)公司的愿景,相信有一些根本性的問題需要被很好地解決,如果解決得好,可以應(yīng)用于多個不同的領(lǐng)域。我們視公司的長期目標(biāo)為構(gòu)建和實(shí)現(xiàn)空間智能的夢想。
Justin Johnson
事實(shí)上,我認(rèn)為這就是你們所做的影響所在。我不認(rèn)為我們會真正完全到達(dá)那個終點(diǎn),因?yàn)檫@是一個如此根本的事物——宇宙本質(zhì)上是一個不斷演化的四維結(jié)構(gòu),而廣義上的空間智能就是理解這個結(jié)構(gòu)的全部深度,并找到其中所有的應(yīng)用。所以,雖然我們今天有一套特定的想法,但我相信這段旅程會帶我們?nèi)ヒ恍┪覀儸F(xiàn)在根本無法想象的地方。
Fei-Fei Li
技術(shù)的神奇之處就在于,它會不斷打開更多的可能性。我們會持續(xù)推進(jìn),而這些可能性也會不斷擴(kuò)展。
作者:前沿君,公眾號:前沿在線
本文由 @前沿在線 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
- 目前還沒評論,等你發(fā)揮!