能看懂的Sora實(shí)現(xiàn)原理

1 評(píng)論 1592 瀏覽 6 收藏 14 分鐘

近幾日,OpenAI發(fā)布視頻生成模型Sora,各大自媒體的營(yíng)銷內(nèi)容更是為Sora增加了神秘色彩。本文詳細(xì)闡述了Sora實(shí)現(xiàn)原理,希望對(duì)你有所幫助。

近幾日,關(guān)于OpenAI發(fā)布視頻生成模型Sora的消息甚囂塵上,各類自媒體的營(yíng)銷內(nèi)容更為Sora增加了神秘色彩。

就說(shuō)Sora有多火吧,生成的視頻上線一個(gè),瘋傳一個(gè)。

能看懂的Sora實(shí)現(xiàn)原理

人類向貓王朝拜

能看懂的Sora實(shí)現(xiàn)原理

無(wú)人機(jī)穿越古建筑

明顯能看出來(lái)Sora生成的視頻中的各項(xiàng)細(xì)節(jié)都讓人驚嘆,一如去年的ChatGPT,Sora被認(rèn)為是AGI(通用人工智能)的又一個(gè)里程碑時(shí)刻。

然而,大眾所看到的文生視頻也僅僅是一個(gè)表象而已,Sora模型之所以如此轟動(dòng),并不只是因?yàn)锳I生成的視頻時(shí)間更長(zhǎng)、清晰度更高,而是OpenAI已經(jīng)超越過(guò)去所有AIGC的能力,生成了一個(gè)與真實(shí)物理世界相關(guān)的視頻內(nèi)容。

在OpenAI官方出具的技術(shù)報(bào)告中,對(duì)Sora的定位是“作為世界模擬器的視頻生成模型”,“我們的研究結(jié)果表明,擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條可行之路?!?/strong>

能看懂的Sora實(shí)現(xiàn)原理

由于Sora的技術(shù)原理和細(xì)節(jié)尚未公開(kāi),而Sora也沒(méi)有進(jìn)行公測(cè)。我僅從現(xiàn)有OpenAI公布的的技術(shù)報(bào)告以及AI領(lǐng)域的專家和學(xué)者對(duì)其分析來(lái)了解Sora如何是處理多樣化視覺(jué)數(shù)據(jù)的,我會(huì)用通俗的語(yǔ)言和一些好理解的例子來(lái)解釋Sora是如何完成視頻創(chuàng)作的。

在這之前,我們先想一下我們自己是如何理解這個(gè)世界?

當(dāng)你日常從各類渠道或者新聞媒體,短視頻平臺(tái)上獲取信息時(shí),即使沒(méi)去過(guò)的地方,沒(méi)見(jiàn)過(guò)人或物。盡管你所掌握的這些信息內(nèi)容和風(fēng)格各異,但你仍能在需要時(shí)輕松地辨識(shí)提取每一個(gè)信息片段(Token),因?yàn)槟愕拇竽X能夠?qū)⑦@些不同的視覺(jué)信息統(tǒng)一理解。所以你可以通過(guò)獲取的信息并在腦海里構(gòu)想物品或者畫面;你可以在夢(mèng)境中見(jiàn)到從未見(jiàn)過(guò)的人或物;你甚至在夢(mèng)境中可以出現(xiàn)一些違背物理常識(shí)體驗(yàn),比如自己在空中騎著掃帚飛。

現(xiàn)在,讓我們將這個(gè)過(guò)程與Sora處理多樣化視覺(jué)數(shù)據(jù)的方式進(jìn)行對(duì)比。Sora首先通過(guò)自學(xué)習(xí)理解來(lái)自世界各地、不同設(shè)備拍攝的數(shù)以百萬(wàn)計(jì)的圖片和視頻。這些視覺(jué)數(shù)據(jù)在分辨率、寬高比、色彩深度等方面都存在差異。為了讓Sora能夠像人類大腦那樣理解和生成這么豐富的視覺(jué)內(nèi)容,OpenAI開(kāi)發(fā)了一套將這些不同類型視覺(jué)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示形式的方法。

對(duì),沒(méi)錯(cuò),Sora就是像人理解世界一樣去構(gòu)建模擬一個(gè)屬于Sora的世界。不同于 Runway 、Stable Video Difusion 等擴(kuò)散模型主要采用經(jīng)典的 U-Net架構(gòu),Sora 用 Transformer 架構(gòu)替 換 U-Net 架構(gòu),大幅提升模型擴(kuò)展性。

Sora 的訓(xùn)練受到了大語(yǔ)言模型(Large Language Model)的啟發(fā)。這些模型通過(guò)在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練,從而獲得了廣泛的能力?!設(shè)penAI對(duì)Sora模型技術(shù)報(bào)告詳解

首先,Sora通過(guò)“視頻壓縮網(wǎng)絡(luò)”。

技術(shù),將這些輸入壓縮為較低維度的表示形式。隨后,這些壓縮數(shù)據(jù)被進(jìn)一步分解為“空間時(shí)間潛在補(bǔ)丁”(Spacetime Patches)并處理為一致的格式。在接收到我們的文本條件,即最小信息片段(Token)后,Sora通過(guò)理解這些信息片段,從時(shí)間和空間維度逐步勾勒出視頻畫面。

請(qǐng)注意,上述無(wú)論是通過(guò)該“視頻壓縮網(wǎng)絡(luò)”技術(shù)對(duì)輸入進(jìn)行壓縮的過(guò)程,還是進(jìn)一步分解為“空間時(shí)間潛在補(bǔ)丁”(Spacetime Patches)的過(guò)程。這并不意味著會(huì)忽略原始數(shù)據(jù)的獨(dú)特性,而是將它們轉(zhuǎn)換成一個(gè)對(duì)Sora來(lái)說(shuō)更容易理解和操作的格式。而分解補(bǔ)丁則可以看作是視覺(jué)內(nèi)容的基本構(gòu)建塊,就像是我們把一副拼圖打散后,拼圖的每一塊卡片都是包含獨(dú)特景觀、顏色和紋理的小片段。這樣,不管原始視頻的長(zhǎng)度、分辨率或風(fēng)格如何,Sora都可以將它們處理成一致的格式。

這就像你在將拼圖復(fù)原時(shí),盡管拼圖卡片有幾千個(gè)之多,但你依然能通過(guò)已有的參照和相同的方式去復(fù)原它們。

上面我們闡述了Sora如何對(duì)輸入進(jìn)行分解到最基本的構(gòu)建塊“空間時(shí)間補(bǔ)丁”(Spacetime Patches),接下來(lái)我們順著這一概念來(lái)探討Sora如何根據(jù)文本提示生成內(nèi)容的機(jī)制。這一過(guò)程核心依賴于一種名為“文本條件化的Diffusion模型”。

現(xiàn)在設(shè)想你手握一本繪畫本,初始時(shí),本子上僅有一些雜亂無(wú)章的線條,看似毫無(wú)意義。然而,當(dāng)被告知主題,例如“描繪一座花園”時(shí),你腦海中便會(huì)自發(fā)地搜索與“花園”相關(guān)的所有信息片段。接著,你將這些零散的信息逐步呈現(xiàn)在繪畫本上,并不斷修改和優(yōu)化已有的筆觸。最終,這些混亂的線條漸變?yōu)橐环碌幕▓@畫卷。在此過(guò)程中,“指定的主題”類比為文本提示,而你逐步完善草稿的過(guò)程則與Diffusion模型的運(yùn)作方式相似。

就像你畫一幅“花園”時(shí),這個(gè)過(guò)程并不是一蹴而就的,而是通過(guò)數(shù)百個(gè)漸進(jìn)的步驟完成的,每一步都會(huì)讓視頻離最終目標(biāo)更進(jìn)一步。這種方法的一個(gè)關(guān)鍵優(yōu)勢(shì)在于其靈活性和創(chuàng)造性:同一段文本提示,通過(guò)不同的噪聲初始狀態(tài)或通過(guò)稍微調(diào)整轉(zhuǎn)化步驟,可以生成視覺(jué)上截然不同、但都與文本提示相符的視頻內(nèi)容。這就像是多個(gè)畫家根據(jù)同一主題創(chuàng)作出風(fēng)格各異的畫作。通過(guò)這種基于文本條件的Diffusion模型,Sora不僅能生成具有高度創(chuàng)造性的視頻和圖片,還能確保生成內(nèi)容與用戶的文本提示保持高度一致。

具體到Sora的實(shí)現(xiàn),這個(gè)過(guò)程開(kāi)始于一段與目標(biāo)視頻同樣時(shí)長(zhǎng)、但是內(nèi)容完全是隨機(jī)噪聲的視頻??梢园堰@段噪聲視頻想象成草稿本上那些毫無(wú)意義的線條。隨后,Sora根據(jù)給定的文本提示(比如“一只小狗站在草坪上,伸著舌頭”)開(kāi)始“涂改”這段視頻。在這個(gè)過(guò)程中,Sora利用了大量的視頻和圖片數(shù)據(jù)學(xué)習(xí)到的知識(shí),來(lái)決定如何逐步去除噪聲,將噪聲視頻轉(zhuǎn)變成接近文本描述的內(nèi)容。

這種處理多樣化視覺(jué)數(shù)據(jù)的能力,使得Sora在接收到如‘一只小狗站在草坪上,伸著舌頭’類似這樣的文本提示時(shí),正如OpenAI的技術(shù)報(bào)告中提到“Sora 的訓(xùn)練受到了大語(yǔ)言模型(Large Language Model)的啟發(fā)。這些模型通過(guò)在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練,從而獲得了廣泛的能力。”使得Sora不僅能理解這個(gè)提示背后的意圖,還能利用它的內(nèi)部表示形式,綜合利用不同類型的視覺(jué)信息,生成與文本提示相匹配的視頻或圖片。就好比是從全世界的視覺(jué)數(shù)據(jù)中找到那些能夠拼湊出你想象中的“一只小狗站在草坪上,伸著舌頭”場(chǎng)景的片段,并將它們組合起來(lái),創(chuàng)造出一個(gè)全新的視覺(jué)作品。

能看懂的Sora實(shí)現(xiàn)原理

引自《Scalable Diffusion Models with Transformers》論文

文本條件化的Diffusion模型賦予了Sora強(qiáng)大的理解和創(chuàng)造力,讓它能夠跨越語(yǔ)言與視覺(jué)之間的障礙,將抽象的文字描述轉(zhuǎn)化成具體的視覺(jué)內(nèi)容。這一過(guò)程不僅展示了AI在理解自然語(yǔ)言方面的進(jìn)步,也開(kāi)辟了視頻內(nèi)容創(chuàng)造和視覺(jué)藝術(shù)領(lǐng)域的新可能性。

而其他文生視頻的平臺(tái)如Runway、Pika等還停留在通過(guò)像素來(lái)構(gòu)建視頻畫面,這也是為什么其他像Runway,Pika等生成的視頻扭曲會(huì)這么嚴(yán)重的原因,他們僅僅是通過(guò)讓靜態(tài)圖片的部分元素動(dòng)起來(lái)進(jìn)而生成視頻的。

能看懂的Sora實(shí)現(xiàn)原理

Sora生成的小狗玩雪活靈活現(xiàn),而Runway則是像定格動(dòng)畫

以上我用?通俗的語(yǔ)言解??釋了Sora的原理和與其他平臺(tái)的差異。先不用管上述描述中一些陌生的概念,你只需要用你是如何理解這個(gè)世界的方式來(lái)理解Sora的實(shí)現(xiàn)原理,當(dāng)?然Sora的原理也不僅僅是如我所說(shuō)的這么簡(jiǎn)單,我只是在已有研究的基礎(chǔ)上,通過(guò)這幾天的學(xué)習(xí)和理解加上一些生活中的例子來(lái)試圖解釋S??ora。

?????這次 Sora 的發(fā)布又讓很多人對(duì) AGI 的實(shí)現(xiàn)更加樂(lè)觀了。360董事長(zhǎng)周鴻祎作出預(yù)判——Sora的發(fā)布意味著AGI實(shí)現(xiàn)將從10年縮短到1年。

Sora的發(fā)布是否會(huì)真正開(kāi)?啟AGI(Artificial General Intelligence 人工通用智能)時(shí)代的大門,我們還不可知。但是肯定會(huì)對(duì)視頻制作,游戲畫面等行業(yè)產(chǎn)生影響,試想一下以往制作一部電影制作特效需要花費(fèi)的時(shí)間和人力以及制作游戲需要對(duì)游戲世界進(jìn)行建模,模擬真實(shí)世界的物理規(guī)律,這些雖然我們已經(jīng)可以做到,但是是通過(guò)一種最笨的方式去構(gòu)建我們想象的世界的樣子,但是Sora在大語(yǔ)言模型的基礎(chǔ)上,以一種全新的思路為我們提供了另一種方式來(lái)構(gòu)建和模擬真實(shí)世界,而且這種方式還是更簡(jiǎn)單,更快捷的。??

正如OpenAI 技術(shù)報(bào)告的結(jié)尾是一個(gè)《我的世界》的游戲視頻,旁邊寫著這樣一句話:“ Sora可以通過(guò)基本策略同時(shí)控制Minecraft中的玩家,同時(shí)高保真地呈現(xiàn)世界及其動(dòng)態(tài)。只需在Sora的提示字幕中提及‘Minecraft’,就能零距離激發(fā)這些功能。??

能看懂的Sora實(shí)現(xiàn)原理

Sora 如果真能實(shí)現(xiàn)對(duì)物理世界的模擬、能夠跟 LLM 代表的虛擬世界無(wú)縫融合,那它必然是通往 AGI 路上的里程碑。

今天就寫這么多吧。手動(dòng)碼字,還請(qǐng)點(diǎn)個(gè)贊吧??!

本文由@楠説 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來(lái)自Sora文生視頻演示截圖

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 以后會(huì)不會(huì)出現(xiàn)一個(gè)直接說(shuō)出需求繪制原型圖的AI

    來(lái)自河南 回復(fù)