Sora官方技術(shù)報(bào)告詳解|從模型能力到原理剖析的深度解讀

2 評(píng)論 10842 瀏覽 16 收藏 12 分鐘

文章基于OpenAI官方公布的Sora技術(shù)文檔,從模型能力、訓(xùn)練方式和技術(shù)原理三個(gè)角度出發(fā),剖析Sora的出現(xiàn)對(duì)人工智能的發(fā)展,到底意味著什么?

見(jiàn)字如面,文章內(nèi)容相較于視頻內(nèi)容會(huì)更加精簡(jiǎn),如需了解更多細(xì)節(jié)的內(nèi)容請(qǐng)觀看視頻,視頻地址:https://www.bilibili.com/video/BV1Xx4y1y7Ga

一、什么是Sora

2024年2月16日凌晨(美國(guó)時(shí)間2月15日)OpenAI推出視頻生成模型:Sora,一款文生視頻(text-to-video)的模型。

Sora是通過(guò)學(xué)習(xí)視頻內(nèi)容,來(lái)理解現(xiàn)實(shí)世界的動(dòng)態(tài)變化,并用計(jì)算機(jī)視覺(jué)技術(shù)模擬這些變化,從而創(chuàng)造出新的視覺(jué)內(nèi)容。

我們來(lái)直觀地感受一下什么是Sora?

這是一段提示詞(Prompt):

A Chinese Lunar New Year celebration video with Chinese Dragon

翻譯成中文:

與中國(guó)龍慶祝中國(guó)新年。

文生視頻。現(xiàn)在文字有了,我們來(lái)看視頻效果。

可以發(fā)現(xiàn)無(wú)論是舞龍的細(xì)節(jié)表現(xiàn),還是人群跟著舞龍隊(duì)伍的真實(shí)感,效果是如此的逼真。

當(dāng)然Sora的能力還遠(yuǎn)不止如此,除了支持文字生成視頻外,還支持文字+圖片、文字+視頻、視頻+視頻的方式創(chuàng)作新的視頻內(nèi)容。

二、Sora模型能力介紹

能力一、Sora生成的視頻內(nèi)容,符合現(xiàn)實(shí)世界的物理規(guī)律

Sora生成的視頻內(nèi)容,符合現(xiàn)實(shí)世界的物理規(guī)律。

這說(shuō)明Sora學(xué)習(xí)的不僅僅是視頻中的畫(huà)面,還在學(xué)習(xí)視頻中元素之間的關(guān)系,學(xué)習(xí)現(xiàn)實(shí)世界中的物理規(guī)律。

比如:一個(gè)人咬一口漢堡后,能夠在漢堡上能夠留下咬痕。

能力二、Sora能夠生成一分鐘的高清視頻,并且支持生成不同時(shí)長(zhǎng)、長(zhǎng)寬比和不同分辨率的視頻與圖像

對(duì)于視頻創(chuàng)作者而言,能夠基于不同創(chuàng)作平臺(tái)視頻尺寸要求來(lái)生成視頻內(nèi)容。

能力三、Sora支持文字+圖片生成視頻

能力四、Sora支持連接視頻

Sora支持在兩個(gè)視頻之間進(jìn)行過(guò)渡處理,從而實(shí)現(xiàn)視頻之間的無(wú)縫過(guò)渡。

能力五、Sora支持文字+視頻生成視頻

Sora能夠基于文本提示,從而改變?cè)曨l的風(fēng)格化和視頻中的元素。

能力六、Sora支持拓展視頻

Sora能夠在原視頻的前后延長(zhǎng)和拓展視頻。

案例中三個(gè)視頻,它們都是從生成的視頻片段開(kāi)始向前進(jìn)行了視頻的延伸。

因此,這三個(gè)視頻的開(kāi)頭都不同,但結(jié)局都是相同的。

能力七、3D畫(huà)面的一致性

Sora可以生成帶有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人和場(chǎng)景元素在三維空間中一致移動(dòng)。

三、Sora模型訓(xùn)練方式

在官方技術(shù)報(bào)告中,有一段這樣的表述:

Sora is a generalist model of visual date

翻譯成中文:

Sora是一個(gè)“通用模型”。

但要訓(xùn)練一個(gè)通用模型的前提條件之一:“大規(guī)模的訓(xùn)練數(shù)據(jù)”。

Sora是怎么訓(xùn)練的呢?

分為一下兩步:所有數(shù)據(jù)皆為“我”所用、幫助AI更好的學(xué)習(xí)。

1. 所有數(shù)據(jù)皆為”我”所用

沿用ChatGPT之前大力出奇跡的訓(xùn)練方式:通過(guò)互聯(lián)網(wǎng)的海量數(shù)據(jù)進(jìn)行訓(xùn)練后,從而獲得了通用的模型能力。

互聯(lián)網(wǎng)中的龐大數(shù)據(jù),之所以能被GPT進(jìn)行訓(xùn)練,是因?yàn)樵谟?xùn)練前進(jìn)行了【數(shù)據(jù)標(biāo)記處理】,英文被稱之為Tokenization。

大白話說(shuō)就是:將訓(xùn)練的文本內(nèi)容轉(zhuǎn)譯為計(jì)算機(jī)能夠理解的語(yǔ)言。

Sora沿用了GPT標(biāo)記訓(xùn)練數(shù)據(jù)集的思路,對(duì)視頻內(nèi)容進(jìn)行標(biāo)記。視頻標(biāo)記被稱作為visual patches,中文翻譯過(guò)來(lái)叫做:視覺(jué)補(bǔ)丁,其核心的作用就是將視頻內(nèi)容,標(biāo)記后,轉(zhuǎn)譯為計(jì)算機(jī)能夠理解的語(yǔ)言。

那有了視頻標(biāo)記后,如何讓標(biāo)記的速度更快?標(biāo)記的質(zhì)量更高?

就引出了下面一項(xiàng)技術(shù)。

2. 對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行處理,助力AI更好的學(xué)習(xí)

Sora在對(duì)數(shù)據(jù)集處理方式時(shí)沿用了DALL-E3的Re-Captioning技術(shù)。

Re-Caption技術(shù)簡(jiǎn)單的來(lái)說(shuō)是根據(jù)輸入的圖像生成對(duì)應(yīng)的圖像描述的文本內(nèi)容。

這樣做的好處:

AI學(xué)習(xí)到的不再是抽象的圖像元素,并且1000個(gè)人有1000個(gè)哈姆雷特,通過(guò)圖像+圖像描述的方式,能夠指引AI去人類圖片的思路。

Sora運(yùn)用該技術(shù)的具體的步驟是:

  • 首先訓(xùn)練了一個(gè)captioner model,它的作用就是能將視頻內(nèi)容轉(zhuǎn)譯為文本的描述內(nèi)容。
  • 然后使用這個(gè)模型將訓(xùn)練集中所有的視頻,逐個(gè)轉(zhuǎn)譯為文本內(nèi)容后,再結(jié)合對(duì)應(yīng)的視頻進(jìn)行訓(xùn)練,從而提高AI的學(xué)習(xí)質(zhì)量。

四、Sora模型技術(shù)原理

Sora目前運(yùn)用的是Diffusion model(擴(kuò)散模型)+ Transformer兩種技術(shù)架構(gòu)的結(jié)合。

  1. Diffusion model:是一種生成模型,用于圖像的生成。
  2. Transformer:是一種深度學(xué)習(xí)模型,最初用于自然語(yǔ)言處理,可以學(xué)習(xí)文本之間的依賴關(guān)系,也能夠處理圖片和視頻的任務(wù),如圖像分類、視頻理解。

咱們重點(diǎn)聊一聊Diffusion model(擴(kuò)散模型)

這個(gè)技術(shù)路線和文生圖的Stable diffusion的技術(shù)路線非常類似。

用一句話概括Sora擴(kuò)散模型的實(shí)現(xiàn)過(guò)程:將原視頻訓(xùn)練素材壓縮后給Sora學(xué)習(xí),學(xué)習(xí)如何將壓縮后的視頻內(nèi)容還原和生成新的視頻。

這里包含了兩個(gè)關(guān)鍵步驟:Encoder-編碼、Decoder-解碼。

1)Encoder

Encoder就是將原視頻進(jìn)行壓縮,壓縮至一個(gè)低維度的空間,壓縮后視頻充滿了噪點(diǎn),Sora就是學(xué)習(xí)壓縮后的數(shù)據(jù)。

2)Decoder

Decoder就是將壓縮后的視頻進(jìn)行還原或創(chuàng)造,恢復(fù)至高清的像素空間。

那為什么Sora不直接拿原視頻進(jìn)行訓(xùn)練呢?

我們舉個(gè)例子。

原視頻進(jìn)行Encoder編碼后,整個(gè)視頻的大小極具降低,所以訓(xùn)練的數(shù)據(jù)越小,消耗的算力資源越少,可訓(xùn)練的數(shù)據(jù)規(guī)模更大。

五、總結(jié)

Sora 建立在過(guò)去對(duì) DALL·E 、GPT、Diffusion model 研究之上的,所以技術(shù)的爆發(fā)并非偶然,而是多項(xiàng)技術(shù)共同作用的結(jié)果。

那Sora的出現(xiàn)對(duì)人工智能的發(fā)展,到底意味著什么?

Sora的官方技術(shù)文檔中有兩句話讓我印象深刻:

We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction

翻譯成中文:

我們正在教AI理解和模擬運(yùn)動(dòng)中的物理世界,目標(biāo)是訓(xùn)練模型來(lái)幫助人們解決現(xiàn)實(shí)世界中的交互問(wèn)題。

OpenAI最終想做的,其實(shí)不是一個(gè)“文生視頻”的工具,而是一個(gè)通用的“物理世界模擬器”。

而Sora,只是驗(yàn)證了,這條道路可行的一個(gè)里程碑。

Sora的出現(xiàn),短期來(lái)看,能夠提高創(chuàng)作者、影視從業(yè)者的生產(chǎn)效率;長(zhǎng)期來(lái)看,AI能夠更佳全面的理解人類生活中現(xiàn)實(shí)世界,AGI通用人工智能正在加速到來(lái)。

見(jiàn)字如面,希望文章對(duì)你有所幫助~

聲明:文章中的視頻內(nèi)容均出自Sora生成

來(lái)源自O(shè)penAI官方技術(shù)報(bào)告

Sora官方技術(shù)報(bào)告地址:https://openai.com/research/video-generation-models-as-world-simulators

作者:在野在也,公眾號(hào):在野在也

本文由 @在野在也 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Sora 官網(wǎng)演示視頻截圖

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. mark

    來(lái)自廣東 回復(fù)
    1. ??

      來(lái)自廣東 回復(fù)