炸場的Sora和冷靜的同行
除了網(wǎng)紅李一舟蹭熱點(diǎn),還沒有誰站出來敢說要做中國版Sora,最為接近的消息是字節(jié)在海外發(fā)布的文生視頻模型,但也一直沒有最新的消息。
Sora面世半個(gè)多月,這個(gè)深水炸彈的后續(xù)效應(yīng)依然強(qiáng)烈。
Open AI 發(fā)布的這個(gè)文生視頻模型,緊跟著 Google 發(fā)布 Gemini 1.5 的消息,讓支持百萬級(jí) token 的 Gemini 黯然失色,幫助OpenAI在科技圈成功「搶 C」,一躍成為視頻模型屆的 GPT 3.5 時(shí)刻。
畢竟,當(dāng)Runway、Pika 等同類視頻模型的創(chuàng)作上限還在 10 秒左右時(shí),Sora 已經(jīng)能夠生成 60 秒的精致視頻,可以一鏡到底、切換視角,無論是背景還是主人公的表情,都擁有豐富的細(xì)節(jié)。關(guān)于Sora是否會(huì)殺死剪映的輿論甚囂塵上。
目前 Sora 還沒有對(duì)公眾開放,但昨天,已經(jīng)有創(chuàng)作者拿到了測試資格,并發(fā)布了自己嘗試的三個(gè)視頻。
在「測評(píng)電子產(chǎn)品的年輕人」這個(gè)視頻中,光影細(xì)膩,人物和置景真實(shí),美中不足的是他的右手有六根手指。
此外,Sora 在理解物理時(shí)會(huì)遇到困難,特別是在腿部/行走方面。在 Sora 生成的小狗行走視頻中,腿部經(jīng)常交叉并合并在一起。
雖然 OpenAI 發(fā)布了 Sora 的技術(shù)報(bào)告,但其中并未涉及技術(shù)細(xì)節(jié)。
我們能知道的是,Sora 又是一次 OpenAI 式的典型勝利,是技術(shù)選型、訓(xùn)練數(shù)據(jù)、資源優(yōu)化等各個(gè)環(huán)節(jié)的細(xì)節(jié)優(yōu)化,組合成了一次效果超出預(yù)期的質(zhì)變。就像 Sam Altman 之前解釋為什么 GPT 會(huì)比其他的大模型更好,是因?yàn)?OpenAI 堆了「一百萬個(gè)小技巧」。
去年年初,ChatGPT 發(fā)布后,海內(nèi)外大廠爭先恐后地發(fā)布文本大模型,熱鬧非凡,生怕落隊(duì);這次 Sora 發(fā)布后,只有海外版剪映、Stability AI 跟進(jìn)發(fā)布了文生視頻產(chǎn)品的測試版。
其他公司也許是暗中跟進(jìn),或是謹(jǐn)慎觀望,除了網(wǎng)紅李一舟蹭蹭熱點(diǎn),還沒有誰站出來敢說,要做中國版Sora。
一、追,還是不追?
ChatGPT 發(fā)布后,大公司和初創(chuàng)企業(yè)紛紛加入百模大戰(zhàn);現(xiàn)在 Sora 已經(jīng)發(fā)布半個(gè)多月了,此前的盛況沒有再次出現(xiàn)。
一周之后,Stability AI 開放了Stable Video的公測,但或許是服務(wù)器爆滿的緣故,功能不夠穩(wěn)定。生成的視頻最值得稱道的是清晰度,但仍然沒有大幅度的視角切換,畫面主體也沒有太多動(dòng)作,只有背景動(dòng)了起來,給人的感覺仍然是「會(huì)動(dòng)的圖片」。
字節(jié)剪映海外版也上線了文生視頻的功能,同樣反響不佳,主要是因?yàn)榈却臅r(shí)間過長。網(wǎng)友測試發(fā)現(xiàn),一個(gè)視頻的生成要等待 1800 分鐘。
有人工智能算法工程師分析,同等參數(shù)的視頻模型,比大語言模型所需要的算力要多幾十倍。業(yè)界流傳,Sora 的參數(shù)規(guī)模在 10B 到 30B 之間,其所需的算力或許與千億級(jí)的大語言模型差不多。
有趣的是,騰訊和阿里巴巴雖然沒有跟進(jìn)視頻模型的發(fā)布,卻紛紛第一時(shí)間在自己的技術(shù)賬號(hào)上發(fā)布了對(duì) Sora 的技術(shù)拆解;其中,阿里巴巴達(dá)摩院所發(fā)布的文章題目叫做《復(fù)刻 Sora 有多難?》,并在文末表示,「我們期待視頻生成領(lǐng)域的 LLaMa ,以及更加普惠的開源視頻生成技術(shù)?!?/p>
AI 初創(chuàng)企業(yè) Hugging Face 認(rèn)為,視頻模型的三大挑戰(zhàn)是算力、數(shù)據(jù)、指令模糊性。要想做到物體和空間的一致性,往往伴隨著高昂的計(jì)算成本;高質(zhì)量的視覺數(shù)據(jù)集也比文本的更為稀缺。此外,生產(chǎn)讓模型更容易理解視頻的 Prompt,會(huì)比語言模型、文生圖模型難度更大。
此外,Sora 是一個(gè)憑借直覺和概率驅(qū)動(dòng)的模型,而不是靠精確計(jì)算的公式驅(qū)動(dòng)的模型。有人總結(jié)道,「Sora 可以像一個(gè)普通人一樣,通過直覺去理解物理世界,也能解決很多問題,但它沒有辦法像物理學(xué)家一樣造出火箭這種東西。」
無論如何,Sora 跟 GPT 3.5 一樣,驗(yàn)證了技術(shù)方向的可行性,視頻模型的性能未來會(huì)隨著參數(shù)量、數(shù)據(jù)大小和計(jì)算量的增加而提高。
二、又一次降維打擊?
硅谷投資機(jī)構(gòu) a16z 統(tǒng)計(jì),截止去年年底,市面上共有 21 個(gè)公開的視頻模型,其中包括 Runway、Pika、Stable Video Diffusion 等等。
然而,第一個(gè)出圈的還是 Sora,核心依然是它遠(yuǎn)超預(yù)期的效果。以往幾秒鐘的 AI 視頻,給人的感覺還是「會(huì)動(dòng)的圖片」,而 Sora 則展現(xiàn)了對(duì)真實(shí)世界的理解力和還原力,還有對(duì)虛擬場景的充沛想象力。
Sora 官網(wǎng)發(fā)布的幾十個(gè)視頻 Demo 中,有在東京街頭散步的女人、在咖啡杯里航行的海盜船、在雪原上走過的猛犸、無人機(jī)視角拍攝的海浪拍打峭壁、華麗的紙藝海底世界、維多利亞冠鴿的微距特寫,其視頻主體和環(huán)境的一致性令人震撼。咖啡杯里航行的海盜船這個(gè) Demo 里,水面的波紋、船的運(yùn)動(dòng)軌跡,很好地遵循了現(xiàn)實(shí)世界的物理規(guī)律。
阿里巴巴達(dá)摩院的分析認(rèn)為,Sora 的智能涌現(xiàn),體現(xiàn)在它的三位一致性、長距離連貫性和物體持久性、與世界互動(dòng)的能力、對(duì)數(shù)字世界的模擬。
雖然 Sora 對(duì)復(fù)雜的物理預(yù)測還顯得力不從心——比如,一個(gè)人咬了一口餅干,但餅干上并沒有出現(xiàn)咬痕,但許多從業(yè)者認(rèn)為,這是 AI 真正理解世界的開端,隨著模型能力的持續(xù)提升,它對(duì)物理世界的理解和還原會(huì)更加準(zhǔn)確。
此外,OpenAI 不僅公布了 Demo 視頻,同時(shí)公布了每一個(gè) Sora 生成視頻的指令,方便大家嘗試其他產(chǎn)品后,對(duì)比效果。
盡管外界擔(dān)心其他文生視頻初創(chuàng)企業(yè)的命運(yùn),但創(chuàng)始人們表現(xiàn)出的興奮卻遠(yuǎn)遠(yuǎn)大過恐懼。
Runway CEO Cristóbal 感慨技術(shù)進(jìn)步的速度,過去需要以年計(jì)算的技術(shù)進(jìn)步,現(xiàn)在壓縮到了月的維度,他預(yù)測技術(shù)將會(huì)更快地進(jìn)化,每天、甚至每個(gè)小時(shí),都可以涌現(xiàn)出新的技術(shù)實(shí)現(xiàn)。Pika 創(chuàng)始人郭文景也在媒體采訪中表示,「(Sora)是一個(gè)振奮人心的消息,我們準(zhǔn)備直接沖,將直接對(duì)標(biāo)Sora?!?/p>
去年 8月,OpenAI 對(duì)外披露了首次收購行為。
被收購公司 Global Illumination,開發(fā)了一款名為 Biomes 的開源大型多人在線沙盒游戲,類似于瀏覽器上運(yùn)行的《我的世界》。當(dāng)時(shí)就有人指出,借助開放式游戲中玩家的交互,OpenAI 通過這次收購,能為 AGI 構(gòu)建真正的數(shù)據(jù)集;也有人猜測,OpenAI 將會(huì)推出游戲或視頻模型產(chǎn)品。
從 Sora 的效果看,或許這次收購的確對(duì) Sora 的訓(xùn)練數(shù)據(jù)優(yōu)化有一些幫助。
三、世界模擬器?
「Sora 是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ),我們相信這一功能將成為實(shí)現(xiàn) AGI 的重要里程碑?!筄penAI 在技術(shù)報(bào)告的最后寫道。
ChatGPT 是思維世界的模擬器,Sora 是物理世界的模擬器,出門問問 CEO 李志飛評(píng)論,「OpenAI 的科學(xué)家們果然一直有著創(chuàng)世的沖動(dòng)?!?/p>
有技術(shù)人員猜測,Sora之所以具備強(qiáng)大的能力,得益于模型和數(shù)據(jù)。
首先,與 Runway、Pika 的技術(shù)路線不同,Sora 使用了基于 Transformer 的擴(kuò)散模型(Diffusion Model),可以通過自注意力機(jī)制(Self-attention)來學(xué)習(xí)視頻數(shù)據(jù)中各個(gè)元素塊之間的關(guān)系,并模擬數(shù)據(jù)的擴(kuò)散過程,生成高質(zhì)量的視頻輸出。
其次,Sora 能將不同類型的視覺數(shù)據(jù),轉(zhuǎn)化成統(tǒng)一的視覺補(bǔ)?。≒atch)。Patch 之于 Sora,就像 token 之于 ChatGPT。ChatGPT 把各種語言、編程代碼都切分為 token,Sora 把圖片、視頻都切割為 patch。
OpenAI 認(rèn)為,將視覺數(shù)據(jù)統(tǒng)一處理,將帶來兩點(diǎn)好處:首先是采樣的靈活性,通過統(tǒng)一的數(shù)據(jù)表示,Sora 可以靈活處理不同寬高比的視頻內(nèi)容。其次是更好的構(gòu)圖效果。在原始寬高比的視覺數(shù)據(jù)上進(jìn)行訓(xùn)練,Sora 可以更好地學(xué)習(xí)和理解構(gòu)圖,使得生成的內(nèi)容更符合人類的視覺習(xí)慣和審美標(biāo)準(zhǔn)。
如同 ChatGPT 在專業(yè)領(lǐng)域的能力,還比不過詳細(xì)定義規(guī)則的小模型一樣,Sora 雖然對(duì)物理世界有一定理解,并擁有更強(qiáng)大的泛化能力,但它與此前的物理仿真模擬相比,預(yù)測價(jià)值仍然有限。
比如,物理仿真模型可以預(yù)測汽車在相撞時(shí)的反彈效果和形變,但 Sora 無法發(fā)揮這樣的作用。OpenAI 官網(wǎng)發(fā)布的 Demo 也表現(xiàn)出,Sora 無法很好地模擬玻璃杯破碎時(shí)的動(dòng)態(tài),混淆了玻璃破碎和液體溢出的順序,倒下的玻璃杯甚至與桌面融為一體。
英偉達(dá)的研究人員Jim Fan認(rèn)為,這有兩種可能的解釋:一是模型之所以犯這樣的錯(cuò)誤,是因?yàn)樗静粚W(xué)習(xí)物理,只是簡單地縫合像素;二是模型實(shí)現(xiàn)了一個(gè)內(nèi)部的物理引擎,但這個(gè)引擎還不夠好,就像 Unreal Engine v1 在流體和可變形物體等物理模擬方面比 v5 要差得多,渲染效果也差得多,并且不符合物理規(guī)律。他本人更傾向于第二種解釋。
但模型能力的提升是可預(yù)見的,因?yàn)槿祟惿a(chǎn)視覺數(shù)據(jù)的速度前所未有地加速了:全世界遍布攝像頭,每人每天都在用智能手機(jī)采集這個(gè)世界。這將成為模型理解世界的通路。此外,UE 5 也可以模擬多角度的高清視頻,讓模擬出來的視覺數(shù)據(jù)更加優(yōu)質(zhì)。
從 Sora 中我們不難看出,頭部玩家 OpenAI 的思路是「集中力量辦大事」:專注提高模型的能力,只進(jìn)行輕度的產(chǎn)品化。畢竟,能生產(chǎn) 60s 視頻的模型,要比添加了很多細(xì)碎功能、復(fù)雜按鈕的視頻產(chǎn)品震撼多了。此外,誰也無法預(yù)測模型智能程度的提升曲線,產(chǎn)品設(shè)計(jì)的節(jié)奏很可能追不上模型進(jìn)步的速度。
當(dāng)下對(duì)于大模型公司來說,模型能力才是最好的增長手段。不僅SLG(Sale-lead growth)顯得過于原始,甚至PLG(Product-lead growth)也有些過時(shí),我們正在迎來一個(gè)MLG(Model-lead growth)的時(shí)代。
作者:yuanyuan;編輯:翟文婷
來源公眾號(hào):新莓daybreak(ID:new-daybreak),理解人,發(fā)現(xiàn)變化。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新莓daybreak 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Sora官方視頻截圖
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!