Sora“轟炸”影視圈,普通人的風(fēng)口來了
前幾天的Sora真的太火了,不光是各個大佬都開始發(fā)聲,超低的門檻讓普通人也能以文字的方式生成視頻。“人人都能當(dāng)導(dǎo)演的日子臨近了?!闭缫晃痪W(wǎng)友的發(fā)言,用戶的期待永遠比技術(shù)落地的腳步更快一些。但真的是這樣嗎?我們不妨讓技術(shù)再飛一會。
前有《我們一起搖太陽》《紅毯先生》等四部影片宣布撤檔,讓春節(jié)檔開啟“撤檔元年”,后有人工智能(AI)巨頭OpenAI發(fā)布首個文生視頻模型Sora,迎來AI視頻的“GPT時刻”。這個龍年春節(jié),奏響了獨屬于影視從業(yè)者的“冰與火之歌”。
通過Sora生成的視頻,能看到主角、背景人物,都展現(xiàn)了極強的一致性,可以支持60秒一鏡到底,并包含高細致背景、多角度鏡頭,以及富有情感的多個角色……即意味著,只需輸入一段文字描述,或許每個使用Sora技術(shù)的普通人,不用親身上陣痛苦減肥也能當(dāng)上如賈玲這樣的“大導(dǎo)演”。
上一次能如此快速引爆網(wǎng)絡(luò)關(guān)注的還是在2022年11月推出的ChatGPT,而如今,ChatGPT不僅引領(lǐng)了全球大模型的蓬勃發(fā)展,也開始在文本等相關(guān)行業(yè)展現(xiàn)其強大的生產(chǎn)力。作為今年的開年“王炸”,Sora自然被外界廣泛期待著可以承接起ChatGPT的衣缽,改寫視頻等產(chǎn)業(yè)的發(fā)展。
不過,目前60秒的生成視頻還撐不起一部電影,真想實現(xiàn)自己的“導(dǎo)演夢”,還得讓技術(shù)“再飛一會兒”。
一、震撼全球的“60秒”
“OpenAI發(fā)布文生視頻模型Sora,AI視頻進入大規(guī)模應(yīng)用前夜?!?/p>
“從相關(guān)受益細分行業(yè)來看,下游應(yīng)用側(cè)包括但不限于視頻美化、廣告營銷、短劇、游戲、辦公軟件等?!?/p>
“Sora三大亮點突出,實現(xiàn)AIGC領(lǐng)域的里程碑式進展?!?/p>
“AI視頻生成等多模態(tài)模型有望在影視、動畫、游戲、音樂等IP開發(fā)中發(fā)揮更大作用,繼續(xù)推動IP開發(fā)降本增效,帶來增量變現(xiàn)空間,并拉動算力需求?!?/p>
……
自16日凌晨發(fā)布以來,不過短短幾天時間就有超過14家券商發(fā)布逾19份相關(guān)研報,均對Sora給予了極高評價。
同樣對Sora的出現(xiàn)飽含驚嘆的還有不少科技圈名人。
針對網(wǎng)友“貝夫?杰索斯”在社交平臺上轉(zhuǎn)發(fā)的一段Sora演示視頻,配文聲稱“gg Pixar”,馬斯克在這條推文下方表示,“gg humans”(gg是網(wǎng)絡(luò)游戲的用語之一,原指游戲結(jié)束時玩家互相致意,后引申為“游戲結(jié)束”),并借此盛贊,“在未來的幾年里,人類借助 AI 的力量,將創(chuàng)造出卓越的作品?!?/p>
360公司董事長周鴻祎在朋友圈發(fā)文稱,“一旦AI能夠接上攝像頭,觀看并理解世界上所有的電影,它對世界的理解能力將遠遠超過僅僅通過文字學(xué)習(xí)所能達到的水平。在這種情況下,實現(xiàn)通用人工智能不再是遙不可及的夢想?!?/p>
前阿里巴巴副總裁,Lepton AI公司創(chuàng)始人賈揚清則直接評價Sora“真的非常?!?,他表示,“Sora的問世可能會給對作OpenAI的公司帶來一波被大廠FOMO(害怕錯過機會而導(dǎo)致的收購)收購的機會?!?/p>
關(guān)鍵是,Sora為什么會被業(yè)界廣泛視作影視行業(yè)的領(lǐng)航技術(shù)?
其實在Sora出現(xiàn)之前,類似的AI視頻模型也有:谷歌在去年12月21日發(fā)布一個全新的視頻生成模型VideoPoet,能夠執(zhí)行包括文本到視頻、圖像到視頻、視頻風(fēng)格化等操作;Meta發(fā)布的Emu Video,能夠基于文本和圖像輸入生成視頻剪輯;Runway的Gen2具有Motion Brush動態(tài)筆刷功能,只需要在圖像中的任意位置一刷,就能使圖像中靜止的物體動起來;Stable AI推出Stable Video Diffusion,可以根據(jù)圖像自動生成高品質(zhì)的視頻剪輯;此前一夜爆紅的文生視頻軟件Pika,更是掀起了AI視頻的應(yīng)用熱潮。
但就像OpenAI的技術(shù)報告所說的那樣,“Sora能夠深刻地理解運動中的物理世界,堪稱為真正的「世界模型」”。
圖片來源:Sora技術(shù)報告
Sora有別于上述AI視頻模型的優(yōu)勢在于,既能準(zhǔn)確呈現(xiàn)細節(jié),又能理解物體在物理世界中的存在,并生成具有豐富情感的角色,甚至該模型還可以根據(jù)提示、靜止圖像甚至填補現(xiàn)有視頻中的缺失幀來生成視頻。
新京報的實測對比結(jié)果顯示,在相同的提示詞下,Pika僅能生成3秒的視頻,Gen-2video則可以生成4秒的視頻,Sora生成的視頻時間最多可達1分鐘。在內(nèi)容方面,無論是Pika還是Gen-2video都難以始終保持同一人物的連貫性,而Sora不僅體現(xiàn)了提示詞中的全部細節(jié),而且還很好地保持了人物的連貫性,使得該視頻幾乎可以“以假亂真”。
二、新王上位,誰在蠢蠢欲動
眼看Sora“高開瘋走”的勢頭如此明顯,其競爭對手也坐不住了。
在Sora出現(xiàn)之前,AI生成視頻的默認(rèn)選擇是Runway,尤其是自去年11月推出第二代模型Gen-2以來,不僅解決了第一代AI生成視頻中每幀之間連貫性過低的問題,在從圖像生成視頻的過程中也能給出很好的結(jié)果,因此還被稱為“AI視頻界的MidJourney”。
但在Sora發(fā)布后,Runway的CEO克里斯托瓦爾·巴倫蘇埃拉只在X平臺上給出了一個簡短的宣言:“Game On(比賽開始了)?!?/p>
國內(nèi)針對AI視頻相關(guān)研發(fā)和布局多模態(tài)大模型的企業(yè),追趕前沿技術(shù)的腳步同樣不曾停歇。
據(jù)不完全統(tǒng)計,包括萬興科技、博匯科技、當(dāng)虹科技、易點天下、數(shù)碼視訊、漢王科技、神思電子、東方國信、因賽集團、拓爾思、國脈文化、佳都科技在內(nèi)的超10家A股上市公司近三個月以來在互動平臺披露視頻生成模型領(lǐng)域的業(yè)務(wù)情況。
其中,易點天下在2月4日在投資者互動平臺表示,公司旗下AIGC創(chuàng)作平臺KreadoAI可以幫助企業(yè)實現(xiàn)從腳本撰寫、語音克隆、個性化數(shù)字人選擇到輸出口播視頻的內(nèi)容生產(chǎn)AI化全鏈路閉環(huán)。
萬興科技2月2日在互動平臺表示,其視頻創(chuàng)意產(chǎn)品萬興喵影/Filmora可用于各類視頻的創(chuàng)作和剪輯,“天幕”大模型是以視頻創(chuàng)意類AI技術(shù)為核心的多媒體大模型涵蓋音頻、圖像、視頻等多模態(tài)能力。
當(dāng)虹科技1月5日在互動平臺表示,公司擁有自研的AIGC工具集,發(fā)布了以靜態(tài)照片生成三維體積視頻的方案,并且通過點云模型轉(zhuǎn)換及壓縮算法實現(xiàn)高達800倍的視覺無損壓縮,實現(xiàn)不同模態(tài)之間相互切換。
更甚至于,自2023年下半年以來,國內(nèi)科技巨頭在多模態(tài)AI上投入的不少資源已經(jīng)取得了實質(zhì)性進展,如阿里巴巴的Animate Anyone和字節(jié)跳動的Magic Animate,都是圖片轉(zhuǎn)視頻技術(shù)的落地應(yīng)用。
阿里巴巴的Animate Anyone技術(shù)
可見,得益于全球生成式AI技術(shù)的持續(xù)發(fā)展,不僅是來自視頻生成模型領(lǐng)域的企業(yè)在積極“備戰(zhàn)”,包括文生圖、視頻、音樂、代碼等多方面應(yīng)用的迭代更新,還有望長期給更多相關(guān)行業(yè)帶來“革命”發(fā)展的機會——以全球視角來看,算力產(chǎn)業(yè)鏈從上游硬件、中游服務(wù)器/交換機、下游應(yīng)用側(cè)閉環(huán)現(xiàn)愈發(fā)清晰,從云側(cè)到端側(cè)、從硬件到軟件均呈現(xiàn)生機勃勃之景。
這也意味著,從全球算力產(chǎn)業(yè)鏈核心廠商,到端側(cè)AI相關(guān)企業(yè),再到國產(chǎn)化算力公司(包括AI服務(wù)器零部件、服務(wù)器整機、算力租賃、數(shù)據(jù)中心等環(huán)節(jié))的整個輻射范圍,均是以Sora的出現(xiàn)為契機,開啟屬于自己的爆發(fā)式更新,更為實現(xiàn)普通人的“導(dǎo)演夢”打下了堅實的技術(shù)基礎(chǔ)。
三、下個春節(jié)檔,也許人人皆導(dǎo)演
“人人都能當(dāng)導(dǎo)演的日子臨近了?!闭缫晃痪W(wǎng)友的發(fā)言,用戶的期待永遠比技術(shù)落地的腳步更快一些。
盡管Sora發(fā)布的視頻中時間最長的只有一分鐘,但業(yè)內(nèi)人士預(yù)測,按照OpenAI的迭代速度,生產(chǎn)出幾十分鐘的AI視頻也不遠了,“未來數(shù)年內(nèi),將對整個影視制作和短視頻行業(yè)帶來顛覆性沖擊,元宇宙的高光時刻也會越來越近。”
不過Sora所生成的視頻內(nèi)容在網(wǎng)絡(luò)上爆火的同時,也有不少人發(fā)現(xiàn)了其中的不足之處:雖然在視頻畫質(zhì)、細節(jié)、光影和色彩等方面表現(xiàn)出色,但在涉及鏡頭運動角度和更精細內(nèi)容調(diào)控方面仍稍遜一籌,如一分鐘的東京街頭女郎漫步場景中,女郎走路過程中存在腿部變形、腿部交叉換位時錯亂等錯誤。
有媒體通過Sora進行測試“找茬”
對此,Perplexity AI的首席執(zhí)行官表示,“Sora雖然令人驚嘆,但還沒有準(zhǔn)備好對物理進行準(zhǔn)確的建模。并且Sora的作者非常機智,在博客的技術(shù)報告部分提到了這一點,比如打碎的玻璃無法很好地建模?!?/p>
而針對目前Sora存在的不成熟之處,OpenAI方面也表示承認(rèn)并正在積極改進,還稱其將繼續(xù)努力提升Sora的性能和精度,以期在未來為影視行業(yè)帶來更多創(chuàng)新和突破。
實際上,基于目前Sora已經(jīng)展現(xiàn)出來的技術(shù)特點,不少影視從業(yè)者認(rèn)為,要應(yīng)用到影視行業(yè)制作上,AI生成視頻技術(shù)至少要做到能對細節(jié)之處隨時調(diào)整,并且生成的視頻具有一定穩(wěn)定性,不能有變化,顯然Sora目前的精細度還達不到這樣的要求,但將其用于前期開發(fā)(尤其是概念設(shè)計)已經(jīng)夠用,甚至基于當(dāng)下高昂的人工制作成本,如果未來Sora的技術(shù)迭代能達到投入影視行業(yè)商業(yè)應(yīng)用階段,其發(fā)展空間之大也是可以預(yù)見的。
Sora距離用戶期待的樣子似乎只需經(jīng)過一段時間的等待,但需要注意的是,從實際情況來看,AI視頻技術(shù)落地還充滿了不確定性,尤其是從技術(shù)的復(fù)雜性到倫理及版權(quán)問題上。
中國社會科學(xué)院法學(xué)研究所副研究員唐林垚認(rèn)為,AI生成視頻帶來的挑戰(zhàn)包括但不限于如何有效區(qū)分真實和虛假內(nèi)容,以及如何確保人工智能作品不被用于誤導(dǎo)公眾或其他非法目的;更進一步的法治挑戰(zhàn)在于,如何平衡強監(jiān)管與行業(yè)發(fā)展之間的張力。
對于視頻生成技術(shù)的濫用以及AI模型的透明度和可解釋性,業(yè)界仍在尋求答案和解決方案。而當(dāng)下,我們能做的也只是讓技術(shù)“再飛一會兒”。
作者:孟會緣,編輯:黎文婕
來源公眾號:鋅刻度(ID:znkedu),專注科技、互聯(lián)網(wǎng)新經(jīng)濟原創(chuàng)深度報道。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @鋅刻度 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!