Sora翻車引發(fā)對(duì)視頻生成AI的思考
隨著人工智能技術(shù)的飛速發(fā)展,視頻生成AI成為了當(dāng)下科技領(lǐng)域的熱門話題。Sora,這款備受矚目的視頻AI大模型,在發(fā)布之初便吸引了眾多目光,被寄予厚望。然而,經(jīng)過一系列的測(cè)試與對(duì)比,Sora的表現(xiàn)似乎并未達(dá)到預(yù)期,甚至在多個(gè)方面不如國(guó)產(chǎn)的可靈。
Sora已經(jīng)發(fā)布快一個(gè)月了,小的結(jié)合公司內(nèi)的業(yè)務(wù)進(jìn)行了不少案例的測(cè)試,也逐漸對(duì)這個(gè)2月15日發(fā)布、被號(hào)稱“平等創(chuàng)飛每個(gè)人”的視頻AI大模型祛魅了,其綜合表現(xiàn)甚至不如國(guó)產(chǎn)的AI視頻(沒錯(cuò),就是指可靈)。
于是,我便打算將我測(cè)試過程中對(duì)Sora的評(píng)價(jià)、對(duì)其功能的思考小小匯總一下,形成這篇文章,與各位大佬分享一二。
一、Sora對(duì)比國(guó)內(nèi)AI
目前整體測(cè)試起來(lái),Sora在“指令遵循”、“畫面邏輯BUG”、“前后細(xì)節(jié)不一”、“前后畫風(fēng)割裂”、“非真人畫風(fēng)處理”等問題上都不如國(guó)產(chǎn)的視頻大模型可靈。
下面用一些例子來(lái)說(shuō)明。(為了更清晰地對(duì)比兩者的能力,我還是會(huì)分“低”、“中”、“高”多個(gè)難度檔位進(jìn)行測(cè)試,難度的提升以“控制主體數(shù)量”、“細(xì)節(jié)描述豐富度”、“動(dòng)作復(fù)雜度”、“是否與場(chǎng)景互動(dòng)”為大致的邊界。)
圖生視頻 – 案例一:人物奔跑
1. 低難度
左側(cè)為sora,右側(cè)為可靈
提示詞:
人物在奔跑
2. 中難度
左側(cè)為sora,右側(cè)為可靈
提示詞:
鏡頭固定,人物在一片黑暗中奔跑
3. 高難度
左側(cè)為sora,右側(cè)為可靈
提示詞:
鏡頭固定,人物在奔跑,背后煙霧繚繞
小結(jié):
1.Sora似乎有自己的想法,對(duì)于上傳的圖片基本不會(huì)遵循,背景、人物都沒有很好地保持“一致性”。而可靈能很好地做到前后保持一致。
2.Sora生成的動(dòng)作更活躍,動(dòng)作連貫,不像可靈,生成的是慢動(dòng)作的內(nèi)容。
圖生視頻 – 案例二:孫悟空騰云駕霧
1. 低難度:
左側(cè)為sora,右側(cè)為可靈
提示詞:
人物站在云上飛行
2. 中難度:
左側(cè)為sora,右側(cè)為可靈
提示詞:
鏡頭固定,人物站在云上飛行,衣服飄動(dòng)
3. 高難度:
左側(cè)為sora,右側(cè)為可靈
提示詞:
鏡頭固定,人物站在云上飛行,背后煙霧繚繞,背景越來(lái)越遠(yuǎn)
小結(jié):
1.同樣基本不用對(duì)比,Sora完全沒有遵循原本圖片的內(nèi)容,直接從某一幀開始展現(xiàn)自己的無(wú)關(guān)畫面內(nèi)容。
2.可靈雖然在高難度下沒有遵循到遠(yuǎn)景遠(yuǎn)離的需求,但是在中低難度下,基本完成了“騰云駕霧”的要求。
圖生視頻 – 案例三:二次元展示圖片
1. 低難度:
左側(cè)為sora,右側(cè)為可靈
提示詞:
人物站立不動(dòng),衣服隨風(fēng)飄動(dòng)
2. 中難度:
左側(cè)為sora,右側(cè)為可靈
提示詞:
鏡頭固定,人物站立不動(dòng),衣服隨風(fēng)飄動(dòng),武器輕微晃動(dòng)
3. 高難度:
左側(cè)為sora,右側(cè)為可靈
提示詞:
鏡頭固定,人物站立不動(dòng),衣服隨風(fēng)飄動(dòng),人物周圍環(huán)繞著藍(lán)色火焰
小結(jié):
不說(shuō)了,在這個(gè)場(chǎng)景上,可靈完爆……
圖生視頻 – 案例四:人物打架
1. 低難度:
左側(cè)為sora,右側(cè)為可靈
提示詞:
兩人開始打架
2. 中難度:
左側(cè)為sora,右側(cè)為可靈
提示詞:
鏡頭固定,兩人開始瘋狂打架,拳頭速度飛快
3. 高難度:
左側(cè)為sora,右側(cè)為可靈
提示詞:
鏡頭固定,兩人開始瘋狂打架,拳頭速度飛快,地上濃煙滾滾,石頭飛濺,背后房屋倒塌
小結(jié):
1.Sora,你小子……無(wú)法在原視頻上做到指令遵循,你自己變一個(gè)視頻來(lái)遵循指令……
2.提示詞不充分的情況下,可靈不會(huì)執(zhí)行“打架”的指令,但是也比Sora好了,至少做到“濃煙滾滾”。
文生視頻 – 案例五:人在馬路上行走
1. 低難度:
左側(cè)為sora,右側(cè)為可靈
提示詞:
一個(gè)人在路邊行走。
2. 中難度:
左側(cè)為sora,右側(cè)為可靈
提示詞:
鏡頭固定,一個(gè)人在路邊行走,馬路上車很多。
3. 高難度:
左側(cè)為sora,右側(cè)為可靈
提示詞:
鏡頭固定,一個(gè)人在路邊行走,馬路上車很多。突然一輛車把人給撞了。
小結(jié):
1.Sora中低難度下,指令遵循得很好,畫面也很清晰,大體上任務(wù)動(dòng)作、物理邏輯都沒啥大問題。(除了有個(gè)人在反復(fù)往前走、往后退)
2.可靈在現(xiàn)實(shí)類場(chǎng)景的生成上,效果會(huì)比Sora差一些,會(huì)有一種“油油”的效果,而且部分畫面上會(huì)存在物理漏洞(比如路人的手消失了、一輛車逆行停在馬路上)。
3.兩位AI同學(xué)都沒有遵循到高難度下的“撞車”指令。
文生視頻 – 案例六:人在云上飛行
1. 低難度:
左側(cè)為sora,右側(cè)為可靈
提示詞:
人物站在云上飛行
2. 中難度:
左側(cè)為sora,右側(cè)為可靈
提示詞:
鏡頭固定,人物站在云上飛行,衣服飄動(dòng)
3. 高難度:
左側(cè)為sora,右側(cè)為可靈
提示詞:
鏡頭固定,人物站在云上飛行,背后煙霧繚繞,背景越來(lái)越遠(yuǎn)
小結(jié):
在這個(gè)場(chǎng)景上,可靈比起Sora就差點(diǎn)意思了。
首先,可靈生成的畫面不夠Sora好看。其次,可靈的畫面效果有一種怪異的感覺,特別是低難度下的那個(gè)人物(不過也怪我提示詞沒有描述到人物主體)。
二、匯總小結(jié)
1.在圖生視頻領(lǐng)域,目前是可靈相對(duì)領(lǐng)先??伸`能夠做到“尊重”用戶上傳的圖片,不給到過多跳躍的想法。(這里批評(píng)Sora自己無(wú)法在原圖片上遵循指令,會(huì)自己變出一個(gè)畫面來(lái)遵循指令)不過在相對(duì)復(fù)雜一點(diǎn)的提示詞下,可靈還是做得不是很到位,僅僅起到“讓圖片穩(wěn)定地動(dòng)起來(lái)”的效果。
2.在文生視頻領(lǐng)域,兩者指令遵循效果差不多。但是個(gè)人感覺,Sora的生成效果會(huì)更具“美感”,相對(duì)來(lái)說(shuō)畫面效果會(huì)更好看。
此外,Sora還有一個(gè)優(yōu)點(diǎn)——“快”,平均一分鐘內(nèi)能產(chǎn)出視頻。不過這個(gè)和使用人數(shù)有一定關(guān)系。因此,目前Sora整體上還是比不過國(guó)產(chǎn)的可靈,只有在文生視頻效果和生成速度上有優(yōu)勢(shì)。
三、銳評(píng)Sora的“創(chuàng)新”功能
除了視頻生成能力,Sora還提出了不少新的視頻生成輔助功能,相比起目前市面上的AI視頻工具能力,也頗為創(chuàng)新,下面一一列出來(lái)簡(jiǎn)單銳評(píng)下。
生成參數(shù)設(shè)置
其中參數(shù)設(shè)置功能基本上涵蓋了市面上都有的能力,比如視頻比例、清晰度、時(shí)長(zhǎng)、抽卡次數(shù)。值得一提的是,這里看起來(lái)頗為創(chuàng)新的“預(yù)設(shè)風(fēng)格”能力,本質(zhì)上與PixVerse、PIKA的“特效玩法”是一樣的。這些都是對(duì)某個(gè)場(chǎng)景的定向訓(xùn)練結(jié)果,用以做到某類固定的特效,比如Pika的“捏碎一切”、PixVerse的“毒液變身”。
目前Sora支持“氣球世界、定格動(dòng)畫、檔案、黑色電影、紙板和紙藝”這些風(fēng)格(機(jī)翻結(jié)果),相比起PixVerse和PIKA,Sora的風(fēng)格有點(diǎn)保守,不夠好玩。
emm,不是很能欣賞。
故事板及其衍生應(yīng)用
值得一提的是,Sora推出了故事板功能。故事板功能允許用戶導(dǎo)入腳本,按分鏡進(jìn)行視頻創(chuàng)作,從而生成符合需求的視頻片段。
雖然即夢(mèng)也有類似的能力,但是即夢(mèng)是基于上傳的多個(gè)分鏡 或者 圖片描述進(jìn)行生成,一致性較差。而Sora本質(zhì)上是基于一個(gè)視頻生成,會(huì)保持一定的視頻一致性。
如示例視頻,我想生成“一個(gè)人走路,然后停下來(lái),最后沖著鏡頭微笑”的視頻。雖然并不能完全遵循三個(gè)要求,但是也捉到了一定的“一致性保持”。
基于Sora的故事板能力,Sora還提供了“重新剪輯”功能,能夠?qū)σ粋€(gè)已經(jīng)生成的視頻進(jìn)行修改,實(shí)現(xiàn)“控制每一秒”的生成內(nèi)容。
比如示例這里,我可以對(duì)一個(gè)已經(jīng)生成的視頻進(jìn)行切割,在中間補(bǔ)充上一個(gè)畫面進(jìn)行重新生成。(雖然執(zhí)行效果不咋地。)
視頻二次修改
除了可以通過故事板對(duì)視頻進(jìn)行二次修改,Sora還提供了重混(Remix)、混合(Blend)、循環(huán)(Loop)這三個(gè)視頻二次編輯功能。
重混(Remix)支持對(duì)于已生成的視頻使用文字進(jìn)行修改,支持7個(gè)檔位的修改。實(shí)際測(cè)試下來(lái),會(huì)存在指令遵循不到位的情況。
比如我想把下方左圖的視頻變成右圖的冬天黑人,結(jié)果人物、運(yùn)鏡和動(dòng)作等已有的結(jié)果都丟失了,直接前功盡棄,把我的視頻mix得一團(tuán)糟。
混合(Blend)支持把兩個(gè)視頻融合,融合模式支持3種,分別為過渡、混合、樣本、自定義,本質(zhì)上是控制兩個(gè)視頻的過渡曲線,控制B視頻什么時(shí)候開始侵入A視頻、侵入程度如何。
實(shí)際測(cè)試下來(lái),這個(gè)能力會(huì)先結(jié)合兩個(gè)視頻的特點(diǎn),生成一個(gè)前后兩種“不同但又互相融合特征”的視頻,然后加上過度的效果。不過測(cè)試了幾個(gè)案例,發(fā)現(xiàn)它的“過度效果”基本都是“發(fā)光”,然后漸變過渡,頗為生硬(如中間的圖)。甚至有的會(huì)直接播一半時(shí)候切換到下一個(gè)視頻(如最右的圖)。
四、小結(jié)
整體看下來(lái),Sora的新功能大部分都能在別的廠商的AI視頻工具上找到對(duì)應(yīng)。其中較為突出的是在“精準(zhǔn)控制生成視頻結(jié)果”方面的創(chuàng)新,比如:
1.故事板的分鏡控制能力。其保持一致性的前提下,控制每一秒的生成內(nèi)容。
2.視頻二次修改能力。通過文本對(duì)視頻進(jìn)行二次修改,以保證生成結(jié)果符合要求。
但是由于現(xiàn)在Sora底層大模型能力還不夠,這些創(chuàng)新方案并沒有發(fā)揮它們想象的水平,所以看起來(lái)“沒什么作用”。
不過Sora這里的對(duì)于“如何更準(zhǔn)確地生成目標(biāo)視頻”這個(gè)問題的解題思路,值得參考與學(xué)習(xí)。但是這類能力估計(jì)會(huì)對(duì)“視頻一致性”能力做出一定要求,就算放出相關(guān)功能,效果也可能不會(huì)很好??伸`還會(huì)持續(xù)領(lǐng)先嗎?
那既然目前測(cè)試到Sora整體上不如可靈,那么可靈在未來(lái)也會(huì)持續(xù)保持領(lǐng)先地位嗎?小的將沿著之前幾篇AI視頻相關(guān)的思考文章的結(jié)論捋一捋。
1.可靈目前能服務(wù)更廣泛的用戶需求,而這是當(dāng)前階段競(jìng)爭(zhēng)的關(guān)鍵。
之前《淺談當(dāng)前的AI剪輯工具》提到過未來(lái)AI視頻廠商更容易卷成的特點(diǎn),分別是:
1)有用戶:用AI視頻工具能吸引到足夠的目標(biāo)用戶。
2)能賺錢:能夠跑通與用戶價(jià)值交換的商業(yè)邏輯。
3)有壁壘:在前兩個(gè)過程中構(gòu)建自己的競(jìng)爭(zhēng)壁壘,以源源不斷進(jìn)行價(jià)值交換。
目前AI視頻廠商的商業(yè)模式基本上都是“能賺錢”的,除非搞“比較離譜”的價(jià)格戰(zhàn)。所以目前可靈和Sora基本上都不會(huì)是“沒錢賺的”,但是是否盈利就暫且未知了,可能前期訓(xùn)練成本大于收入。
而隨著大模型能力、用戶量級(jí)、行業(yè)方案解決的積累,“有壁壘”這一點(diǎn)是會(huì)自然而然就能滿足的。
那么小的覺得,目前階段“誰(shuí)能領(lǐng)先”的關(guān)鍵應(yīng)該在于“有用戶”這點(diǎn)上。
之前提到過,AI廠商必須圍繞目標(biāo)用戶群體的需求進(jìn)行大模型訓(xùn)練,才能積累到足夠的目標(biāo)用戶。而我們可以發(fā)現(xiàn),可靈是相對(duì)擅長(zhǎng)“圖生視頻”領(lǐng)域的,而“圖生視頻”領(lǐng)域覆蓋的用戶面更廣。
為什么會(huì)有如此結(jié)論?下面是我分析。
如果我們可以按“文生視頻”和“圖生視頻”對(duì)AI視頻能力進(jìn)行分類,可以發(fā)現(xiàn):
1)“文生視頻”目前適用于“不需要與前后分鏡保持一致的”視頻生成場(chǎng)景。比如“生成一個(gè)風(fēng)景畫面”、“生成只會(huì)出現(xiàn)一次的人物”。
2)“圖生視頻”目前適用于“有一定的基礎(chǔ)物料,且需要生成的視頻與這些物料保持一致”的視頻生成場(chǎng)景。比如“廣告介紹畫面”、“手辦動(dòng)起來(lái)”、“圖片動(dòng)起來(lái)”。
相對(duì)來(lái)說(shuō),“圖生視頻”所適用范圍會(huì)更廣,因?yàn)椤拔纳曨l”更適合在故事創(chuàng)作的場(chǎng)景,通過適用“文生視頻”來(lái)補(bǔ)齊畫面。而“圖生視頻”不僅僅能用在娛樂,也可被廣告、營(yíng)銷等場(chǎng)景使用,可以生成一些商品的宣傳物料、補(bǔ)齊一些視頻的片段。(雖然現(xiàn)在有一個(gè)“文生視頻”分支,允許上傳一張圖片,讓AI參考圖片的主體進(jìn)行文字控制生成,目前在vidu、pika上有這類能力,但是由于現(xiàn)在效果不太行,暫且不提。)
所以,即便可靈目前沒法處理“相對(duì)復(fù)雜的指令”、“相對(duì)較大的動(dòng)作幅度”、“復(fù)雜的主體交互邏輯”等需求,僅僅能做到基于“相對(duì)簡(jiǎn)單的指令”執(zhí)行“幅度一般的動(dòng)作和偏簡(jiǎn)單的交互”,但是這也能“賦能”一定范圍的視頻生產(chǎn)場(chǎng)景了。這比起Sora來(lái)說(shuō),可靈能服務(wù)于更廣泛的用戶需求,這也意味著擁有獲取“更多用戶”的潛力。
2.Sora一定程度摧毀了用戶的信心,這或許成為后續(xù)Sora的阻力。
AI工具有一個(gè)特點(diǎn),就是“黑盒”特征十分明顯。用戶在進(jìn)行具體的抽卡之前,都不一定知道“AI能否做好我這個(gè)需求?”而且有時(shí)候效果不行,并不一定是AI不行,而是抽卡姿勢(shì)不對(duì)(提示詞、參數(shù)設(shè)置不對(duì))。因此要用好AI工具,必須要要有十足的耐心去反反復(fù)復(fù)地進(jìn)行抽卡。
然而并不是所有用戶都有這么充足的耐心的,大部分用戶只會(huì)嘗試1~2次,看到不行就不管了。所以個(gè)人覺得,AI工具廠商需要給到用戶充足的“信心”,讓其相信“不是工具不行,是我不行”,這樣才能讓用戶拼命抽卡。而構(gòu)建信心的途徑可以是“行業(yè)口碑”、“用戶案例”、“用戶自身經(jīng)驗(yàn)”等等,這也是廠商們吸引用戶以及用戶留存的關(guān)鍵因素。
這么說(shuō)來(lái),Sora的失敗營(yíng)銷就是一定程度對(duì)“用戶信心”進(jìn)行了打擊,這無(wú)疑成了后續(xù)其發(fā)展的阻力。雖然OpenAI這塊招牌或許還有點(diǎn)含金量,但是至少相比之前,國(guó)內(nèi)AI視頻廠商的競(jìng)爭(zhēng)難度無(wú)疑是下降了的。
基于上面兩點(diǎn),小的認(rèn)為,能夠獲取到目標(biāo)用戶群體的AI工具,需要具備以下特點(diǎn):
1)能滿足用戶需求:AI工具要先具有解決某類的用戶需求的”真本事”,后續(xù)才能夠真正地獲取目標(biāo)用戶。否則,即便營(yíng)銷得再好,工具不能發(fā)揮作用,用戶也必定流失。
2)能構(gòu)建用戶信心:在“真本事”的基礎(chǔ)上,廠商就需要構(gòu)建足夠的用戶信心,從而吸引用戶來(lái)使用工具,并在這個(gè)過程中給廠商提供收益。構(gòu)建信心的過程包括但不限于市場(chǎng)營(yíng)銷、用戶運(yùn)營(yíng)等獲客手段,也可以是在用戶使用工具過程中的使用指引、案例展示等能力展示手段。只要用戶有足夠的信心,便能換來(lái)一定量的用戶和留存。
3)能提供良好體驗(yàn):當(dāng)擁有一定量級(jí)的用戶后,廠商則可通過“更優(yōu)秀的用戶體驗(yàn)”來(lái)促進(jìn)用戶的進(jìn)一步留存、付費(fèi)、傳播。良好體驗(yàn)包括但不限于工具操作的便捷性、更精準(zhǔn)的控制參數(shù)等,這些內(nèi)容能讓用戶更充分發(fā)揮AI工具的能力,從而對(duì)工具產(chǎn)生好感,并為此持續(xù)活躍、持續(xù)付費(fèi),甚至是幫廠商推廣。
由此可以看到,目前在“滿足用戶需求”、“構(gòu)建用戶信心”上,可靈是相對(duì)做得較好的。這說(shuō)明可靈目前是相對(duì)優(yōu)勢(shì)的,但是這也并不意味著可靈是會(huì)一直保持優(yōu)勢(shì),因?yàn)檎f(shuō)不定Sora技術(shù)成長(zhǎng)速度更快,能夠解決更多的“用戶需求”,從而做到趕超。畢竟工具產(chǎn)品并沒有太高的沉沒成本,誰(shuí)能滿足更多需求,誰(shuí)的性價(jià)比更高,用戶就用誰(shuí)的。
所以未來(lái)怎么樣,小的怎么可能知道。靜觀其變,擁抱變化。
本文由人人都是產(chǎn)品經(jīng)理作者【檸檬餅干凈又衛(wèi)生】,微信公眾號(hào):【檸檬餅干凈又衛(wèi)生】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Sora生成視頻截圖
- 目前還沒評(píng)論,等你發(fā)揮!