精品无码国产AV中文字幕，国产最新无码专区在线，另类亚洲欧美精品久久不卡，亚洲一区无码，免费五级a一片片久久精品网，亚洲av免费，国产成人精品曰本亚洲79破解，无码中文人妻中文中

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

Sora翻車引發(fā)對(duì)視頻生成AI的思考

檸檬餅干凈又衛(wèi)生

2025-01-13

0 評(píng)論 5982 瀏覽 4 收藏

24 分鐘

隨著人工智能技術(shù)的飛速發(fā)展，視頻生成AI成為了當(dāng)下科技領(lǐng)域的熱門話題。Sora，這款備受矚目的視頻AI大模型，在發(fā)布之初便吸引了眾多目光，被寄予厚望。然而，經(jīng)過一系列的測(cè)試與對(duì)比，Sora的表現(xiàn)似乎并未達(dá)到預(yù)期，甚至在多個(gè)方面不如國(guó)產(chǎn)的可靈。

Sora已經(jīng)發(fā)布快一個(gè)月了，小的結(jié)合公司內(nèi)的業(yè)務(wù)進(jìn)行了不少案例的測(cè)試，也逐漸對(duì)這個(gè)2月15日發(fā)布、被號(hào)稱“平等創(chuàng)飛每個(gè)人”的視頻AI大模型祛魅了，其綜合表現(xiàn)甚至不如國(guó)產(chǎn)的AI視頻（沒錯(cuò)，就是指可靈）。

于是，我便打算將我測(cè)試過程中對(duì)Sora的評(píng)價(jià)、對(duì)其功能的思考小小匯總一下，形成這篇文章，與各位大佬分享一二。

一、Sora對(duì)比國(guó)內(nèi)AI

目前整體測(cè)試起來(lái)，Sora在“指令遵循”、“畫面邏輯BUG”、“前后細(xì)節(jié)不一”、“前后畫風(fēng)割裂”、“非真人畫風(fēng)處理”等問題上都不如國(guó)產(chǎn)的視頻大模型可靈。

下面用一些例子來(lái)說(shuō)明。（為了更清晰地對(duì)比兩者的能力，我還是會(huì)分“低”、“中”、“高”多個(gè)難度檔位進(jìn)行測(cè)試，難度的提升以“控制主體數(shù)量”、“細(xì)節(jié)描述豐富度”、“動(dòng)作復(fù)雜度”、“是否與場(chǎng)景互動(dòng)”為大致的邊界。）

圖生視頻 – 案例一：人物奔跑

1. 低難度

左側(cè)為sora，右側(cè)為可靈

提示詞：

人物在奔跑

2. 中難度

左側(cè)為sora，右側(cè)為可靈

提示詞：

鏡頭固定，人物在一片黑暗中奔跑

3. 高難度

左側(cè)為sora，右側(cè)為可靈

提示詞：

鏡頭固定，人物在奔跑，背后煙霧繚繞

小結(jié)：

1.Sora似乎有自己的想法，對(duì)于上傳的圖片基本不會(huì)遵循，背景、人物都沒有很好地保持“一致性”。而可靈能很好地做到前后保持一致。

2.Sora生成的動(dòng)作更活躍，動(dòng)作連貫，不像可靈，生成的是慢動(dòng)作的內(nèi)容。

圖生視頻 – 案例二：孫悟空騰云駕霧

1. 低難度：

左側(cè)為sora，右側(cè)為可靈

提示詞：

人物站在云上飛行

2. 中難度：

左側(cè)為sora，右側(cè)為可靈

提示詞：

鏡頭固定，人物站在云上飛行，衣服飄動(dòng)

3. 高難度：

左側(cè)為sora，右側(cè)為可靈

提示詞：

鏡頭固定，人物站在云上飛行，背后煙霧繚繞，背景越來(lái)越遠(yuǎn)

小結(jié)：

1.同樣基本不用對(duì)比，Sora完全沒有遵循原本圖片的內(nèi)容，直接從某一幀開始展現(xiàn)自己的無(wú)關(guān)畫面內(nèi)容。

2.可靈雖然在高難度下沒有遵循到遠(yuǎn)景遠(yuǎn)離的需求，但是在中低難度下，基本完成了“騰云駕霧”的要求。

圖生視頻 – 案例三：二次元展示圖片

1. 低難度：

左側(cè)為sora，右側(cè)為可靈

提示詞：

人物站立不動(dòng)，衣服隨風(fēng)飄動(dòng)

2. 中難度：

左側(cè)為sora，右側(cè)為可靈

提示詞：

鏡頭固定，人物站立不動(dòng)，衣服隨風(fēng)飄動(dòng)，武器輕微晃動(dòng)

3. 高難度：

左側(cè)為sora，右側(cè)為可靈

提示詞：

鏡頭固定，人物站立不動(dòng)，衣服隨風(fēng)飄動(dòng)，人物周圍環(huán)繞著藍(lán)色火焰

小結(jié)：

不說(shuō)了，在這個(gè)場(chǎng)景上，可靈完爆……

圖生視頻 – 案例四：人物打架

1. 低難度：

左側(cè)為sora，右側(cè)為可靈

提示詞：

兩人開始打架

2. 中難度：

左側(cè)為sora，右側(cè)為可靈

提示詞：

鏡頭固定，兩人開始瘋狂打架，拳頭速度飛快

3. 高難度：

左側(cè)為sora，右側(cè)為可靈

提示詞：

鏡頭固定，兩人開始瘋狂打架，拳頭速度飛快，地上濃煙滾滾，石頭飛濺，背后房屋倒塌

小結(jié)：

1.Sora，你小子……無(wú)法在原視頻上做到指令遵循，你自己變一個(gè)視頻來(lái)遵循指令……

2.提示詞不充分的情況下，可靈不會(huì)執(zhí)行“打架”的指令，但是也比Sora好了，至少做到“濃煙滾滾”。

文生視頻 – 案例五：人在馬路上行走

1. 低難度：

左側(cè)為sora，右側(cè)為可靈

提示詞：

一個(gè)人在路邊行走。

2. 中難度：

左側(cè)為sora，右側(cè)為可靈

提示詞：

鏡頭固定，一個(gè)人在路邊行走，馬路上車很多。

3. 高難度：

左側(cè)為sora，右側(cè)為可靈

提示詞：

鏡頭固定，一個(gè)人在路邊行走，馬路上車很多。突然一輛車把人給撞了。

小結(jié)：

1.Sora中低難度下，指令遵循得很好，畫面也很清晰，大體上任務(wù)動(dòng)作、物理邏輯都沒啥大問題。（除了有個(gè)人在反復(fù)往前走、往后退）

2.可靈在現(xiàn)實(shí)類場(chǎng)景的生成上，效果會(huì)比Sora差一些，會(huì)有一種“油油”的效果，而且部分畫面上會(huì)存在物理漏洞（比如路人的手消失了、一輛車逆行停在馬路上）。

3.兩位AI同學(xué)都沒有遵循到高難度下的“撞車”指令。

文生視頻 – 案例六：人在云上飛行

1. 低難度：

左側(cè)為sora，右側(cè)為可靈

提示詞：

人物站在云上飛行

2. 中難度：

左側(cè)為sora，右側(cè)為可靈

提示詞：

鏡頭固定，人物站在云上飛行，衣服飄動(dòng)

3. 高難度：

左側(cè)為sora，右側(cè)為可靈

提示詞：

鏡頭固定，人物站在云上飛行，背后煙霧繚繞，背景越來(lái)越遠(yuǎn)

小結(jié)：

在這個(gè)場(chǎng)景上，可靈比起Sora就差點(diǎn)意思了。

首先，可靈生成的畫面不夠Sora好看。其次，可靈的畫面效果有一種怪異的感覺，特別是低難度下的那個(gè)人物（不過也怪我提示詞沒有描述到人物主體）。

二、匯總小結(jié)

1.在圖生視頻領(lǐng)域，目前是可靈相對(duì)領(lǐng)先?？伸`能夠做到“尊重”用戶上傳的圖片，不給到過多跳躍的想法。（這里批評(píng)Sora自己無(wú)法在原圖片上遵循指令，會(huì)自己變出一個(gè)畫面來(lái)遵循指令）不過在相對(duì)復(fù)雜一點(diǎn)的提示詞下，可靈還是做得不是很到位，僅僅起到“讓圖片穩(wěn)定地動(dòng)起來(lái)”的效果。

2.在文生視頻領(lǐng)域，兩者指令遵循效果差不多。但是個(gè)人感覺，Sora的生成效果會(huì)更具“美感”，相對(duì)來(lái)說(shuō)畫面效果會(huì)更好看。

此外，Sora還有一個(gè)優(yōu)點(diǎn)——“快”，平均一分鐘內(nèi)能產(chǎn)出視頻。不過這個(gè)和使用人數(shù)有一定關(guān)系。因此，目前Sora整體上還是比不過國(guó)產(chǎn)的可靈，只有在文生視頻效果和生成速度上有優(yōu)勢(shì)。

三、銳評(píng)Sora的“創(chuàng)新”功能

除了視頻生成能力，Sora還提出了不少新的視頻生成輔助功能，相比起目前市面上的AI視頻工具能力，也頗為創(chuàng)新，下面一一列出來(lái)簡(jiǎn)單銳評(píng)下。

生成參數(shù)設(shè)置

其中參數(shù)設(shè)置功能基本上涵蓋了市面上都有的能力，比如視頻比例、清晰度、時(shí)長(zhǎng)、抽卡次數(shù)。值得一提的是，這里看起來(lái)頗為創(chuàng)新的“預(yù)設(shè)風(fēng)格”能力，本質(zhì)上與PixVerse、PIKA的“特效玩法”是一樣的。這些都是對(duì)某個(gè)場(chǎng)景的定向訓(xùn)練結(jié)果，用以做到某類固定的特效，比如Pika的“捏碎一切”、PixVerse的“毒液變身”。

目前Sora支持“氣球世界、定格動(dòng)畫、檔案、黑色電影、紙板和紙藝”這些風(fēng)格（機(jī)翻結(jié)果），相比起PixVerse和PIKA，Sora的風(fēng)格有點(diǎn)保守，不夠好玩。

emm，不是很能欣賞。

故事板及其衍生應(yīng)用

值得一提的是，Sora推出了故事板功能。故事板功能允許用戶導(dǎo)入腳本，按分鏡進(jìn)行視頻創(chuàng)作，從而生成符合需求的視頻片段。

雖然即夢(mèng)也有類似的能力，但是即夢(mèng)是基于上傳的多個(gè)分鏡或者圖片描述進(jìn)行生成，一致性較差。而Sora本質(zhì)上是基于一個(gè)視頻生成，會(huì)保持一定的視頻一致性。

如示例視頻，我想生成“一個(gè)人走路，然后停下來(lái)，最后沖著鏡頭微笑”的視頻。雖然并不能完全遵循三個(gè)要求，但是也捉到了一定的“一致性保持”。

基于Sora的故事板能力，Sora還提供了“重新剪輯”功能，能夠?qū)σ粋€(gè)已經(jīng)生成的視頻進(jìn)行修改，實(shí)現(xiàn)“控制每一秒”的生成內(nèi)容。

比如示例這里，我可以對(duì)一個(gè)已經(jīng)生成的視頻進(jìn)行切割，在中間補(bǔ)充上一個(gè)畫面進(jìn)行重新生成。（雖然執(zhí)行效果不咋地。）

視頻二次修改

除了可以通過故事板對(duì)視頻進(jìn)行二次修改，Sora還提供了重混（Remix）、混合（Blend）、循環(huán)（Loop）這三個(gè)視頻二次編輯功能。

重混（Remix）支持對(duì)于已生成的視頻使用文字進(jìn)行修改，支持7個(gè)檔位的修改。實(shí)際測(cè)試下來(lái)，會(huì)存在指令遵循不到位的情況。

比如我想把下方左圖的視頻變成右圖的冬天黑人，結(jié)果人物、運(yùn)鏡和動(dòng)作等已有的結(jié)果都丟失了，直接前功盡棄，把我的視頻mix得一團(tuán)糟。

混合（Blend）支持把兩個(gè)視頻融合，融合模式支持3種，分別為過渡、混合、樣本、自定義，本質(zhì)上是控制兩個(gè)視頻的過渡曲線，控制B視頻什么時(shí)候開始侵入A視頻、侵入程度如何。

實(shí)際測(cè)試下來(lái)，這個(gè)能力會(huì)先結(jié)合兩個(gè)視頻的特點(diǎn)，生成一個(gè)前后兩種“不同但又互相融合特征”的視頻，然后加上過度的效果。不過測(cè)試了幾個(gè)案例，發(fā)現(xiàn)它的“過度效果”基本都是“發(fā)光”，然后漸變過渡，頗為生硬（如中間的圖）。甚至有的會(huì)直接播一半時(shí)候切換到下一個(gè)視頻（如最右的圖）。

四、小結(jié)

整體看下來(lái)，Sora的新功能大部分都能在別的廠商的AI視頻工具上找到對(duì)應(yīng)。其中較為突出的是在“精準(zhǔn)控制生成視頻結(jié)果”方面的創(chuàng)新，比如：

1.故事板的分鏡控制能力。其保持一致性的前提下，控制每一秒的生成內(nèi)容。

2.視頻二次修改能力。通過文本對(duì)視頻進(jìn)行二次修改，以保證生成結(jié)果符合要求。

但是由于現(xiàn)在Sora底層大模型能力還不夠，這些創(chuàng)新方案并沒有發(fā)揮它們想象的水平，所以看起來(lái)“沒什么作用”。

不過Sora這里的對(duì)于“如何更準(zhǔn)確地生成目標(biāo)視頻”這個(gè)問題的解題思路，值得參考與學(xué)習(xí)。但是這類能力估計(jì)會(huì)對(duì)“視頻一致性”能力做出一定要求，就算放出相關(guān)功能，效果也可能不會(huì)很好?？伸`還會(huì)持續(xù)領(lǐng)先嗎？

那既然目前測(cè)試到Sora整體上不如可靈，那么可靈在未來(lái)也會(huì)持續(xù)保持領(lǐng)先地位嗎？小的將沿著之前幾篇AI視頻相關(guān)的思考文章的結(jié)論捋一捋。

1.可靈目前能服務(wù)更廣泛的用戶需求，而這是當(dāng)前階段競(jìng)爭(zhēng)的關(guān)鍵。

之前《淺談當(dāng)前的AI剪輯工具》提到過未來(lái)AI視頻廠商更容易卷成的特點(diǎn)，分別是：

1）有用戶：用AI視頻工具能吸引到足夠的目標(biāo)用戶。

2）能賺錢：能夠跑通與用戶價(jià)值交換的商業(yè)邏輯。

3）有壁壘：在前兩個(gè)過程中構(gòu)建自己的競(jìng)爭(zhēng)壁壘，以源源不斷進(jìn)行價(jià)值交換。

目前AI視頻廠商的商業(yè)模式基本上都是“能賺錢”的，除非搞“比較離譜”的價(jià)格戰(zhàn)。所以目前可靈和Sora基本上都不會(huì)是“沒錢賺的”，但是是否盈利就暫且未知了，可能前期訓(xùn)練成本大于收入。

而隨著大模型能力、用戶量級(jí)、行業(yè)方案解決的積累，“有壁壘”這一點(diǎn)是會(huì)自然而然就能滿足的。

那么小的覺得，目前階段“誰(shuí)能領(lǐng)先”的關(guān)鍵應(yīng)該在于“有用戶”這點(diǎn)上。

之前提到過，AI廠商必須圍繞目標(biāo)用戶群體的需求進(jìn)行大模型訓(xùn)練，才能積累到足夠的目標(biāo)用戶。而我們可以發(fā)現(xiàn)，可靈是相對(duì)擅長(zhǎng)“圖生視頻”領(lǐng)域的，而“圖生視頻”領(lǐng)域覆蓋的用戶面更廣。

為什么會(huì)有如此結(jié)論？下面是我分析。

如果我們可以按“文生視頻”和“圖生視頻”對(duì)AI視頻能力進(jìn)行分類，可以發(fā)現(xiàn)：

1）“文生視頻”目前適用于“不需要與前后分鏡保持一致的”視頻生成場(chǎng)景。比如“生成一個(gè)風(fēng)景畫面”、“生成只會(huì)出現(xiàn)一次的人物”。

2）“圖生視頻”目前適用于“有一定的基礎(chǔ)物料，且需要生成的視頻與這些物料保持一致”的視頻生成場(chǎng)景。比如“廣告介紹畫面”、“手辦動(dòng)起來(lái)”、“圖片動(dòng)起來(lái)”。

相對(duì)來(lái)說(shuō)，“圖生視頻”所適用范圍會(huì)更廣，因?yàn)椤拔纳曨l”更適合在故事創(chuàng)作的場(chǎng)景，通過適用“文生視頻”來(lái)補(bǔ)齊畫面。而“圖生視頻”不僅僅能用在娛樂，也可被廣告、營(yíng)銷等場(chǎng)景使用，可以生成一些商品的宣傳物料、補(bǔ)齊一些視頻的片段。（雖然現(xiàn)在有一個(gè)“文生視頻”分支，允許上傳一張圖片，讓AI參考圖片的主體進(jìn)行文字控制生成，目前在vidu、pika上有這類能力，但是由于現(xiàn)在效果不太行，暫且不提。）

所以，即便可靈目前沒法處理“相對(duì)復(fù)雜的指令”、“相對(duì)較大的動(dòng)作幅度”、“復(fù)雜的主體交互邏輯”等需求，僅僅能做到基于“相對(duì)簡(jiǎn)單的指令”執(zhí)行“幅度一般的動(dòng)作和偏簡(jiǎn)單的交互”，但是這也能“賦能”一定范圍的視頻生產(chǎn)場(chǎng)景了。這比起Sora來(lái)說(shuō)，可靈能服務(wù)于更廣泛的用戶需求，這也意味著擁有獲取“更多用戶”的潛力。

2.Sora一定程度摧毀了用戶的信心，這或許成為后續(xù)Sora的阻力。

AI工具有一個(gè)特點(diǎn)，就是“黑盒”特征十分明顯。用戶在進(jìn)行具體的抽卡之前，都不一定知道“AI能否做好我這個(gè)需求？”而且有時(shí)候效果不行，并不一定是AI不行，而是抽卡姿勢(shì)不對(duì)（提示詞、參數(shù)設(shè)置不對(duì)）。因此要用好AI工具，必須要要有十足的耐心去反反復(fù)復(fù)地進(jìn)行抽卡。

然而并不是所有用戶都有這么充足的耐心的，大部分用戶只會(huì)嘗試1~2次，看到不行就不管了。所以個(gè)人覺得，AI工具廠商需要給到用戶充足的“信心”，讓其相信“不是工具不行，是我不行”，這樣才能讓用戶拼命抽卡。而構(gòu)建信心的途徑可以是“行業(yè)口碑”、“用戶案例”、“用戶自身經(jīng)驗(yàn)”等等，這也是廠商們吸引用戶以及用戶留存的關(guān)鍵因素。

這么說(shuō)來(lái)，Sora的失敗營(yíng)銷就是一定程度對(duì)“用戶信心”進(jìn)行了打擊，這無(wú)疑成了后續(xù)其發(fā)展的阻力。雖然OpenAI這塊招牌或許還有點(diǎn)含金量，但是至少相比之前，國(guó)內(nèi)AI視頻廠商的競(jìng)爭(zhēng)難度無(wú)疑是下降了的。

基于上面兩點(diǎn)，小的認(rèn)為，能夠獲取到目標(biāo)用戶群體的AI工具，需要具備以下特點(diǎn)：

1）能滿足用戶需求：AI工具要先具有解決某類的用戶需求的”真本事”，后續(xù)才能夠真正地獲取目標(biāo)用戶。否則，即便營(yíng)銷得再好，工具不能發(fā)揮作用，用戶也必定流失。

2）能構(gòu)建用戶信心：在“真本事”的基礎(chǔ)上，廠商就需要構(gòu)建足夠的用戶信心，從而吸引用戶來(lái)使用工具，并在這個(gè)過程中給廠商提供收益。構(gòu)建信心的過程包括但不限于市場(chǎng)營(yíng)銷、用戶運(yùn)營(yíng)等獲客手段，也可以是在用戶使用工具過程中的使用指引、案例展示等能力展示手段。只要用戶有足夠的信心，便能換來(lái)一定量的用戶和留存。

3）能提供良好體驗(yàn)：當(dāng)擁有一定量級(jí)的用戶后，廠商則可通過“更優(yōu)秀的用戶體驗(yàn)”來(lái)促進(jìn)用戶的進(jìn)一步留存、付費(fèi)、傳播。良好體驗(yàn)包括但不限于工具操作的便捷性、更精準(zhǔn)的控制參數(shù)等，這些內(nèi)容能讓用戶更充分發(fā)揮AI工具的能力，從而對(duì)工具產(chǎn)生好感，并為此持續(xù)活躍、持續(xù)付費(fèi)，甚至是幫廠商推廣。

由此可以看到，目前在“滿足用戶需求”、“構(gòu)建用戶信心”上，可靈是相對(duì)做得較好的。這說(shuō)明可靈目前是相對(duì)優(yōu)勢(shì)的，但是這也并不意味著可靈是會(huì)一直保持優(yōu)勢(shì)，因?yàn)檎f(shuō)不定Sora技術(shù)成長(zhǎng)速度更快，能夠解決更多的“用戶需求”，從而做到趕超。畢竟工具產(chǎn)品并沒有太高的沉沒成本，誰(shuí)能滿足更多需求，誰(shuí)的性價(jià)比更高，用戶就用誰(shuí)的。

所以未來(lái)怎么樣，小的怎么可能知道。靜觀其變，擁抱變化。

本文由人人都是產(chǎn)品經(jīng)理作者【檸檬餅干凈又衛(wèi)生】，微信公眾號(hào)：【檸檬餅干凈又衛(wèi)生】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Sora生成視頻截圖

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App