7000字超全拆解|Sora提示詞秘籍及競品效果對比
OpenAI 發(fā)布文本到視頻生成模型 Sora,讓互聯(lián)網(wǎng)再一次沸騰了起來。本文就 Sora 生成視頻來拆解提示詞秘籍公式,并對其競品效果進(jìn)行比對,一起來看看吧。
2024年2月16日凌晨,OpenAI 正式發(fā)布了文本到視頻生成模型 Sora,直接生成60s視頻,多角色多鏡頭切換的視頻,還上了央視新聞。
目前 Sora 并未開放,只向少數(shù)導(dǎo)演藝術(shù)家開放邀請碼。
至此,好萊塢的時(shí)代結(jié)束了,人人可以做視頻電影的時(shí)代到來啦!
今天我們就 Sora 生成視頻來拆解提示詞秘籍公式,競品視頻生成效果對比,解析 Sora 優(yōu)勢劣勢和 Sora 模型原理。
一、AIGC 視頻模型效果對比
首先讓我們看看,目前主流的AI 視頻工具 Runway、Pika、Stable Video Diffusion 與 Sora 基本參數(shù)對比。包括發(fā)布時(shí)間、特點(diǎn)風(fēng)格、生成時(shí)長、每秒幀數(shù)和分辨率,如下圖所示。
受制于AI文本到視頻生成的物理和時(shí)空推理局限,目前主流的 AI 視頻工具 Runway、Pika、Stable Video Diffusion 生成視頻通常在4S左右,單個(gè)連貫性視頻的最大長度為16秒。這次,Sora 最大生成長度為60s ,直接秒殺全場。
案例一
接下來,先來看一段 Sora 生成的視頻效果吧,以下是提示詞。
提示詞:「幾頭巨大的長毛象踏著雪地走近,它們長長的長毛在風(fēng)中輕輕地吹著,遠(yuǎn)處是白雪皚皚的樹木和引人注目的雪山,午后的光線與稀疏的云層和遠(yuǎn)處的太陽形成了溫暖的光芒,低相機(jī)的視野令人驚嘆,用美麗的攝影和景深捕捉到了這只巨大的長毛哺乳動物?!?/p>
生成的是一段9秒視頻,我把整個(gè)視頻進(jìn)行了拆解:
可以看到,在0秒的時(shí)候畫面上有兩只完整的大象在行走,并且有一只被遮擋的大象在行走,0~5秒的時(shí)候這只大象被遮擋且繼續(xù)前進(jìn)行走,在第5秒時(shí),這只大象開始顯示出來,慢慢走出來,身體很完整。
可以看出 Sora 在復(fù)雜的場景、多角色表情以及鏡頭連貫性上表現(xiàn)的很突出。
Runway 和 Pika 對比
接下來用相同提示詞在 Runway 和 Pika 中看看效果吧。
可以看到在大象走路時(shí)背后雪飄揚(yáng)物理世界的真實(shí)性上、大象身體運(yùn)動地連貫性上、畫面復(fù)雜性上,Sora 直接碾壓其他兩款視頻軟件生成效果。
案例X來源:https://twitter.com/keitowebai/status/1758384152670577136
案例二
提示詞:「美麗的、白雪皚皚的東京城熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個(gè)人享受美麗的雪天,在附近的攤位上購物。美麗的櫻花花瓣隨著雪花在風(fēng)中飛舞?!?/p>
生成的是一段17秒視頻,我把整個(gè)視頻進(jìn)行了拆解:
可以看到整個(gè)視頻是一鏡到底,高空跟隨俯拍,在0~2秒鏡頭是動態(tài)地高空拉到人物,3秒開始兩位主角進(jìn)入,鏡頭跟著主角的腳步向前,街道和店鋪路面都符合邏輯的向前運(yùn)動,且畫面中物體都高度統(tǒng)一,第5秒我都擔(dān)心女主會撞到前面的攤位,最后完美避讓。在第9秒兩位主角還對在對視聊天,第3秒和第11秒周圍的路人消失的時(shí)候還是比較詭異的。
視頻中的整個(gè)街道來的店鋪完全沒有變形,Sora 在復(fù)雜的場景以及鏡頭連貫性上表現(xiàn)真的很突出。
Runway 、 Pika 、Stable Video 對比
接下來,使用以上相同的關(guān)鍵詞在 Pika、Runway、Stable Video 中進(jìn)行了測試,可以看到以下效果。Sora 在生成時(shí)長、畫面連貫性和人物走路細(xì)節(jié)對視等方面也直接碾壓。
案例X來源:https://twitter.com/gabor/status/1758282791547232482
二、Sore 優(yōu)勢與局限
1. Sora 的優(yōu)勢
對比 Runway、Pika、Stable Video 這些主流AI視頻工具, Sora 的優(yōu)勢很明顯:
能夠生成具有多個(gè)角色、特定類型動作和主題背景的復(fù)雜視頻,時(shí)長可達(dá)到 60秒;
可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭,模擬復(fù)雜的攝像機(jī)運(yùn)鏡,同時(shí)準(zhǔn)確地保持角色和視覺風(fēng)格;
最重要的是,它不僅理解用戶在 prompt 中要求的內(nèi)容,還能自己理解這些事物在現(xiàn)實(shí)世界中的存在方式;
?? 更多技術(shù):https://openai.com/sora
2. Sora 的劣勢
Open AI 研究人員也提到 sora 仍存著一些缺點(diǎn),比如可能無法精確描述隨著時(shí)間推移發(fā)生的事件。例如“五只灰狼幼崽在一條偏僻的碎石路上玩耍”,小狼的數(shù)量會發(fā)生變化,玩耍的狼會出現(xiàn)混淆或消失。
比如可能無法精確描述物理世界運(yùn)動特征。例如“籃球穿過籃筐然后爆炸”,籃球沒有正確被籃筐阻擋。
三、Sore 提示詞拆解
在拆解四十八個(gè) Sora 視頻案例后,我將提示詞進(jìn)行分類歸納,總結(jié)出提示詞的五大維度包括:主體描述、場景設(shè)定、視覺細(xì)節(jié)、情感氛圍、攝影技術(shù),這五大維度。
主體描述:涉及人物、動物或物體的詳細(xì)描述,包括年齡、服裝、動作、表情、和與場景的互動。
場景設(shè)定:描述地點(diǎn),如東京的街頭、海底世界;時(shí)間,如日落時(shí)分、藍(lán)色時(shí)刻;環(huán)境:如城市、自然景觀;特定的場景氛圍:如溫馨、神秘。
視覺細(xì)節(jié):包括顏色、光影、天氣條件、紋理和任何特別的視覺效果,比如大象長長的毛、飛舞的櫻花花瓣。
情感氛圍:描述場景所要傳達(dá)的情緒、情感狀態(tài)或氛圍,利用視覺元素和場景設(shè)置加以強(qiáng)化,比如溫暖的感覺、神奇浪漫的感覺。
攝影技術(shù):特定的攝影或影片拍攝技術(shù),如70mm膠片、無人機(jī)拍攝、傾斜移位。
1. 舉例子
把提示詞「幾頭巨大的長毛象踏著雪地走近,它們長長的長毛在風(fēng)中輕輕地吹著,遠(yuǎn)處是白雪皚皚的樹木和引人注目的雪山,午后的光線與稀疏的云層和遠(yuǎn)處的太陽形成了溫暖的光芒,低相機(jī)的視野令人驚嘆,用美麗的攝影和景深捕捉到了這只巨大的長毛哺乳動物?!惯M(jìn)行拆解如下:
主體描述:幾頭巨大的長毛象,在雪地中踏步,長毛在風(fēng)中輕輕吹動。
場景設(shè)定:雪地,遠(yuǎn)處有被雪覆蓋的樹木和雪山,午后,有稀疏的云和遠(yuǎn)處的太陽
視覺細(xì)節(jié):長毛在風(fēng)中的輕輕吹動,光線和云層形成溫暖光芒。
情感氛圍:自然之美和壯觀
攝影技術(shù):低相機(jī)視角,景深
2. 案例拆解
這邊我把四個(gè)案例視頻進(jìn)行了詳細(xì)的拆解,方便查看,可以看到視頻每秒畫質(zhì)都很高清,畫面物體都很完整符合邏輯。
案例一
提示詞:Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
幾頭巨大的長毛象踏著雪地走近,它們長長的長毛在風(fēng)中輕輕地吹著,遠(yuǎn)處是白雪皚皚的樹木和引人注目的雪山,午后的光線與稀疏的云層和遠(yuǎn)處的太陽形成了溫暖的光芒,低相機(jī)的視野令人驚嘆,用美麗的攝影和景深捕捉到了這只巨大的長毛哺乳動物。
案例二
提示詞:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
美麗的、白雪皚皚的東京城熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個(gè)人享受美麗的雪天,在附近的攤位上購物。美麗的櫻花花瓣隨著雪花在風(fēng)中飛舞。
案例三
提示詞:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
一位時(shí)尚的女士走在東京的街道上,街道上充滿了溫暖的霓虹燈和生動的城市標(biāo)志。她穿著黑色皮夾克、紅色長裙和黑色靴子,手里拿著一個(gè)黑色錢包。她戴著太陽鏡和紅色口紅。她走路自信而隨意。街道潮濕且反光,形成了彩色燈光的鏡面效果。許多行人走來走去。
案例四
提示詞:Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic.
一位24歲女性的眼睛在馬拉喀什的魔法時(shí)刻進(jìn)行極端特寫鏡頭的眨眼,以70毫米的電影膠片拍攝,具有景深,鮮艷的顏色,電影般的效果。
3. Sora 秘籍公式
按照主體描述、場景設(shè)定、視覺細(xì)節(jié)、情感氛圍、攝影技術(shù),這五大維度講以上提示詞進(jìn)行分類可以得到如下提示詞秘籍公式。
4. 小技巧:利用 AI工具快速得到上述表格
使用 ChatGPT 可以快速完成。首先把四個(gè)案例的提示詞文件放到輸入框,輸入指令「按照以上以下五個(gè)維度把上面4個(gè)案例進(jìn)行拆解,并使用表格的形式展示出來?!咕涂梢缘玫饺缦卤砀窭?。大家可以利用 ChatGPT 對日常工作進(jìn)行提效。
四、提示詞大全
根據(jù)提示詞五大維度,匯總了一些關(guān)鍵詞如下。后期我也會及時(shí)整理更多資料發(fā)布到AIGC知識庫,歡迎加我微信了解更多,歡迎小伙伴加入一起學(xué)習(xí)。
主體描述 (Subject Description)
職業(yè)(Occupation):教師(Teacher), 藝術(shù)家(Artist);興趣(Interests):閱讀(Reading), 旅行(Traveling);氣質(zhì)(Temperament): 優(yōu)雅(Elegant), 粗獷(Rugged);服飾細(xì)節(jié)(Clothing Details): 復(fù)古(Vintage), 現(xiàn)代(Modern)。
場景設(shè)定 (Scene Setting)
建筑風(fēng)格(Architectural Style): 現(xiàn)代(Modern), 古典(Classical);城市特色(City Characteristics): 繁華(Bustling), 古老(Ancient);自然景觀(Natural Landscape): 湖泊(Lakes), 山脈(Mountains);社會背景(Social Background): 科技未來(Futuristic), 史前時(shí)代(Prehistoric Era)。
視覺細(xì)節(jié)(Visual Details)
明暗對比(Light and Dark Contrast): 強(qiáng)烈(Strong), 微妙(Subtle);視角(Perspective): 第一人稱(First Person), 第三人稱(Third Person);光影變化(Light and Shadow Changes): 日出(Sunrise), 夜晚(Night);空間感(Sense of Space): 開闊(Open), 壓抑(Oppressive)。
情感氛圍(Emotional Atmosphere)
情緒變化(Emotional Change): 從憂郁到喜悅(From Melancholy to Joy);故事情節(jié)(Plot): 冒險(xiǎn)(Adventure), 成長(Growth);人物關(guān)系(Character Relationships): 友情(Friendship), 競爭(Competition);心理描寫(Psychological Description): 堅(jiān)定(Determined), 猶豫(Hesitant)。
攝影技術(shù)(Photographic Techniques)
技術(shù)手段(Technical Means): 蒙太奇(Montage), 深焦點(diǎn)(Deep Focus);攝影風(fēng)格(Photographic Style): 紀(jì)實(shí)(Documentary), 抽象(Abstract);畫面處理(Image Processing): 色彩飽和度(Color Saturation), 明暗調(diào)整(Light and Dark Adjustment);特殊效果(Special Effects): 慢動作(Slow Motion), 倒敘(Reverse Chronology);
五、Sore 模型原理
OpenAI 公布了sora詳細(xì)的技術(shù)報(bào)告。
總的來說,Sora是一個(gè)在不同時(shí)長、分辨率和寬高比的視頻及圖像上訓(xùn)練而成的擴(kuò)散模型,同時(shí)采用了Transformer架構(gòu),也就是一種“擴(kuò)散型Transformer”。
?? 技術(shù)報(bào)告鏈接:https://openai.com/research/video-generation-models-as-world-simulators
英偉達(dá)AI科學(xué)家Jim Fan則認(rèn)為:Sora應(yīng)該是一個(gè)數(shù)據(jù)驅(qū)動的物理引擎。Sora是對現(xiàn)實(shí)或幻想世界的模擬,它通過一些去噪、梯度下降去學(xué)習(xí)復(fù)雜渲染、“直覺”物理、長鏡頭推理和語義基礎(chǔ)等。
紐約大學(xué)助理教授謝賽寧認(rèn)為:Sora將改寫整個(gè)視頻生成領(lǐng)域。Sora應(yīng)該是建立在DiT這個(gè)擴(kuò)散Transformer之上的。簡而言之,DiT是一個(gè)帶有Transformer主干的擴(kuò)散模型,它= [VAE 編碼器 + ViT + DDPM + VAE 解碼器]。
謝賽寧猜測,關(guān)于視頻壓縮網(wǎng)絡(luò),Sora可能采用的就是VAE架構(gòu),區(qū)別就是經(jīng)過原始視頻數(shù)據(jù)訓(xùn)練。而由于VAE是一個(gè)ConvNet,所以DiT從技術(shù)上來說是一個(gè)混合模型。
(1)視覺數(shù)據(jù)處理方式
Sora 創(chuàng)新性地采用“Patches(補(bǔ)片)”技術(shù)處理視覺數(shù)據(jù),區(qū)別于大語言模型的 token 處理方式。通過將視頻內(nèi)容壓縮到低維潛空間,進(jìn)一步解構(gòu)為時(shí)空補(bǔ)片,實(shí)現(xiàn)將視頻轉(zhuǎn)化為易于處理的補(bǔ)片形式。
(2)視頻格式的靈活性
Sora 能夠生成多種格式的視頻,支持不同的分辨率、時(shí)長和寬高比,優(yōu)化了視頻的構(gòu)圖和布局。與常見的將視頻裁剪為正方形不同,Sora 能夠完整捕捉場景,得益于在視頻的原始尺寸上進(jìn)行訓(xùn)練。
(3)圖像生成的能力
除了視頻,Sora 同樣具備生成圖像的能力。通過在空間網(wǎng)格中排列高斯噪聲補(bǔ)片,并設(shè)置時(shí)間范圍為單幀,Sora 能夠生成不同尺寸的圖像,最高支持 2048×2048 分辨率。
六、后記
總體而言,Sora 的出現(xiàn)預(yù)示著視頻創(chuàng)作領(lǐng)域的一次重大變革,無論是廣告行業(yè)、影視行業(yè)、短視頻從業(yè)者還是普通人,都提供了新的創(chuàng)作路徑,使大家能以更低的成本和更高的效率創(chuàng)作高質(zhì)量視頻內(nèi)容。
在AI技術(shù)日益成熟的今天,我們需要了解更多畫面構(gòu)圖知識,攝影知識,沉淀自己,來擁抱 AI 將為我們帶來更多的機(jī)會。
本文由 @yaoyao 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Sora文生視頻官網(wǎng)
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
講真,走過雪地,地上積雪如沙塵般飛揚(yáng),你覺得合適?