Sora,實(shí)現(xiàn)Vision Pro“空間視頻”自由?
就在最近,OpenAI宣布推出首個(gè)文生視頻大模型——Sora,圍繞Sora的話題討論有很多,更有網(wǎng)友將OpenAI的案例視頻轉(zhuǎn)化成了適用Vision Pro的空間視頻。有關(guān)空間視頻的未來想象,也再一次被拓寬了邊界。
Sora 的問世,將接近尾聲的春節(jié)假期推向高潮,讓互聯(lián)網(wǎng)的帕魯們提前進(jìn)入“工作狀態(tài)”。
當(dāng)?shù)貢r(shí)間 2 月 16 日,OpenAI 宣布推出首個(gè)文生視頻大模型——Sora,該模型可以“根據(jù)文本指令創(chuàng)建逼真且富有想象力的場景”,并且最長可達(dá)一分鐘。
Prompt:一位時(shí)尚女性走在充滿溫暖霓虹燈和動(dòng)畫城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅,她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果,許多行人走來走去。
圖源:網(wǎng)絡(luò)
在官方展示的宣傳視頻中,很難想象這是 AI 大模型生成的效果,如此極具時(shí)尚風(fēng)格的人物、光影交錯(cuò)的街道背景,熙熙攘攘的行人,仿佛從大制作的電影中走出來一般。
圍繞 Sora 的話題討論不絕,在其生成內(nèi)容的基礎(chǔ)上,有 github 網(wǎng)友@AndrewMayne 將 OpenAI 案例視頻轉(zhuǎn)化成了適用 Vision Pro 的空間視頻。github 視頻下載地址:https://github.com/AndrewMayneProjects/Spatial
一、通過雙目視差轉(zhuǎn)換,用Sora彌補(bǔ)空間視頻空白
AndrewMayne 創(chuàng)建了兩個(gè)視頻軌道,一個(gè)用于左眼,一個(gè)用于右眼,并根據(jù)視頻移動(dòng)的方向稍微改變了軌道的時(shí)間。這會(huì)創(chuàng)建模擬立體 3D 效果,并且僅適用于存在橫向運(yùn)動(dòng)的視頻。
為了將視頻轉(zhuǎn)換為適用于 Vision Pro 的 Apple Spatial 視頻格式,其使用了 Mike Swansons 的空間視頻轉(zhuǎn)換工具( https: //blog.mikeswanson.com/spatial)。
據(jù)介紹,Spatial 是一款免費(fèi)的 macOS 命令行工具,用于處理 MV-HEVC 視頻文件(目前由 iPhone 15 Pro 和 Apple Vision Pro 拍攝形成)。它將 MV-HEVC 文件導(dǎo)出為常見立體格式(例如上/下、左右以及單獨(dú)的左眼和右眼視頻),可與標(biāo)準(zhǔn)立體/3D 播放器和視頻編輯器一起使用。它還可以制作相同立體格式的 MV-HEVC 視頻,以便在 Apple Vision Pro 和 Meta Quest 等 XR 硬件設(shè)備上播放。
圖源:網(wǎng)絡(luò)
在 Apple Vision Pro 上的實(shí)際體驗(yàn)也相當(dāng)不錯(cuò),雙目視差帶來的立體感,在海浪的沖擊中帶來更加身臨其境的體驗(yàn)。在不追求非常細(xì)致的視覺效果下,憑借批量化、高效率的 Sora 生成的 AI 視頻可以有效填補(bǔ)空間視頻的空白市場。
目前,在大多數(shù)體驗(yàn) Apple Vision Pro 的用戶中,公認(rèn)的最熱門,甚至說是殺手級(jí)應(yīng)用,其實(shí)是附帶 3D 深度效果的“空間視頻”。比如:蘋果一方應(yīng)用:《遇見恐龍》(Encounter Dinosaurs) ,3D 深度內(nèi)容+混合現(xiàn)實(shí)的場景,帶來了一聲聲“哇哦”。這種區(qū)別于傳統(tǒng)文字、圖片、視頻的新內(nèi)容形式,正在得到大家喜愛。
空間視頻體驗(yàn)截圖(圖源:VR陀螺)
目前,Sora 的 AI 生成視頻還處于較為早期的階段。OpenAI 也承認(rèn)當(dāng)前模型存在弱點(diǎn),例如混淆左右或因果等空間細(xì)節(jié)。例如,一個(gè)人可能咬了一口餅干,但之后餅干可能沒有咬痕。在擴(kuò)展普通左右視差的空間視頻方面,理論上僅僅只是時(shí)間問題。
對(duì)于三維信息的視頻內(nèi)容,OpenAI 在官網(wǎng)的 Sora 中也有相關(guān)的介紹:
我們發(fā)現(xiàn),視頻模型在大規(guī)模訓(xùn)練時(shí)表現(xiàn)出許多有趣的新興功能。這些功能使 Sora 能夠模擬現(xiàn)實(shí)世界中人、動(dòng)物和環(huán)境的某些方面。這些屬性的出現(xiàn)對(duì) 3D、物體等沒有任何明確的歸納偏差——它們純粹是尺度現(xiàn)象。
其中包括:3D 一致性。Sora 可以生成帶有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人和場景元素在三維空間中一致移動(dòng)。
事實(shí)上,這種類似于第一人稱的拍攝手法,可以帶來更深層次的“空間感”,即使在轉(zhuǎn)換空間視頻之前的 2D 視頻,依舊擁有一定沉浸感。
二、iPhone、Vision Pro、AIGC,誰是空間視頻最佳工具?
雖然 Sora 生成的 AI 視頻通過轉(zhuǎn)換后可適用于 Vision Pro,不過仔細(xì)對(duì)比之下,可以發(fā)現(xiàn)其于蘋果官方支持的拍攝工具之間,還是存在些許差異。
分辨率方面:Vision Pro 與 iPhone 15 Pro 拍攝的空間視頻為特定分辨率,分別為 2200×2200(方屏)、1920×1080(寬屏),而 Sora 可以采樣寬屏 1920x1080p 視頻、垂直 1080×1920 視頻以及介于兩者之間的所有視頻。
幀率方面:可以發(fā)現(xiàn)蘋果官方拍攝的兩種工具的空間視頻皆為動(dòng)態(tài)幀率(VFR),即擁有最低幀率與最高幀率。用 iPhone 拍攝的普通 HDR 視頻,以及 Sora 轉(zhuǎn)換后的空間視頻都是恒定幀率(CFR)。
相關(guān)資料顯示:靜態(tài)幀率是指固定的幀率,即每秒顯示的圖像幀數(shù)。這意味著在每一幀之間的時(shí)間間隔是固定的,并且不會(huì)隨著畫面的復(fù)雜度和性能的變化而變化。動(dòng)態(tài)幀率則相反,它是可變的。它根據(jù)畫面的復(fù)雜度和當(dāng)前的硬件配置進(jìn)行調(diào)整,以確保每秒顯示的幀數(shù)始終保持在一個(gè)可接受的范圍內(nèi)。動(dòng)態(tài)幀率可以提高視頻的流暢度,減少視頻的文件大小和傳輸帶寬要求。
當(dāng)然,即使空間視頻采用動(dòng)態(tài)幀率,因?yàn)樯疃刃畔⒌仍颍瑑?nèi)存占用方面依舊對(duì)比普通視頻多兩倍左右。
圖源:VR陀螺
視差體驗(yàn)方面:參考 reddit 部分用戶,以及陀螺君的實(shí)際體驗(yàn)來看,Vision Pro 拍攝的空間視頻似乎更具“空間感”。
除上述圖片對(duì)比中的基礎(chǔ)信息外,有觀點(diǎn)認(rèn)為這還與拍攝設(shè)備的兩顆鏡頭距離相關(guān)。
iPhone 15 Pro 的鏡頭間距約為 20 毫米,僅為成人瞳距的三分之一左右。因此,理論上使用 iPhone 15 Pro 拍攝的空間視頻,只能獲得與小狗類似的視差和深度感知。(不排除蘋果通過算法改善,以形成更大視差的空間視頻)
而 Vision Pro 的攝像頭間距更接近成人 IPD,可能約為 60-65 毫米,因此事物將具有與成人現(xiàn)實(shí)生活相似的深度和視角。再加之頭戴式“第一人稱”拍攝視角,在實(shí)際觀看中,也就更加身臨其境了。
圖源:網(wǎng)絡(luò)
單從空間視頻相關(guān)參數(shù)、以及實(shí)際觀影 3D 深度、清晰度效果來看,作為原生工具的 Vision Pro 顯然更勝一籌。雖是方形,但是其視覺深度效果好于 iPhone 15 Pro 拍攝與 Sora 等普通視頻轉(zhuǎn)換后的空間視頻,似乎相比之下,層次感更多一些(僅肉眼感知)。
而 iPhone 15 Pro 的優(yōu)勢(shì)則主要體現(xiàn)在其便攜性上,隨時(shí)隨地可以拍攝空間視頻。實(shí)際在 Vision Pro 上觀看的沉浸感效果與清晰度也相當(dāng)不錯(cuò),遠(yuǎn)遠(yuǎn)大于在手機(jī)上直接觀看的形式,層次感也比較分明。并且通過 AirDrop 還能一鍵投送到 Vision Pro 上,傳輸方式暴力簡單。
Sora 等 AI 大模型生成的視頻、普通視頻通過轉(zhuǎn)換后,雖然也有一定層次與深度感,但在實(shí)際觀看時(shí),總有一種說不出的違和感,就像是你在看 3D 電影那樣,有一定沉浸感,但放大后并不是很特別清晰與沉浸。當(dāng)然,這可能取決于不同的視頻內(nèi)容,它們會(huì)產(chǎn)生不同的觀感。正如前面說到的第一人稱視角那樣,也許更適合做空間視頻。AI 大模型生成視頻,是一個(gè)大趨勢(shì),特別是在市場空白的空間視頻上,AI 使之能夠具備量產(chǎn)化、定制化、低門檻的賦能。
P.s.:由于空間視頻在 2D 平面上較難展示三維信息,所以下方圖片僅供參考,用于展示三種形式拍攝的視頻在 Vision Pro 上的播放:
Vision Pro拍攝的空間視頻截圖(圖源:VR陀螺)
iPhone 15 Pro拍攝的空間視頻截圖(圖源:VR陀螺)
Sora 生成視頻空間版(圖源:VR陀螺)
三、結(jié)語
時(shí)代變革的鐘聲,似乎已經(jīng)敲響。
Apple Vision Pro 帶來了空間計(jì)算革命的全新愿景,將人們的現(xiàn)實(shí)體驗(yàn)提升到了一個(gè)全新的層次。通過結(jié)合 3D 空間場景與混合現(xiàn)實(shí)的內(nèi)容展示形式,它不斷地挑戰(zhàn)和刷新人們對(duì)于視覺認(rèn)知的界限。
從生成式人工智能文字對(duì)話工具 ChatGPT、圖像生成器 DALL-E,到視頻生成的王炸 Sora,OpenAI 正在重塑互聯(lián)網(wǎng)內(nèi)容生產(chǎn)形式。
硬件+內(nèi)容之間變革,正在加速走向交融的十字路口。
參考來源:
https://zhuanlan.zhihu.com/p/648353681
作者:VR陀螺
來源公眾號(hào):VR陀螺(ID:vrtuoluo),XR行業(yè)垂直媒體,關(guān)注VR/AR的頭部產(chǎn)業(yè)服務(wù)平臺(tái)。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @VR陀螺 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
這個(gè)東西很厲害啊