亚洲中文字幕超麻，亚洲国产成人AⅤ片在线观看，日韩熟妇啪啪无码视频精品，国产精品国产精品一区，亚洲人成日本在线观看，亚洲亚洲人成无码网，国产亚洲成AV在线下载，东京热无码中文字幕电影

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

Sora，實(shí)現(xiàn)Vision Pro“空間視頻”自由？

VR陀螺

2024-02-20

1 評(píng)論 2986 瀏覽 2 收藏

13 分鐘

就在最近，OpenAI宣布推出首個(gè)文生視頻大模型——Sora，圍繞Sora的話題討論有很多，更有網(wǎng)友將OpenAI的案例視頻轉(zhuǎn)化成了適用Vision Pro的空間視頻。有關(guān)空間視頻的未來想象，也再一次被拓寬了邊界。

Sora 的問世，將接近尾聲的春節(jié)假期推向高潮，讓互聯(lián)網(wǎng)的帕魯們提前進(jìn)入“工作狀態(tài)”。

當(dāng)?shù)貢r(shí)間 2 月 16 日，OpenAI 宣布推出首個(gè)文生視頻大模型——Sora，該模型可以“根據(jù)文本指令創(chuàng)建逼真且富有想象力的場景”，并且最長可達(dá)一分鐘。

Prompt：一位時(shí)尚女性走在充滿溫暖霓虹燈和動(dòng)畫城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色錢包。她戴著太陽鏡，涂著紅色口紅，她走路自信又隨意。街道潮濕且反光，在彩色燈光的照射下形成鏡面效果，許多行人走來走去。

圖源：網(wǎng)絡(luò)

在官方展示的宣傳視頻中，很難想象這是 AI 大模型生成的效果，如此極具時(shí)尚風(fēng)格的人物、光影交錯(cuò)的街道背景，熙熙攘攘的行人，仿佛從大制作的電影中走出來一般。

圍繞 Sora 的話題討論不絕，在其生成內(nèi)容的基礎(chǔ)上，有 github 網(wǎng)友@AndrewMayne 將 OpenAI 案例視頻轉(zhuǎn)化成了適用 Vision Pro 的空間視頻。github 視頻下載地址：https://github.com/AndrewMayneProjects/Spatial

一、通過雙目視差轉(zhuǎn)換，用Sora彌補(bǔ)空間視頻空白

AndrewMayne 創(chuàng)建了兩個(gè)視頻軌道，一個(gè)用于左眼，一個(gè)用于右眼，并根據(jù)視頻移動(dòng)的方向稍微改變了軌道的時(shí)間。這會(huì)創(chuàng)建模擬立體 3D 效果，并且僅適用于存在橫向運(yùn)動(dòng)的視頻。

為了將視頻轉(zhuǎn)換為適用于 Vision Pro 的 Apple Spatial 視頻格式，其使用了 Mike Swansons 的空間視頻轉(zhuǎn)換工具（ https: //blog.mikeswanson.com/spatial）。

據(jù)介紹，Spatial 是一款免費(fèi)的 macOS 命令行工具，用于處理 MV-HEVC 視頻文件（目前由 iPhone 15 Pro 和 Apple Vision Pro 拍攝形成）。它將 MV-HEVC 文件導(dǎo)出為常見立體格式（例如上/下、左右以及單獨(dú)的左眼和右眼視頻），可與標(biāo)準(zhǔn)立體/3D 播放器和視頻編輯器一起使用。它還可以制作相同立體格式的 MV-HEVC 視頻，以便在 Apple Vision Pro 和 Meta Quest 等 XR 硬件設(shè)備上播放。

圖源：網(wǎng)絡(luò)

在 Apple Vision Pro 上的實(shí)際體驗(yàn)也相當(dāng)不錯(cuò)，雙目視差帶來的立體感，在海浪的沖擊中帶來更加身臨其境的體驗(yàn)。在不追求非常細(xì)致的視覺效果下，憑借批量化、高效率的 Sora 生成的 AI 視頻可以有效填補(bǔ)空間視頻的空白市場。

目前，在大多數(shù)體驗(yàn) Apple Vision Pro 的用戶中，公認(rèn)的最熱門，甚至說是殺手級(jí)應(yīng)用，其實(shí)是附帶 3D 深度效果的“空間視頻”。比如：蘋果一方應(yīng)用：《遇見恐龍》(Encounter Dinosaurs) ，3D 深度內(nèi)容+混合現(xiàn)實(shí)的場景，帶來了一聲聲“哇哦”。這種區(qū)別于傳統(tǒng)文字、圖片、視頻的新內(nèi)容形式，正在得到大家喜愛。

空間視頻體驗(yàn)截圖（圖源：VR陀螺）

目前，Sora 的 AI 生成視頻還處于較為早期的階段。OpenAI 也承認(rèn)當(dāng)前模型存在弱點(diǎn)，例如混淆左右或因果等空間細(xì)節(jié)。例如，一個(gè)人可能咬了一口餅干，但之后餅干可能沒有咬痕。在擴(kuò)展普通左右視差的空間視頻方面，理論上僅僅只是時(shí)間問題。

對(duì)于三維信息的視頻內(nèi)容，OpenAI 在官網(wǎng)的 Sora 中也有相關(guān)的介紹：

我們發(fā)現(xiàn)，視頻模型在大規(guī)模訓(xùn)練時(shí)表現(xiàn)出許多有趣的新興功能。這些功能使 Sora 能夠模擬現(xiàn)實(shí)世界中人、動(dòng)物和環(huán)境的某些方面。這些屬性的出現(xiàn)對(duì) 3D、物體等沒有任何明確的歸納偏差——它們純粹是尺度現(xiàn)象。

其中包括：3D 一致性。Sora 可以生成帶有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn)，人和場景元素在三維空間中一致移動(dòng)。

事實(shí)上，這種類似于第一人稱的拍攝手法，可以帶來更深層次的“空間感”，即使在轉(zhuǎn)換空間視頻之前的 2D 視頻，依舊擁有一定沉浸感。

二、iPhone、Vision Pro、AIGC，誰是空間視頻最佳工具？

雖然 Sora 生成的 AI 視頻通過轉(zhuǎn)換后可適用于 Vision Pro，不過仔細(xì)對(duì)比之下，可以發(fā)現(xiàn)其于蘋果官方支持的拍攝工具之間，還是存在些許差異。

分辨率方面：Vision Pro 與 iPhone 15 Pro 拍攝的空間視頻為特定分辨率，分別為 2200×2200（方屏）、1920×1080（寬屏），而 Sora 可以采樣寬屏 1920x1080p 視頻、垂直 1080×1920 視頻以及介于兩者之間的所有視頻。

幀率方面：可以發(fā)現(xiàn)蘋果官方拍攝的兩種工具的空間視頻皆為動(dòng)態(tài)幀率（VFR），即擁有最低幀率與最高幀率。用 iPhone 拍攝的普通 HDR 視頻，以及 Sora 轉(zhuǎn)換后的空間視頻都是恒定幀率（CFR）。

相關(guān)資料顯示：靜態(tài)幀率是指固定的幀率，即每秒顯示的圖像幀數(shù)。這意味著在每一幀之間的時(shí)間間隔是固定的，并且不會(huì)隨著畫面的復(fù)雜度和性能的變化而變化。動(dòng)態(tài)幀率則相反，它是可變的。它根據(jù)畫面的復(fù)雜度和當(dāng)前的硬件配置進(jìn)行調(diào)整，以確保每秒顯示的幀數(shù)始終保持在一個(gè)可接受的范圍內(nèi)。動(dòng)態(tài)幀率可以提高視頻的流暢度，減少視頻的文件大小和傳輸帶寬要求。

當(dāng)然，即使空間視頻采用動(dòng)態(tài)幀率，因?yàn)樯疃刃畔⒌仍颍瑑?nèi)存占用方面依舊對(duì)比普通視頻多兩倍左右。

圖源：VR陀螺

視差體驗(yàn)方面：參考 reddit 部分用戶，以及陀螺君的實(shí)際體驗(yàn)來看，Vision Pro 拍攝的空間視頻似乎更具“空間感”。

除上述圖片對(duì)比中的基礎(chǔ)信息外，有觀點(diǎn)認(rèn)為這還與拍攝設(shè)備的兩顆鏡頭距離相關(guān)。

iPhone 15 Pro 的鏡頭間距約為 20 毫米，僅為成人瞳距的三分之一左右。因此，理論上使用 iPhone 15 Pro 拍攝的空間視頻，只能獲得與小狗類似的視差和深度感知。（不排除蘋果通過算法改善，以形成更大視差的空間視頻）

而 Vision Pro 的攝像頭間距更接近成人 IPD，可能約為 60-65 毫米，因此事物將具有與成人現(xiàn)實(shí)生活相似的深度和視角。再加之頭戴式“第一人稱”拍攝視角，在實(shí)際觀看中，也就更加身臨其境了。

圖源：網(wǎng)絡(luò)

單從空間視頻相關(guān)參數(shù)、以及實(shí)際觀影 3D 深度、清晰度效果來看，作為原生工具的 Vision Pro 顯然更勝一籌。雖是方形，但是其視覺深度效果好于 iPhone 15 Pro 拍攝與 Sora 等普通視頻轉(zhuǎn)換后的空間視頻，似乎相比之下，層次感更多一些（僅肉眼感知）。

而 iPhone 15 Pro 的優(yōu)勢(shì)則主要體現(xiàn)在其便攜性上，隨時(shí)隨地可以拍攝空間視頻。實(shí)際在 Vision Pro 上觀看的沉浸感效果與清晰度也相當(dāng)不錯(cuò)，遠(yuǎn)遠(yuǎn)大于在手機(jī)上直接觀看的形式，層次感也比較分明。并且通過 AirDrop 還能一鍵投送到 Vision Pro 上，傳輸方式暴力簡單。

Sora 等 AI 大模型生成的視頻、普通視頻通過轉(zhuǎn)換后，雖然也有一定層次與深度感，但在實(shí)際觀看時(shí)，總有一種說不出的違和感，就像是你在看 3D 電影那樣，有一定沉浸感，但放大后并不是很特別清晰與沉浸。當(dāng)然，這可能取決于不同的視頻內(nèi)容，它們會(huì)產(chǎn)生不同的觀感。正如前面說到的第一人稱視角那樣，也許更適合做空間視頻。AI 大模型生成視頻，是一個(gè)大趨勢(shì)，特別是在市場空白的空間視頻上，AI 使之能夠具備量產(chǎn)化、定制化、低門檻的賦能。

P.s.:由于空間視頻在 2D 平面上較難展示三維信息，所以下方圖片僅供參考，用于展示三種形式拍攝的視頻在 Vision Pro 上的播放：

Vision Pro拍攝的空間視頻截圖（圖源：VR陀螺）

iPhone 15 Pro拍攝的空間視頻截圖（圖源：VR陀螺）

Sora 生成視頻空間版（圖源：VR陀螺）

三、結(jié)語

時(shí)代變革的鐘聲，似乎已經(jīng)敲響。

Apple Vision Pro 帶來了空間計(jì)算革命的全新愿景，將人們的現(xiàn)實(shí)體驗(yàn)提升到了一個(gè)全新的層次。通過結(jié)合 3D 空間場景與混合現(xiàn)實(shí)的內(nèi)容展示形式，它不斷地挑戰(zhàn)和刷新人們對(duì)于視覺認(rèn)知的界限。

從生成式人工智能文字對(duì)話工具 ChatGPT、圖像生成器 DALL-E，到視頻生成的王炸 Sora，OpenAI 正在重塑互聯(lián)網(wǎng)內(nèi)容生產(chǎn)形式。

硬件+內(nèi)容之間變革，正在加速走向交融的十字路口。

參考來源：

https://zhuanlan.zhihu.com/p/648353681

作者：VR陀螺

來源公眾號(hào)：VR陀螺（ID：vrtuoluo），XR行業(yè)垂直媒體，關(guān)注VR/AR的頭部產(chǎn)業(yè)服務(wù)平臺(tái)。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @VR陀螺授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App