亚洲AV无码精品黑人黑人，美女精品黄色网站，久久中文无码人妻少妇，亚洲人妻免费碰碰碰，一本无码久本草在线，无码专区邻家精品人妻，AV超碰国产精品，日韩在线视频一区

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

Sora冷靜期后，我們更關(guān)心AI+XR的組合能夠帶來什么

VR陀螺

2024-03-19

1 評論 2878 瀏覽 2 收藏

24 分鐘

Sora的出現(xiàn)與其生成效果，已經(jīng)給人們帶來了許多震撼，人們實實在在地看到了AGI改變內(nèi)容創(chuàng)作流程的實例，而這也是Sora引起熱議的原因之一。如果AI再疊加上XR，我們又可以看到哪些關(guān)于未來的期望？

不可否認的是，OpenAI總能創(chuàng)造爆款。

趕在中國農(nóng)歷春節(jié)假期結(jié)束前，OpenAI又一次在社交媒體上投下了一顆重磅炸彈。新的人工智能系統(tǒng)Sora的出現(xiàn)宣告著現(xiàn)代內(nèi)容的創(chuàng)建方式徹底改變。

根據(jù)OpenAI的說法，Sora不僅可以文本提示生成時長達一分鐘的視頻，還能通過靜止圖像生成視頻，或者通過擴展現(xiàn)有視頻或通過生成缺失的幀來填補視頻中的空白。

雖然該模型目前僅在申請內(nèi)測階段，但從國內(nèi)外社交媒體的反應(yīng)以及官方提供的實例來看，Sora生成的視頻無論是在質(zhì)量還是可靠性上都超越了該領(lǐng)域的“前輩們”，展現(xiàn)出成為下一個ChatGPT的強勁勢頭。

這固然有部分炒作的成分在，但不可否認的是，Sora的爆火現(xiàn)象的背后是人們對于信息革命之后第四次重大技術(shù)變革的全民狂歡，“多模態(tài)真人工智能”進化的又一個里程碑出現(xiàn)在了2024開年。

一、現(xiàn)實與虛擬的邊界已被成功混淆

在 Sora 及其技術(shù)報告推出后，OpenAI幾段長達 60 秒，高清晰度且畫面可控、能多角度切換的高水平效果視頻就在國內(nèi)外社交媒體上瘋傳。

在Sora的魔法下，人們第一次知道AI生成的視頻原來還可以這么逼真。

即使融入紀錄片也毫無違和感（圖源：Sora）

要知道，2023年AI的視頻生成效果還是這樣的：

真實但顯然視頻對象靈活性欠佳（圖源：Pika）

僅僅過去幾個月時間，文本生成視頻技術(shù)實現(xiàn)了從5秒到60秒，從卡通動畫到紀錄片畫質(zhì)的飛躍，這放誰身上不汗流浹背。

逼真的視覺效果以及“未來已來”的社交媒體病毒式營銷使得Sora成為2024年初AI領(lǐng)域最為破圈的存在，風頭甚至蓋過了幾乎同一時間發(fā)布的Gemini 1.5，一時間無論是娛樂版塊還是科技板塊都充斥著Sora的身影。

一年前，一段由 AI 生成威爾?史密斯吃面的視頻在網(wǎng)絡(luò)上大火，僅在Twitter上該視頻的播放量就突破了 800 萬。

一年后，威爾史密斯于Sora刷屏后在自己的INS上上傳了一則視頻，并附文“越來越失控了”。

可以看到，視頻畫面分為上下兩段：上半段顯示是一年以前的 AI 視頻，下半段則顯示現(xiàn)在的 AI 視頻。

圖源：X

雖然大家很快就發(fā)現(xiàn)這只是威爾?史密斯在玩梗，視頻下半段并不是AI生成，而是他自己錄的，但還是有不少網(wǎng)友大呼受騙：“最令人毛骨悚然的是，你無法判斷這是表演還是人工智能生成的。”

這也從側(cè)面證明Sora的出現(xiàn)使得人們開始相信視頻生成AI能夠以假亂真，AI代替視頻剪輯的時刻似乎已經(jīng)到來。在Sora發(fā)布的另一則演示視頻中，可以看到，人物在進食過程中的咬合動作，漢堡上的缺口以及牙印都與現(xiàn)實規(guī)律無異，完全不是一年前史密斯吃面的恐怖效果可以比擬的。

漢堡有瑕疵，但牙印很還原（圖源：Sora）

不過，視頻生成效果再好，也總有人能在其中找到瑕疵。許多影視行業(yè)人士在分析Sora生成的演示視頻之后表示，雖然Sora在視頻畫質(zhì)、細節(jié)、光影和色彩等方面表現(xiàn)出色，但目前還不能直接用于影視作品，因為其在涉及鏡頭運動角度和更精細內(nèi)容調(diào)控方面仍存在不足。

一個明顯的案例出自于這段視頻，視頻中人物在跑步機上逆向跑步，Sora顯然還不明白運動的規(guī)律。

圖源：Sora

還有一個佐證是四條腿的螞蟻，Sora知道什么圖像代表著螞蟻這一單詞，但對完整螞蟻形象的理解還存在不足。

圖源：Sora

然而，即使Sora還不夠完美，但其生成效果也已經(jīng)足夠震撼，業(yè)內(nèi)人士普遍認為Sora完全可以用于諸如概念設(shè)計之類的影視前期開發(fā)。

再加上OpenAI方面對于積極改進Sora不成熟之處的承諾以及AI語音克隆初創(chuàng)公司ElevenLabs等對Sora視頻“聲音缺失”的一系列問題的解決方案的推出，在突破現(xiàn)實與虛擬邊界的小試牛刀后，Sora未來將為影視行業(yè)帶來更多創(chuàng)新和突破。

二、爆火的背后，Sora踩中了什么流量密碼？

Sora并非第一個問世的文本生成視頻AI模型，但為什么只有Sora成為了現(xiàn)象級的全球爆款？

根本來看，一是視頻質(zhì)量的跨級別飛躍，二是“意想不到的核心技術(shù)”。

其中，Sora生成視頻的質(zhì)量大家有目共睹，光是60s的連貫視頻生成時長就不是Runway和Pika能夠比擬的。而視頻質(zhì)量的斷層式領(lǐng)先的原因則被業(yè)內(nèi)人士認為是在核心技術(shù)上的力大磚飛。

博主“Daily News”展示的三種模型生成效果（圖源：X）

國內(nèi)深度學(xué)習(xí)專家李沐認為，Sora類似于視頻生成界GPT2向GPT3升級的時刻，模型跟前作DiT比可能變化不大，但使用了幾百倍的算力，屬于是大力出奇跡。該模型基于的ViT、DALL·E、diffusionmethods、VAE也并非新技術(shù)，這種demo效果拉滿的應(yīng)用，相信學(xué)術(shù)界和開源界會很快跟進。

與Runway和Pika不同，Sora在擴散模型領(lǐng)域使用了此前在GPT上就十分好用的Transformer方案，將文本模型的強前后文理解能力用在擴散視頻的“幀生成”上。

圖源：Sora

簡單來說，Sora并不是直接將文本轉(zhuǎn)化成視頻中的每個幀，而是通過處理每一個Space timepatches（時空補?。﹣硌a全整個視頻。

這類似于3D生成領(lǐng)域的分塊式生成，Sora分析文本后將整個視頻內(nèi)容代表的時空中的關(guān)鍵元素切割為包括物體、動作、背景等在內(nèi)的對應(yīng)圖像補丁，并通過內(nèi)置的知識圖譜，以物理世界的數(shù)據(jù)信息將這些補丁重新整合成充滿噪點的畫面。最后通過擴散模型將噪點圖像細化，成為逐幀生成的視頻。

圖源：Sora

在時空信息的約束下，Sora生成的視頻內(nèi)容顯然更加忠于指令，相當于Sora提前給視頻打好了腳本，視頻中生成的內(nèi)容就像演員和布景一般嚴格按照腳本運行，這同樣也是此前Runway和Pika等無法做到的。

而這些成果都離不開Sora背后的核心團隊。OpenAI 研究人員 Jason Wei 在自曝一份比996更加緊湊的每日工作時間安排清單后，收獲了一眾驚嘆，他表示，“OpenAl is nothing without its people.（沒有員工的貢獻，OpenAI什么都不是。）”

圖源：X

根據(jù)此前的社交媒體消息，Sora團隊成員構(gòu)成十分年輕化，團隊中甚至有00后的科研成員。這些參與者中，已知的核心成員包括研發(fā)負責人Tim Brooks、William Peebles、系統(tǒng)負責人 Connor Holmes 等。

與算力一道，人才被視作AI發(fā)展的基石之一，此前被誤傳為Sora作者之一的CV大神謝賽寧同樣認為人才是Sora這樣復(fù)雜的系統(tǒng)誕生的三大核心因素，其余兩個分別是數(shù)據(jù)和算力。

靠著足夠驚人的演示視頻+全球第三大獨角獸背后的年輕團隊，Sora賺足了流量，還未發(fā)布就已經(jīng)成為了拳打Runway，腳踢pika的文字生成視頻領(lǐng)域的唯一神，甚至還在中國國內(nèi)創(chuàng)造了新的“AI變現(xiàn)渠道”。

在Sora還沒有公測之時，以李一舟為代表的“AI講師”們就已經(jīng)大張旗鼓賣起了網(wǎng)課，勢要讓“家人們”都趕上利用Sora賺大錢的第一波風口。

只是李一舟早已被扒出并不是 AI 方面的專家，其賣課內(nèi)容也基本都是最基礎(chǔ)的常識，更多的是“強調(diào)AI的強大和重要性”以及“用Sora關(guān)鍵詞引流變現(xiàn)、賣賬號、賣生成視頻、賣使用教程”等互聯(lián)網(wǎng)講師們的老一套變現(xiàn)操作。與此前的“教你如何用ChatGPT”一樣，屬于是吃O(shè)penAI的次生流量割韭菜。

普通人對于“AI取代說”的恐懼無可厚非，但AI技術(shù)發(fā)展太快，今天剛剛學(xué)會用Runway，明天就又冒出了更加強大的Sora，與其將焦點放在如何追趕最新的AI技術(shù)上，不如更多地關(guān)注AI的出現(xiàn)對生產(chǎn)模式的改變，畢竟未來AI都將朝著傻瓜式好用的方向邁進，發(fā)掘AI能在何種領(lǐng)域如何更好地增值內(nèi)容生產(chǎn)才是未來打工人們更加應(yīng)該關(guān)心的。

AI“一鍵生成廣告圖圖”工具Amazon Ad（圖源：亞馬遜）

這也是Sora引起熱議的另一個原因，借助這項文本生成視頻技術(shù)，人們看到了AGI改變內(nèi)容創(chuàng)作流程的實例。

三、AI+XR打造智能硬件的“明日設(shè)備”

在這之前，AIGC已經(jīng)突破了文本生成、圖像生成的關(guān)卡，如今，公認的創(chuàng)意媒介的最后一道難關(guān)——視頻的一鍵生成也被打通，有了ChatGPT的成功案例在前，市場普遍認為Sora同樣也能成為下一個改變工作流程的AI模型，而不只是停留在理論。

在Sora發(fā)布之后，網(wǎng)上就有很多關(guān)于OpenAI下一步計劃的猜測。AI內(nèi)容創(chuàng)作者“Kwebbelkop”稱，OpenAI將收集用戶發(fā)布的Sora視頻的數(shù)據(jù)來進行模型微調(diào)，從而讓Sora變得更加強大。

此外，OpenAI還將收集這些視頻的觀看數(shù)據(jù)增強Sora的RLHF（強化學(xué)習(xí)自人類反饋算法），這意味著每個人都能通過Sora一鍵創(chuàng)造出社交媒體熱門視頻?；诖?，OpenAI甚至還將有可能推出一個全新的、完全由AI生成內(nèi)容構(gòu)成的視頻平臺，并與YouTube、TikTok等展開競爭。

圖源：X

不過，OpenAI的野心可能不止于此。變革內(nèi)容生產(chǎn)一直是人們對于生成式AI的關(guān)注焦點，目前，OpenAI的人工智能藍圖已經(jīng)包括文生文的ChatGPT、文生圖的DALL·E 3、文生3D的Shap·E以及文生視頻的Sora。

在傳統(tǒng)的智能手機、PC平臺，我們已經(jīng)見識過ChatGPT在AI生成領(lǐng)域的統(tǒng)治力。但交互模式單一的傳統(tǒng)硬件顯然未能激發(fā)多模態(tài)AI的全部潛能，就和AI顛覆過去一樣，電子硬件產(chǎn)品同樣也需要加速更新?lián)Q代，以適應(yīng)未來潛在的交互需求。

或許正是出于對AI交互生態(tài)的探索，OpenAI在2024年開年最火的終端電子設(shè)備蘋果Vision Pro推出后，緊急將ChatGPT上架visionOS應(yīng)用商店。

ChatGPT在Vision Pro上的推出對于OpenAI是一個重要的里程碑，直接向外界展示了未來AI（尤其是多模態(tài)AI）可能的更自然、更直觀、更沉浸的交互方式。

Vision Pro的眼動、手勢追蹤（圖源：蘋果）

可以說，蘋果Vision Pro與ChatGPT的合作使得XR設(shè)備再次被寄予成為人工智能下一代計算終端新選擇的厚望，畢竟其在推出短短一個月內(nèi)對于工作體驗的顛覆就已經(jīng)讓很多科技大佬都直呼“amazing”。

在蘋果Vision Pro正式發(fā)售后，有不少社交媒體博主開始佩戴Vision Pro進行各項日常生活、工作場景體驗，其中有不少開發(fā)者嘗試用Vision Pro進行編碼工作，并得到了值得參考的XR工作體驗反饋。

圖源：蘋果

IT企業(yè)家Willem專門用博客記錄了他的初次Vision Pro編碼體驗，他表示：“它不僅非常便攜，還能為你的眼睛提供一個完整的虛擬世界！這簡直就像我隨身攜帶了個龐大的多顯示器設(shè)置一樣?！?/p>

Willem及其他對Vision Pro持有好評的體驗者將Vision Pro的優(yōu)勢集中在“沉浸”二字上，既能有媲美真實的編碼界面，又能幾乎完全屏蔽外界干擾：“在 Vision Pro 里你幾乎與環(huán)境融為一體。我喜歡在窗口周圍走來走去，看一些代碼或服務(wù)器輸出，感受它是一臺大型工作機器。某種程度上來說，我感覺就像站在一個大機房里，這與傳統(tǒng)的桌面體驗完全不同?！?/p>

沉浸式編碼體驗（圖源：willem.com）

而當蘋果的AI時代到來之后，沉浸式編碼的體驗將更加魔幻。

知名科技記者馬克·古爾曼爆料稱，蘋果公司準備在iOS平臺編程軟件Xcode的下一次大版本更新中加入AI功能，以對標微軟旗下的GitHub Copilot。

雖然消息表明了蘋果該項功能更新意在為iOS 18、iPadOS 18和macOS 15創(chuàng)造盡可能多的人工智能新功能，但作為蘋果蘋果未來生產(chǎn)力閉環(huán)的重要組成部分，AI功能上線visionOS只是時間問題。

AI對編程效率的提升是顯而易見的，根據(jù)Github官方的一篇博客，自發(fā)布以來，GitHub Copilot已幫助超過100萬人提高了開發(fā)人員的工作效率，幫助開發(fā)人員將編程速度提高了55%。

圖源：Github

而這不僅發(fā)生在程序員圈子中，幾乎所有AI可以參與的辦公場景中，工作效率都得到了大額提升。類似的例子有Adobe此前為Meta Quest Pro開發(fā)的一款3D建模程序“Substance 3D”，在虛擬世界中的3D建模已經(jīng)完全退化掉了鍵盤鼠標，只需要簡單的手勢動作就能輕松捏出設(shè)計模型。

繼ChatGPT之后，成熟后的Sora或是其他AI生成圖像、模型、視頻工具都將有可能以應(yīng)用程序的形式加入visionOS生態(tài)。AI、Vision Pro兩大科技熱門的結(jié)合重塑辦公、創(chuàng)作體驗的模式已初見雛形。

圖源：X

這一科技變革之路需要許許多多人才、企業(yè)的前赴后繼，幸運的是，蘋果并不是AI+XR這一想法的唯一踐行者，就在Sora發(fā)布的同一時間節(jié)點，還有一件事也攪動了國內(nèi)的AI市場。

2024年2月18日，星紀魅族對外宣布將停止傳統(tǒng)智能手機新項目的研發(fā)，轉(zhuǎn)而All in AI，全力投入“明日設(shè)備（AI For New Generations）”。雖然這一決定的原因被歸結(jié)為“手機賣不動了”，但從其后續(xù)的AI轉(zhuǎn)型計劃來看，魅族更在意的或許是AI+硬件的市場新需求。

圖源：星紀魅族

星紀魅族公布的AI戰(zhàn)略規(guī)劃的詳細內(nèi)容中，包括了打造AI Device產(chǎn)品、重構(gòu)Flyme系統(tǒng)和建設(shè)AI生態(tài)。公司CEO沈子瑜在該次視頻發(fā)布會中強調(diào)魅族將打造全新的AI設(shè)備，用AI原生設(shè)計重組產(chǎn)品形態(tài)，并用更強大的硬件算力支撐AI的全局調(diào)動。

對于沈子瑜口中的“明日設(shè)備”，有不少人猜測會是AI手機，畢竟打著AI終端名頭的魅族21 Pro已經(jīng)上市。但也有部分聲音認為，魅族將取代傳統(tǒng)手機形態(tài)的重任交給了XR眼鏡。

去年，星紀魅族剛剛發(fā)布了搭載自家智能“FlymeAR”交互系統(tǒng)的MYVU AR眼鏡，而從其剛剛發(fā)布的三年AI愿景來看，XR產(chǎn)品將在星紀魅族2025年的產(chǎn)品生態(tài)中占據(jù)舉足輕重的地位。

圖源：星紀魅族

以蘋果Vision Pro及其傳聞中的AR眼鏡形態(tài)產(chǎn)品為開端，包括星紀魅族、三星、華為、小米、OPPO、 VIVO等傳統(tǒng)手機廠商紛紛入局XR賽道，如今，星紀魅族All in AI，OPPO也專門成立了AI中心，將資源向AI集中，就像iPhone開創(chuàng)智能手機時代一樣，AI+智能硬件的組合目前看來將是開啟下一個智能計算時代的不二選擇。

這一趨勢同時也影響了頭部的AI科技廠商們，除了之前的OpenAI籌資7萬億美元豪賭芯片帝國的消息外，行業(yè)頂部的AI生成技術(shù)公司Midjourney也被曝出正在開發(fā)硬件產(chǎn)品。

據(jù)稱，Midjourney已經(jīng)挖角了蘋果Vision Pro的硬件工程經(jīng)理Ahmad Abbas，以協(xié)助開發(fā)一個收集3D數(shù)據(jù)，管理3D模型的工具，甚至于Midjourney未來可能推出自己的VR頭顯。

領(lǐng)英界面顯示Ahmad已加入Midjourney（圖源：linkedin）

在這些頭部科技企業(yè)看來，AI離不開硬件這一應(yīng)用載體，消費硬件產(chǎn)品也需要AI的輔助重現(xiàn)智能手機時代的榮光。

如今，AI的蛋糕爭奪戰(zhàn)已經(jīng)開始進入正賽，沒有廠商愿意放棄成為下一個IPhone的的新機會，無論是蘋果自家的Vision Pro、新形態(tài)的AI Pin還是手機廠商們設(shè)想的AI手機，都在探索與ChatGPT、Sora等這樣的前沿模型融合的最佳模式，在AI生成模型踏入爆發(fā)階段的2024，落伍是硬件廠商們難以接受的，對于AI“最佳載體冠名權(quán)”的你追我趕還將繼續(xù)。

作者：VR陀螺

來源公眾號：VR陀螺（ID：vrtuoluo），XR行業(yè)垂直媒體，關(guān)注VR/AR的頭部產(chǎn)業(yè)服務(wù)平臺。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @VR陀螺授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

VR陀螺

XR行業(yè)垂直媒體

46篇作品 119768總閱讀量

來一起好好聊聊數(shù)字化轉(zhuǎn)型

08-095866 瀏覽

談?wù)勔郧白龅囊豢盥糜萎a(chǎn)品的方案背景

06-145436 瀏覽

真誠才是必殺技——如何打造服務(wù)人觸點？

10-274792 瀏覽

短劇營銷，將品牌捧上C位

11-193522 瀏覽

場景模式專題｜影院模式

11-212997 瀏覽

評論

AI助手

??本文總結(jié)：

??本文主要討論了OpenAI新的人工智能系統(tǒng)Sora及其生成效果，人們看到了人工智能改變內(nèi)容創(chuàng)作流程的實例。Sora可以生成時長達一分鐘的視頻，還能通過靜止圖像生成視頻，或通過擴展現(xiàn)有視頻或生成缺失的幀來填補視頻中的空白。Sora的出現(xiàn)宣告著現(xiàn)代內(nèi)容的創(chuàng)建方式徹底改變。盡管該模型目前僅在申請內(nèi)測階段，但其生成的視頻無論是在質(zhì)量還是可靠性上都超越了該領(lǐng)域的“前輩們”，展現(xiàn)出成為下一個ChatGPT的強勁勢頭。Sora的爆火現(xiàn)象的背后是人們對于信息革命之后第四次重大技術(shù)變革的全民狂歡。

??文章的主要觀點和解釋：

1，Sora的出現(xiàn)給人們帶來了許多震撼，人們實實在在地看到了AGI改變內(nèi)容創(chuàng)作流程的實例。
2，Sora不僅可以文本提示生成時長達一分鐘的視頻，還能通過靜止圖像生成視頻，或者通過擴展現(xiàn)有視頻或通過生成缺失的幀來填補視頻中的空白。
3，Sora生成的視頻無論是在質(zhì)量還是可靠性上都超越了該領(lǐng)域的“前輩們”，展現(xiàn)出成為下一個ChatGPT的強勁勢頭。
4，Sora的爆火現(xiàn)象的背后是人們對于信息革命之后第四次重大技術(shù)變革的全民狂歡。

可能激發(fā)用戶進行深入問答和討論的關(guān)鍵詞或短語：AGI、內(nèi)容創(chuàng)作流程、一分鐘視頻、靜止圖像、擴展現(xiàn)有視頻、生成缺失的幀、ChatGPT、信息革命、技術(shù)變革。

最近來自廣東回復(fù)