Sora冷靜期后,我們更關(guān)心AI+XR的組合能夠帶來什么

1 評論 2878 瀏覽 2 收藏 24 分鐘

Sora的出現(xiàn)與其生成效果,已經(jīng)給人們帶來了許多震撼,人們實實在在地看到了AGI改變內(nèi)容創(chuàng)作流程的實例,而這也是Sora引起熱議的原因之一。如果AI再疊加上XR,我們又可以看到哪些關(guān)于未來的期望?

不可否認的是,OpenAI總能創(chuàng)造爆款。

趕在中國農(nóng)歷春節(jié)假期結(jié)束前,OpenAI又一次在社交媒體上投下了一顆重磅炸彈。新的人工智能系統(tǒng)Sora的出現(xiàn)宣告著現(xiàn)代內(nèi)容的創(chuàng)建方式徹底改變。

根據(jù)OpenAI的說法,Sora不僅可以文本提示生成時長達一分鐘的視頻,還能通過靜止圖像生成視頻,或者通過擴展現(xiàn)有視頻或通過生成缺失的幀來填補視頻中的空白。

雖然該模型目前僅在申請內(nèi)測階段,但從國內(nèi)外社交媒體的反應(yīng)以及官方提供的實例來看,Sora生成的視頻無論是在質(zhì)量還是可靠性上都超越了該領(lǐng)域的“前輩們”,展現(xiàn)出成為下一個ChatGPT的強勁勢頭。

這固然有部分炒作的成分在,但不可否認的是,Sora的爆火現(xiàn)象的背后是人們對于信息革命之后第四次重大技術(shù)變革的全民狂歡,“多模態(tài)真人工智能”進化的又一個里程碑出現(xiàn)在了2024開年。

一、現(xiàn)實與虛擬的邊界已被成功混淆

在 Sora 及其技術(shù)報告推出后,OpenAI幾段長達 60 秒,高清晰度且畫面可控、能多角度切換的高水平效果視頻就在國內(nèi)外社交媒體上瘋傳。

在Sora的魔法下,人們第一次知道AI生成的視頻原來還可以這么逼真。

即使融入紀錄片也毫無違和感(圖源:Sora)

要知道,2023年AI的視頻生成效果還是這樣的:

真實但顯然視頻對象靈活性欠佳(圖源:Pika)

僅僅過去幾個月時間,文本生成視頻技術(shù)實現(xiàn)了從5秒到60秒,從卡通動畫到紀錄片畫質(zhì)的飛躍,這放誰身上不汗流浹背。

逼真的視覺效果以及“未來已來”的社交媒體病毒式營銷使得Sora成為2024年初AI領(lǐng)域最為破圈的存在,風頭甚至蓋過了幾乎同一時間發(fā)布的Gemini 1.5,一時間無論是娛樂版塊還是科技板塊都充斥著Sora的身影。

一年前,一段由 AI 生成威爾?史密斯吃面的視頻在網(wǎng)絡(luò)上大火,僅在Twitter上該視頻的播放量就突破了 800 萬。

一年后,威爾史密斯于Sora刷屏后在自己的INS上上傳了一則視頻,并附文“越來越失控了”。

可以看到,視頻畫面分為上下兩段:上半段顯示是一年以前的 AI 視頻,下半段則顯示現(xiàn)在的 AI 視頻。

圖源:X

雖然大家很快就發(fā)現(xiàn)這只是威爾?史密斯在玩梗,視頻下半段并不是AI生成,而是他自己錄的,但還是有不少網(wǎng)友大呼受騙:“最令人毛骨悚然的是,你無法判斷這是表演還是人工智能生成的。”

這也從側(cè)面證明Sora的出現(xiàn)使得人們開始相信視頻生成AI能夠以假亂真,AI代替視頻剪輯的時刻似乎已經(jīng)到來。在Sora發(fā)布的另一則演示視頻中,可以看到,人物在進食過程中的咬合動作,漢堡上的缺口以及牙印都與現(xiàn)實規(guī)律無異,完全不是一年前史密斯吃面的恐怖效果可以比擬的。

漢堡有瑕疵,但牙印很還原(圖源:Sora)

不過,視頻生成效果再好,也總有人能在其中找到瑕疵。許多影視行業(yè)人士在分析Sora生成的演示視頻之后表示,雖然Sora在視頻畫質(zhì)、細節(jié)、光影和色彩等方面表現(xiàn)出色,但目前還不能直接用于影視作品,因為其在涉及鏡頭運動角度和更精細內(nèi)容調(diào)控方面仍存在不足。

一個明顯的案例出自于這段視頻,視頻中人物在跑步機上逆向跑步,Sora顯然還不明白運動的規(guī)律。

圖源:Sora

還有一個佐證是四條腿的螞蟻,Sora知道什么圖像代表著螞蟻這一單詞,但對完整螞蟻形象的理解還存在不足。

圖源:Sora

然而,即使Sora還不夠完美,但其生成效果也已經(jīng)足夠震撼,業(yè)內(nèi)人士普遍認為Sora完全可以用于諸如概念設(shè)計之類的影視前期開發(fā)。

再加上OpenAI方面對于積極改進Sora不成熟之處的承諾以及AI語音克隆初創(chuàng)公司ElevenLabs等對Sora視頻“聲音缺失”的一系列問題的解決方案的推出,在突破現(xiàn)實與虛擬邊界的小試牛刀后,Sora未來將為影視行業(yè)帶來更多創(chuàng)新和突破。

二、爆火的背后,Sora踩中了什么流量密碼?

Sora并非第一個問世的文本生成視頻AI模型,但為什么只有Sora成為了現(xiàn)象級的全球爆款?

根本來看,一是視頻質(zhì)量的跨級別飛躍,二是“意想不到的核心技術(shù)”。

其中,Sora生成視頻的質(zhì)量大家有目共睹,光是60s的連貫視頻生成時長就不是Runway和Pika能夠比擬的。而視頻質(zhì)量的斷層式領(lǐng)先的原因則被業(yè)內(nèi)人士認為是在核心技術(shù)上的力大磚飛。

博主“Daily News”展示的三種模型生成效果(圖源:X)

國內(nèi)深度學(xué)習(xí)專家李沐認為,Sora類似于視頻生成界GPT2向GPT3升級的時刻,模型跟前作DiT比可能變化不大,但使用了幾百倍的算力,屬于是大力出奇跡。該模型基于的ViT、DALL·E、diffusionmethods、VAE也并非新技術(shù),這種demo效果拉滿的應(yīng)用,相信學(xué)術(shù)界和開源界會很快跟進。

與Runway和Pika不同,Sora在擴散模型領(lǐng)域使用了此前在GPT上就十分好用的Transformer方案,將文本模型的強前后文理解能力用在擴散視頻的“幀生成”上。

圖源:Sora

簡單來說,Sora并不是直接將文本轉(zhuǎn)化成視頻中的每個幀,而是通過處理每一個Space timepatches(時空補?。﹣硌a全整個視頻。

這類似于3D生成領(lǐng)域的分塊式生成,Sora分析文本后將整個視頻內(nèi)容代表的時空中的關(guān)鍵元素切割為包括物體、動作、背景等在內(nèi)的對應(yīng)圖像補丁,并通過內(nèi)置的知識圖譜,以物理世界的數(shù)據(jù)信息將這些補丁重新整合成充滿噪點的畫面。最后通過擴散模型將噪點圖像細化,成為逐幀生成的視頻。

圖源:Sora

在時空信息的約束下,Sora生成的視頻內(nèi)容顯然更加忠于指令,相當于Sora提前給視頻打好了腳本,視頻中生成的內(nèi)容就像演員和布景一般嚴格按照腳本運行,這同樣也是此前Runway和Pika等無法做到的。

而這些成果都離不開Sora背后的核心團隊。OpenAI 研究人員 Jason Wei 在自曝一份比996更加緊湊的每日工作時間安排清單后,收獲了一眾驚嘆,他表示,“OpenAl is nothing without its people.(沒有員工的貢獻,OpenAI什么都不是。)”

圖源:X

根據(jù)此前的社交媒體消息,Sora團隊成員構(gòu)成十分年輕化,團隊中甚至有00后的科研成員。這些參與者中,已知的核心成員包括研發(fā)負責人Tim Brooks、William Peebles、系統(tǒng)負責人 Connor Holmes 等。

與算力一道,人才被視作AI發(fā)展的基石之一,此前被誤傳為Sora作者之一的CV大神謝賽寧同樣認為人才是Sora這樣復(fù)雜的系統(tǒng)誕生的三大核心因素,其余兩個分別是數(shù)據(jù)和算力。

靠著足夠驚人的演示視頻+全球第三大獨角獸背后的年輕團隊,Sora賺足了流量,還未發(fā)布就已經(jīng)成為了拳打Runway,腳踢pika的文字生成視頻領(lǐng)域的唯一神,甚至還在中國國內(nèi)創(chuàng)造了新的“AI變現(xiàn)渠道”。

在Sora還沒有公測之時,以李一舟為代表的“AI講師”們就已經(jīng)大張旗鼓賣起了網(wǎng)課,勢要讓“家人們”都趕上利用Sora賺大錢的第一波風口。

只是李一舟早已被扒出并不是 AI 方面的專家,其賣課內(nèi)容也基本都是最基礎(chǔ)的常識,更多的是“強調(diào)AI的強大和重要性”以及“用Sora關(guān)鍵詞引流變現(xiàn)、賣賬號、賣生成視頻、賣使用教程”等互聯(lián)網(wǎng)講師們的老一套變現(xiàn)操作。與此前的“教你如何用ChatGPT”一樣,屬于是吃O(shè)penAI的次生流量割韭菜。

普通人對于“AI取代說”的恐懼無可厚非,但AI技術(shù)發(fā)展太快,今天剛剛學(xué)會用Runway,明天就又冒出了更加強大的Sora,與其將焦點放在如何追趕最新的AI技術(shù)上,不如更多地關(guān)注AI的出現(xiàn)對生產(chǎn)模式的改變,畢竟未來AI都將朝著傻瓜式好用的方向邁進,發(fā)掘AI能在何種領(lǐng)域如何更好地增值內(nèi)容生產(chǎn)才是未來打工人們更加應(yīng)該關(guān)心的。

AI“一鍵生成廣告圖圖”工具Amazon Ad(圖源:亞馬遜)

這也是Sora引起熱議的另一個原因,借助這項文本生成視頻技術(shù),人們看到了AGI改變內(nèi)容創(chuàng)作流程的實例。

三、AI+XR打造智能硬件的“明日設(shè)備”

在這之前,AIGC已經(jīng)突破了文本生成、圖像生成的關(guān)卡,如今,公認的創(chuàng)意媒介的最后一道難關(guān)——視頻的一鍵生成也被打通,有了ChatGPT的成功案例在前,市場普遍認為Sora同樣也能成為下一個改變工作流程的AI模型,而不只是停留在理論。

在Sora發(fā)布之后,網(wǎng)上就有很多關(guān)于OpenAI下一步計劃的猜測。AI內(nèi)容創(chuàng)作者“Kwebbelkop”稱,OpenAI將收集用戶發(fā)布的Sora視頻的數(shù)據(jù)來進行模型微調(diào),從而讓Sora變得更加強大。

此外,OpenAI還將收集這些視頻的觀看數(shù)據(jù)增強Sora的RLHF(強化學(xué)習(xí)自人類反饋算法),這意味著每個人都能通過Sora一鍵創(chuàng)造出社交媒體熱門視頻?;诖?,OpenAI甚至還將有可能推出一個全新的、完全由AI生成內(nèi)容構(gòu)成的視頻平臺,并與YouTube、TikTok等展開競爭。

圖源:X

不過,OpenAI的野心可能不止于此。變革內(nèi)容生產(chǎn)一直是人們對于生成式AI的關(guān)注焦點,目前,OpenAI的人工智能藍圖已經(jīng)包括文生文的ChatGPT、文生圖的DALL·E 3、文生3D的Shap·E以及文生視頻的Sora。

在傳統(tǒng)的智能手機、PC平臺,我們已經(jīng)見識過ChatGPT在AI生成領(lǐng)域的統(tǒng)治力。但交互模式單一的傳統(tǒng)硬件顯然未能激發(fā)多模態(tài)AI的全部潛能,就和AI顛覆過去一樣,電子硬件產(chǎn)品同樣也需要加速更新?lián)Q代,以適應(yīng)未來潛在的交互需求。

或許正是出于對AI交互生態(tài)的探索,OpenAI在2024年開年最火的終端電子設(shè)備蘋果Vision Pro推出后,緊急將ChatGPT上架visionOS應(yīng)用商店。

ChatGPT在Vision Pro上的推出對于OpenAI是一個重要的里程碑,直接向外界展示了未來AI(尤其是多模態(tài)AI)可能的更自然、更直觀、更沉浸的交互方式。

Vision Pro的眼動、手勢追蹤(圖源:蘋果)

可以說,蘋果Vision Pro與ChatGPT的合作使得XR設(shè)備再次被寄予成為人工智能下一代計算終端新選擇的厚望,畢竟其在推出短短一個月內(nèi)對于工作體驗的顛覆就已經(jīng)讓很多科技大佬都直呼“amazing”。

在蘋果Vision Pro正式發(fā)售后,有不少社交媒體博主開始佩戴Vision Pro進行各項日常生活、工作場景體驗,其中有不少開發(fā)者嘗試用Vision Pro進行編碼工作,并得到了值得參考的XR工作體驗反饋。

圖源:蘋果

IT企業(yè)家Willem專門用博客記錄了他的初次Vision Pro編碼體驗,他表示:“它不僅非常便攜,還能為你的眼睛提供一個完整的虛擬世界!這簡直就像我隨身攜帶了個龐大的多顯示器設(shè)置一樣?!?/p>

Willem及其他對Vision Pro持有好評的體驗者將Vision Pro的優(yōu)勢集中在“沉浸”二字上,既能有媲美真實的編碼界面,又能幾乎完全屏蔽外界干擾:“在 Vision Pro 里你幾乎與環(huán)境融為一體。我喜歡在窗口周圍走來走去,看一些代碼或服務(wù)器輸出,感受它是一臺大型工作機器。某種程度上來說,我感覺就像站在一個大機房里,這與傳統(tǒng)的桌面體驗完全不同?!?/p>

沉浸式編碼體驗(圖源:willem.com)

而當蘋果的AI時代到來之后,沉浸式編碼的體驗將更加魔幻。

知名科技記者馬克·古爾曼爆料稱,蘋果公司準備在iOS平臺編程軟件Xcode的下一次大版本更新中加入AI功能,以對標微軟旗下的GitHub Copilot。

雖然消息表明了蘋果該項功能更新意在為iOS 18、iPadOS 18和macOS 15創(chuàng)造盡可能多的人工智能新功能,但作為蘋果蘋果未來生產(chǎn)力閉環(huán)的重要組成部分,AI功能上線visionOS只是時間問題。

AI對編程效率的提升是顯而易見的,根據(jù)Github官方的一篇博客,自發(fā)布以來,GitHub Copilot已幫助超過100萬人提高了開發(fā)人員的工作效率,幫助開發(fā)人員將編程速度提高了55%。

圖源:Github

而這不僅發(fā)生在程序員圈子中,幾乎所有AI可以參與的辦公場景中,工作效率都得到了大額提升。類似的例子有Adobe此前為Meta Quest Pro開發(fā)的一款3D建模程序“Substance 3D”,在虛擬世界中的3D建模已經(jīng)完全退化掉了鍵盤鼠標,只需要簡單的手勢動作就能輕松捏出設(shè)計模型。

繼ChatGPT之后,成熟后的Sora或是其他AI生成圖像、模型、視頻工具都將有可能以應(yīng)用程序的形式加入visionOS生態(tài)。AI、Vision Pro兩大科技熱門的結(jié)合重塑辦公、創(chuàng)作體驗的模式已初見雛形。

圖源:X

這一科技變革之路需要許許多多人才、企業(yè)的前赴后繼,幸運的是,蘋果并不是AI+XR這一想法的唯一踐行者,就在Sora發(fā)布的同一時間節(jié)點,還有一件事也攪動了國內(nèi)的AI市場。

2024年2月18日,星紀魅族對外宣布將停止傳統(tǒng)智能手機新項目的研發(fā),轉(zhuǎn)而All in AI,全力投入“明日設(shè)備(AI For New Generations)”。雖然這一決定的原因被歸結(jié)為“手機賣不動了”,但從其后續(xù)的AI轉(zhuǎn)型計劃來看,魅族更在意的或許是AI+硬件的市場新需求。

圖源:星紀魅族

星紀魅族公布的AI戰(zhàn)略規(guī)劃的詳細內(nèi)容中,包括了打造AI Device產(chǎn)品、重構(gòu)Flyme系統(tǒng)和建設(shè)AI生態(tài)。公司CEO沈子瑜在該次視頻發(fā)布會中強調(diào)魅族將打造全新的AI設(shè)備,用AI原生設(shè)計重組產(chǎn)品形態(tài),并用更強大的硬件算力支撐AI的全局調(diào)動。

對于沈子瑜口中的“明日設(shè)備”,有不少人猜測會是AI手機,畢竟打著AI終端名頭的魅族21 Pro已經(jīng)上市。但也有部分聲音認為,魅族將取代傳統(tǒng)手機形態(tài)的重任交給了XR眼鏡。

去年,星紀魅族剛剛發(fā)布了搭載自家智能“FlymeAR”交互系統(tǒng)的MYVU AR眼鏡 ,而從其剛剛發(fā)布的三年AI愿景來看,XR產(chǎn)品將在星紀魅族2025年的產(chǎn)品生態(tài)中占據(jù)舉足輕重的地位。

圖源:星紀魅族

以蘋果Vision Pro及其傳聞中的AR眼鏡形態(tài)產(chǎn)品為開端,包括星紀魅族、三星、華為、小米、OPPO、 VIVO等傳統(tǒng)手機廠商紛紛入局XR賽道,如今,星紀魅族All in AI,OPPO也專門成立了AI中心,將資源向AI集中,就像iPhone開創(chuàng)智能手機時代一樣,AI+智能硬件的組合目前看來將是開啟下一個智能計算時代的不二選擇。

這一趨勢同時也影響了頭部的AI科技廠商們,除了之前的OpenAI籌資7萬億美元豪賭芯片帝國的消息外,行業(yè)頂部的AI生成技術(shù)公司Midjourney也被曝出正在開發(fā)硬件產(chǎn)品。

據(jù)稱,Midjourney已經(jīng)挖角了蘋果Vision Pro的硬件工程經(jīng)理Ahmad Abbas,以協(xié)助開發(fā)一個收集3D數(shù)據(jù),管理3D模型的工具,甚至于Midjourney未來可能推出自己的VR頭顯。

領(lǐng)英界面顯示Ahmad已加入Midjourney(圖源:linkedin)

在這些頭部科技企業(yè)看來,AI離不開硬件這一應(yīng)用載體,消費硬件產(chǎn)品也需要AI的輔助重現(xiàn)智能手機時代的榮光。

如今,AI的蛋糕爭奪戰(zhàn)已經(jīng)開始進入正賽,沒有廠商愿意放棄成為下一個IPhone的的新機會,無論是蘋果自家的Vision Pro、新形態(tài)的AI Pin還是手機廠商們設(shè)想的AI手機,都在探索與ChatGPT、Sora等這樣的前沿模型融合的最佳模式,在AI生成模型踏入爆發(fā)階段的2024,落伍是硬件廠商們難以接受的,對于AI“最佳載體冠名權(quán)”的你追我趕還將繼續(xù)。

作者:VR陀螺

來源公眾號:VR陀螺(ID:vrtuoluo),XR行業(yè)垂直媒體,關(guān)注VR/AR的頭部產(chǎn)業(yè)服務(wù)平臺。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @VR陀螺 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. ??本文總結(jié):

    ??本文主要討論了OpenAI新的人工智能系統(tǒng)Sora及其生成效果,人們看到了人工智能改變內(nèi)容創(chuàng)作流程的實例。Sora可以生成時長達一分鐘的視頻,還能通過靜止圖像生成視頻,或通過擴展現(xiàn)有視頻或生成缺失的幀來填補視頻中的空白。Sora的出現(xiàn)宣告著現(xiàn)代內(nèi)容的創(chuàng)建方式徹底改變。盡管該模型目前僅在申請內(nèi)測階段,但其生成的視頻無論是在質(zhì)量還是可靠性上都超越了該領(lǐng)域的“前輩們”,展現(xiàn)出成為下一個ChatGPT的強勁勢頭。Sora的爆火現(xiàn)象的背后是人們對于信息革命之后第四次重大技術(shù)變革的全民狂歡。

    ??文章的主要觀點和解釋:

    1,Sora的出現(xiàn)給人們帶來了許多震撼,人們實實在在地看到了AGI改變內(nèi)容創(chuàng)作流程的實例。
    2,Sora不僅可以文本提示生成時長達一分鐘的視頻,還能通過靜止圖像生成視頻,或者通過擴展現(xiàn)有視頻或通過生成缺失的幀來填補視頻中的空白。
    3,Sora生成的視頻無論是在質(zhì)量還是可靠性上都超越了該領(lǐng)域的“前輩們”,展現(xiàn)出成為下一個ChatGPT的強勁勢頭。
    4,Sora的爆火現(xiàn)象的背后是人們對于信息革命之后第四次重大技術(shù)變革的全民狂歡。

    可能激發(fā)用戶進行深入問答和討論的關(guān)鍵詞或短語:AGI、內(nèi)容創(chuàng)作流程、一分鐘視頻、靜止圖像、擴展現(xiàn)有視頻、生成缺失的幀、ChatGPT、信息革命、技術(shù)變革。

    來自廣東 回復(fù)