Sora終于來了,但多模態(tài)AI呼喚實用主義

0 評論 1544 瀏覽 3 收藏 22 分鐘

這篇文章深入探討了多模態(tài)AI技術(shù)的現(xiàn)狀與未來,特別是在OpenAI發(fā)布全新視頻生成模型Sora Turbo之后。作者分析了Sora在實際應用中的局限性,指出其在視頻時長、生成效果一致性以及指令遵循方面的不足

一、Sora的現(xiàn)實問題

隨著ChatGPT等大語言模型的問世,人工智能進入了一個全新的時代。在這股浪潮中,多模態(tài)AI技術(shù)成為業(yè)界競相追逐的目標,OpenAI的Sora更是將這股熱情推向高潮。

等待了299天之后,屢次跳票的Sora終于來了,OpenAI在北京時間12月10日凌晨正式發(fā)布了全新視頻生成模型Sora Turbo。

然而,從實測的效果來看,Sora的效果并沒有帶來太多驚喜,無論是在視頻時長、生成效果一致性、還是指令遵循方面,都沒有明顯強于市面上的已有視頻模型。

事實上,Sam Altman將Sora比作視頻版GPT-1的說法其實暴露了這個項目的尷尬處境。因為GPT-1更像是一種實驗性模型,不太適合作為直接可用的生產(chǎn)工具,它主要被用作科研領(lǐng)域的參考。

在投入大量資源和時間后,Sora如果呈現(xiàn)的只是一個概念驗證級別的產(chǎn)品,如果真如GPT-1一般需要經(jīng)過多次迭代以及技術(shù)突破才能達到實用水平,那么考慮到視頻生成所需的巨大算力投入和數(shù)據(jù)需求,這種戰(zhàn)略選擇的成本效益比恐怕令人擔憂。

一邊用夸張的宣傳和神秘感制造期待,一邊交出的卻是一個并沒有多少突破性進展的產(chǎn)品。特別是在2024年末這個時間點,當國內(nèi)外競爭對手已經(jīng)通過快速迭代實現(xiàn)了類似水平的效果,這種“落差”的表現(xiàn)略顯尷尬。

不可否認,Sora的發(fā)布代表了多模態(tài)AI技術(shù)的重要里程碑。它展現(xiàn)了一個“會預測未來”的AI系統(tǒng)的雛形,讓人們對通用人工智能(AGI)的到來充滿期待。只不過,這次OpenAI已經(jīng)不再將Sora稱為“世界模擬器”了。

關(guān)于Sora的技術(shù)局限性的爭論由來已久,例如,Sora在生成視頻時常出現(xiàn)邏輯錯誤,如物體運動不符合物理規(guī)律、因果關(guān)系混亂等問題,現(xiàn)在的Sora Turbo顯然也沒有解決這一問題。早在年初,Meta首席科學家楊立昆就直言,Sora的生成式技術(shù)路線“注定失敗”,因為其依賴于大規(guī)模數(shù)據(jù)訓練的概率模型,無法真正理解物理世界的因果關(guān)系。此外,Sora的生成過程更多是對已有數(shù)據(jù)的擬合,而非創(chuàng)造新知識,這使其在模擬真實世界方面仍有很長的路要走。

夢想總歸要回到現(xiàn)實,除了技術(shù)成熟度,Sora在產(chǎn)業(yè)化方面還存在諸多挑戰(zhàn):

首先,Sora的訓練和應用成本極其高昂。據(jù)Factorial Funds估算,如果Sora要大規(guī)模應用,還需要約72萬片英偉達H100 GPU的支持,這意味著216億美元的硬件投入。如此天價的算力消耗,讓Sora很難在短期內(nèi)實現(xiàn)商業(yè)閉環(huán)。

其次,Sora在落地場景方面尚不成熟。盡管Sora已經(jīng)正式發(fā)布,但在效果上離真正的“世界模擬器”差距甚遠,現(xiàn)階段更像是一個玩具而無法成為一個真正實用的創(chuàng)意工具。可以說,Sora離真正的“iPhone時刻”還有相當長的路要走。

就像上世紀60年代的核聚變發(fā)電:展示出令人震撼的潛力,吸引了大量投資和頂尖人才,但隨著研究深入,技術(shù)難度和資源投入?yún)s呈指數(shù)級增長。雖然每隔幾年就有突破性進展的報告,但要實現(xiàn)真正可控、穩(wěn)定的商業(yè)應用,始終像隔著“永遠差30年”的距離。

所以,如今的Sora面臨這樣一個困境:在完美的演示視頻背后,是否存在不可逾越的技術(shù)瓶頸?這種追求完美視頻生成的路徑,會不會最終被證明是一個代價高昂的技術(shù)死胡同?要將實驗室的演示轉(zhuǎn)化為真正有價值的應用,可能比我們想象的要困難得多。

對此,百度創(chuàng)始人李彥宏在最近接受采訪時曾表示:“如果真的能夠做到任意場景下視頻生成,那可能要很長很長時間,而且成本很高?!庇纱丝梢?,百度并非不重視Sora所代表的技術(shù)方向。只是基于務實的判斷,選擇了另一條路線。

二、“應用驅(qū)動”成為第一性原理

與許多廠商專注于打造Sora這樣的通用文生視頻模型不同,百度智能云的著眼點在于幫助客戶實現(xiàn)多模態(tài)應用的落地。正如李彥宏所言,“我們更關(guān)心怎么幫用戶把應用跑起來”。事實上,在眾多行業(yè)客戶的實際場景里,他們真正需要的是在自己的應用中擁有可靠的多模態(tài)能力,而不僅僅是一個裸的通用模型。百度智能云深諳此道,通過多年來在多模態(tài)領(lǐng)域的深厚積累和大量工程化實踐,以更簡單快捷、低門檻的方式賦能客戶,讓多模態(tài)應用能夠開花。這也是百度暫不直接做Sora,而是聚焦應用落地的重要原因。

不做Sora,并不意味著百度在多模態(tài)AI領(lǐng)域缺席。恰恰相反,百度一直在多模態(tài)領(lǐng)域有著長期而深厚的積累,只是選擇了一條應用驅(qū)動的路線。

隨著當前大模型性能增長遇到瓶頸,AI正在進入“冷靜期”。海外AI巨頭從追求AGI轉(zhuǎn)向務實路線,OpenAI嘗試轉(zhuǎn)向盈利性商業(yè)化運營,谷歌、微軟等紛紛聚焦商業(yè)變現(xiàn)和產(chǎn)業(yè)應用,重點發(fā)展To C業(yè)務、企業(yè)服務和開發(fā)者生態(tài)。

正如歷史上的典型的技術(shù)周期:高期望→泡沫→冷靜期→務實應用。行業(yè)需要從“技術(shù)優(yōu)先”的邏輯切換到“應用優(yōu)先”的軌道,通過實踐中反饋的需求和問題為技術(shù)發(fā)展指明方向。

那么,什么是“應用驅(qū)動”?簡而言之,就是從真實應用場景出發(fā),梳理AI落地的關(guān)鍵問題,并聚焦資源予以解決,最終讓技術(shù)產(chǎn)生實際價值。這有別于動輒“顛覆性創(chuàng)新”、追求酷炫Demo的做法。在李彥宏看來,“我更多希望盡早接觸場景及接觸應用,看在這個過程當中,到底遇到了什么問題,把這些問題帶回來,我們綜合一下,看大家遇到的最多的問題,就是我們優(yōu)先解決的問題。”

這種理念,與當年云計算之于互聯(lián)網(wǎng)的關(guān)系有著異曲同工之妙?;厮輾v史,正是得益于云計算平臺在基礎(chǔ)設施層面的支撐,互聯(lián)網(wǎng)企業(yè)才能將更多的精力聚焦在業(yè)務創(chuàng)新上,加速用戶需求與技術(shù)能力的迭代融合,最終催生出一個繁榮的應用生態(tài)。

如今,百度智能云正是希望在多模態(tài)AI領(lǐng)域扮演這樣一個“助推器”的角色。通過在算力、平臺、安全等多個維度提供支持,讓更多的企業(yè)和開發(fā)者無需在復雜的模型訓練、部署、應用開發(fā)上“翻山越嶺”,而是專注于挖掘行業(yè)需求、打造可用的智能化應用,讓多模態(tài)AI從實驗原型逐步發(fā)展為日常工具。

站在這個思路上審視多模態(tài)AI,就不難理解百度智能云的戰(zhàn)略選擇。在多模態(tài)AI落地的過程中,有兩大關(guān)鍵挑戰(zhàn)亟待攻克:一是實現(xiàn)更自然的人機交互,二是提高模型的可控性、盡可能消除幻覺。單純的視頻生成模型雖然看上去很酷,但還難以很好地解決這兩大問題。反而是在一些垂直領(lǐng)域,用更簡單實在的多模態(tài)技術(shù),就能讓AI先跑起來。

比如在工業(yè)質(zhì)檢領(lǐng)域,結(jié)合圖像識別和文本描述的多模態(tài)系統(tǒng)已經(jīng)能準確找出產(chǎn)品瑕疵并生成詳細的檢測報告;又如在醫(yī)療影像診斷中,將X光片、CT等圖像與病歷文本結(jié)合分析的方案,已經(jīng)在多家醫(yī)院實現(xiàn)規(guī)?;瘧?。這些看似日常的應用,才是AI真正創(chuàng)造價值的開始。

這正是百度多年來在多模態(tài)AI領(lǐng)域的投入方向。李彥宏強調(diào),“外界有一種誤解就是百度不做Sora,就等于是百度不做多模態(tài)。我們非常非??春枚嗄B(tài),我們也在多模態(tài)上有非常長期的多年投入,在真正有應用場景的地方,我們的多模態(tài)能力是非常強的?!?/p>

三、多模態(tài)AI的“地基”

多模態(tài)AI的門檻高、難度大,這是業(yè)界公認的痛點。各類模態(tài)數(shù)據(jù)的處理、模型訓練的調(diào)優(yōu)、推理服務的部署,每一個環(huán)節(jié)都需要大量的專業(yè)知識和工程經(jīng)驗。這無疑阻礙了多模態(tài)AI在更廣泛行業(yè)中的應用。百度智能云是如何支撐多模態(tài)技術(shù)大規(guī)模落地的?

在模型訓練層面,百度智能云的百舸計算平臺實現(xiàn)了主流多模態(tài)大模型的全覆蓋,除了支持MLLM、CogvIm2、Qwen2-VL等業(yè)界領(lǐng)先的多模態(tài)模型,還針對多模態(tài)訓練的特點提供了一系列優(yōu)化方案。其中,“多芯混訓”可以兼容英偉達、昆侖等多種芯片,充分發(fā)揮芯片的異構(gòu)性能,并能在萬卡規(guī)模下將兩種芯片混合訓練下的效率折損控制在5%以內(nèi);“長上下文訓練”則突破了序列長度的瓶頸,為多模態(tài)模型拓展了更廣闊的應用空間;“大集群高效訓練”的并行策略,進一步提高了多模態(tài)訓練的效率,使萬卡任務上的模型有效訓練時長占比達到99.5%、端到端的性能提升30%。

在模型推理方面,百度智能云同樣展現(xiàn)了全棧式的優(yōu)勢,百舸適配了各類客戶場景,既支持用戶自定義鏡像部署,滿足個性化需求;又能在英偉達、昆侖等異構(gòu)芯片上實現(xiàn)推理服務,兼顧成本與性能;針對主流的文生圖、文生視頻、多模態(tài)模型,還提供了一系列加速優(yōu)化方案,通過架構(gòu)分離、KV Cache、負載分配等一系列加速工作,讓長文本推理效率提升了1倍多。

作為一個全棧式開發(fā)平臺,千帆平臺提供了不同層級的開發(fā)路徑。對于普通AI應用開發(fā)者新手,千帆ModelBuilder提供開箱即用的多模態(tài)能力,涵蓋圖像生成、理解、視頻生成等熱門領(lǐng)域。用戶只需調(diào)用API接口,即可實現(xiàn)多模態(tài)交互,無需理會背后復雜的模型結(jié)構(gòu)和訓練過程。除此之外,千帆AppBuilder作為企業(yè)級應用開發(fā)平臺,可以幫助客戶和開發(fā)者不斷降低應用開發(fā)門檻,提供豐富的多模態(tài)能力,包括文生圖、圖像內(nèi)容理解等圖片處理組件,短語音識別、短文本在線合成等語音處理組件以及數(shù)字人功能等,同時可實現(xiàn)多渠道對外集成分發(fā),滿足更豐富的應用需求場景。

對于追求定制化的企業(yè)用戶,千帆提供靈活的定制化服務。用戶可利用平臺的數(shù)據(jù)處理、模型訓練、推理優(yōu)化等工具,構(gòu)建匹配自身業(yè)務場景的多模態(tài)解決方案,支持從數(shù)據(jù)處理到模型訓練的全流程開發(fā)。平臺還集成了主題模型庫,覆蓋智能客服、數(shù)字人、知識管理等熱門領(lǐng)域,幫助用戶快速搭建行業(yè)性多模態(tài)應用。

具體來看,千帆平臺提供了非常全面、靈活的多模態(tài)服務方案。如果客戶需要直接使用多模態(tài)大模型,可以在千帆上一鍵調(diào)用包括百度文心一格、Stable Difusion、Vidu等在內(nèi)的主流模型,覆蓋從文生圖、文生視頻到圖像理解等多個應用領(lǐng)域。如果客戶希望定制化訓練和微調(diào)專屬多模態(tài)大模型,搭建個性化應用,千帆平臺同樣提供強有力的算力和工具支持。

無論是復雜模型的訓練,還是大規(guī)模推理能力的實現(xiàn),云服務都在背后扮演著關(guān)鍵角色。通過提供這些基礎(chǔ)設施服務,百度智能云幫助開發(fā)者和企業(yè)更專注于應用創(chuàng)新,而不必過多關(guān)注底層技術(shù)細節(jié)。

除此之外,百度智能云還將多模態(tài)能力進一步沉淀到行業(yè)解決方案和產(chǎn)品中。比如在工業(yè)領(lǐng)域,打造了“一見”視覺大模型平臺;在智能客服場景,提供多模態(tài)對話能力;在數(shù)字人領(lǐng)域,實現(xiàn)了文生3D視頻??梢哉f,百度智能云的多模態(tài)服務已經(jīng)滲透到各行各業(yè)的關(guān)鍵生產(chǎn)力環(huán)節(jié),以更貼近需求的方式幫助企業(yè)提質(zhì)增效。

四、不做Sora,是為了更多的Sora

在百度智能云支撐下,越來越多的創(chuàng)新企業(yè)與開發(fā)者已經(jīng)匯聚于此,借“他山之石”,砌筑自己的“高樓”。

生數(shù)科技就是其中的典型代表。這家致力于多模態(tài)大模型研發(fā)的明星企業(yè),在百度百舸平臺的加持下,推出了國內(nèi)首個純自研的視頻大模型Vidu。通過百舸平臺超強的容錯能力和訓練加速能力,生數(shù)科技將Vidu訓練素材渲染加速效率提升了3倍,數(shù)據(jù)拉取效率更是提升了51倍,可以說,百度為這個“國產(chǎn)Sora”的誕生提供了堅實的算力保障。

類似的案例還有哇嘶嗒(VAST),這家3D-AIGC領(lǐng)域的佼佼者同樣將百度智能云視為AI創(chuàng)新的“壓艙石”。其面世的3D內(nèi)容創(chuàng)作工具“Tripo”備受全球矚目,被稱為3D領(lǐng)域的“GPT-4”。而這一切的背后,正是百舸平臺在算力、成本、工程化等方面的全方位賦能,幫助VAST快速構(gòu)建起強大AI基礎(chǔ)設施,獲得成熟的AI工程化能力。

當然,多模態(tài)AI生態(tài)的觸角遠不止于內(nèi)容創(chuàng)作領(lǐng)域。以光魔科技為例,這家企業(yè)就瞄準了AIGC平臺的普惠化。在百度智能云視頻解決方案以及百舸平臺的加持下,光魔科技推出的“白日夢AI”實現(xiàn)了一鍵式的文生視頻能力,讓每個普通用戶都能“編出”專屬影片,已經(jīng)擁有大量忠實擁躉。

除了聚焦前沿技術(shù)的創(chuàng)業(yè)公司,百度智能云還在為百勝中國這樣的“傳統(tǒng)巨頭”提供服務。依托百度智能云的大模型能力和智能客服解決方案,這家餐飲巨頭打造了特色AI客服系統(tǒng)。該系統(tǒng)能夠關(guān)聯(lián)上下文、精準識別客戶真實意圖,提供更好的售后服務支持,同時還能輔助人工客服快速總結(jié)訴求、優(yōu)化服務流程。這為百勝中國節(jié)省了大量客服成本,同時又提升了用戶滿意度。

由此可見,百度智能云正以其“地基”般的算力支持、有梯度的開發(fā)平臺,為整個多模態(tài)AI生態(tài)提供源源不斷的“能量”,在未來孵化了出更多的“Vidu”、“Tripo”,乃至更多的“Sora”。

五、“解決問題的AI”

對比云計算對互聯(lián)網(wǎng)產(chǎn)業(yè)的變革,以AWS為例,它不僅改變了企業(yè)的IT基礎(chǔ)設施,更重要的是催生了新的商業(yè)模式和創(chuàng)新企業(yè)生態(tài)。進入AI時代,多模態(tài)AI代表了人工智能從專項能力到綜合認知的重要躍升,這種突破不僅體現(xiàn)在技術(shù)維度的拓展,更反映在應用范式的轉(zhuǎn)變上。

AWS的AI時代的實踐同樣提供了一個很好的觀察樣本:在傳統(tǒng)AI開發(fā)中,需要針對特定問題進行精心設計和訓練。但在生成式AI時代,AWS認為成功的產(chǎn)品化之路不應局限于單一模型的性能競爭,而是要著眼于更廣闊的技術(shù)組合與應用場景,更多強調(diào)“降本增效”、“實用”的AI。

技術(shù)永遠只是手段而非目的本身。多模態(tài)AI正在重構(gòu)傳統(tǒng)的價值鏈條,這個過程中的關(guān)鍵在于如何將技術(shù)創(chuàng)新轉(zhuǎn)化為可落地的解決方案,使不同規(guī)模、不同行業(yè)的企業(yè)都能找到適合自身的數(shù)字化轉(zhuǎn)型路徑。

特別值得關(guān)注的是,不同于過往依賴單一技術(shù)平臺的垂直整合,新一代AI基礎(chǔ)設施更強調(diào)開放協(xié)作。這種模式使得不同規(guī)模、不同行業(yè)的企業(yè)都能找到適合自身的數(shù)字化轉(zhuǎn)型路徑,從而讓AI成為真正能夠解決問題的AI。從這個角度來看,百度智能云和AWS顯然站在同一戰(zhàn)線上:通過構(gòu)建開放、靈活的AI基礎(chǔ)設施,降低技術(shù)使用門檻,讓AI真正服務于產(chǎn)業(yè)創(chuàng)新。

六、結(jié)語

在全球AI競爭日益激烈的背景下,不同企業(yè)呈現(xiàn)出截然不同的技術(shù)路線和發(fā)展策略。這是無可厚非的,在這個仍處于摸索階段的賽道上,技術(shù)和商業(yè)路線的多樣化不僅有利于推動整個領(lǐng)域的創(chuàng)新突破,也能為不同場景和需求提供更豐富的解決方案。

市場研究和咨詢公司Omdia在最新發(fā)布的報告中指出,將技術(shù)轉(zhuǎn)化為可落地的解決方案同樣關(guān)鍵。百度智能云在多模態(tài)生成式AI技術(shù)和商業(yè)成功方面展現(xiàn)了領(lǐng)導力。Omdia預計,百度智能云將繼續(xù)在中國引領(lǐng)多模態(tài)生成式AI應用的部署和實施。

百度“應用驅(qū)動”的思路或許啟示了我們:AI技術(shù)的發(fā)展不應陷入簡單的技術(shù)競賽,而是要著眼于更加可持續(xù)的商業(yè)價值和社會價值。通過深入產(chǎn)業(yè)、理解需求,將創(chuàng)新成果轉(zhuǎn)化為切實可行的解決方案,從而推動技術(shù)與產(chǎn)業(yè)邁向下一個階段。

作者|周一笑
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!