大語(yǔ)言模型火爆的今天,我們?yōu)槭裁催€要擁抱世界模型?

1 評(píng)論 516 瀏覽 0 收藏 16 分鐘

在大語(yǔ)言模型風(fēng)靡全球的當(dāng)下,AI 的發(fā)展似乎已經(jīng)達(dá)到了一個(gè)新的高度。然而,圖靈獎(jiǎng)得主楊立昆指出,大語(yǔ)言模型仍存在四個(gè)難以突破的致命弱點(diǎn),其中之一便是對(duì)物理世界的理解。而“世界模型”技術(shù)的出現(xiàn),正是為了彌補(bǔ)這一短板。

圖靈獎(jiǎng)得主楊立昆認(rèn)為,目前AI界持續(xù)追捧的大語(yǔ)言模型并非十全十美,它隱藏著四個(gè)難以突破的致命弱點(diǎn):一是理解物理世界,二是擁有持久記憶,三是具備推理能力,四是復(fù)雜規(guī)劃能力。

而能夠克服第一個(gè)“致命弱點(diǎn)”的技術(shù),叫作世界模型。

這聽(tīng)起來(lái)或許很抽象,但你一定知道谷歌的3D游戲、特斯拉的自動(dòng)駕駛。

世界模型意味著機(jī)器能夠像人一樣辨別物理空間、理解物理規(guī)律、根據(jù)經(jīng)驗(yàn)做出推理決策。

與大語(yǔ)言模型不同的是,世界模型不再遵循從海量文本語(yǔ)料生成概率的邏輯,而是在深度分析大規(guī)?,F(xiàn)實(shí)世界視頻后推測(cè)因果。

就像人類世界的嬰兒一樣,在交互學(xué)習(xí)中構(gòu)建對(duì)這個(gè)世界的認(rèn)知。

一、從零到一,世界模型源于人類心智

想象一個(gè)剛出生的嬰兒,她的眼睛尚未完全聚焦,卻能通過(guò)觸摸、溫度、聲音的碎片拼湊出世界的輪廓。人類大腦用數(shù)百萬(wàn)年進(jìn)化出這種能力——將感官信息轉(zhuǎn)化為對(duì)物理規(guī)律的理解。

而這恰是今天人工智能所欠缺的,世界模型正在努力發(fā)展的——從數(shù)據(jù)中重構(gòu)對(duì)重力、時(shí)間等知識(shí)的理解。

世界模型的概念最早可追溯至1980s到1990s的認(rèn)知科學(xué)和控制理論,那時(shí)的研究者受心理學(xué)影響,提出AI系統(tǒng)需要構(gòu)建對(duì)環(huán)境的內(nèi)部模擬,從而進(jìn)行預(yù)測(cè)和決策,即AI的環(huán)境建模能力。

這里有一個(gè)重要的要素:環(huán)境。

從生物學(xué)上來(lái)講,不論是微生物、動(dòng)物還是人,行為都遵循著一個(gè)最基本的規(guī)則:刺激-反應(yīng)模式,即生物反應(yīng)是對(duì)環(huán)境刺激的直接響應(yīng)。

隨著生物千億年漫長(zhǎng)的進(jìn)化,動(dòng)物發(fā)展出感覺(jué)和心理,通過(guò)視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)等感官感知外界,產(chǎn)生出興奮、恐懼等簡(jiǎn)單情緒;人類進(jìn)一步發(fā)展出自我意識(shí),而人類意識(shí)和動(dòng)物感覺(jué)最大的區(qū)別是能否自主規(guī)劃、有目的地進(jìn)行決策和行動(dòng)。

拿生物進(jìn)化過(guò)程和AI的發(fā)展歷程相比,我們不難發(fā)現(xiàn),其實(shí)AI的終極形態(tài)AGI就是要發(fā)展出自主感知現(xiàn)實(shí)、自我規(guī)劃、有目的決策的能力。

世界模型的雛形就萌芽于心理學(xué)家對(duì)人類和動(dòng)物認(rèn)知理解世界并做出決策的觀察。這個(gè)理論叫作心智模型,1990年由David Rumelhart提出,強(qiáng)調(diào)智能體需對(duì)環(huán)境形成抽象表征。

以我們自身舉例,人類大腦對(duì)周圍世界有一種習(xí)得的內(nèi)在認(rèn)知框架,根據(jù)經(jīng)驗(yàn)做決策,如看到烏云就聯(lián)想到下雨。再比如,我們不會(huì)記住每片樹葉的形狀,卻能瞬間判斷樹枝能否承受體重。同理,世界模型就是讓機(jī)器構(gòu)建起對(duì)周圍環(huán)境和世界的理解和預(yù)測(cè)能力,比如看到火就聯(lián)想到燙傷。這種抽象能力,正是這一時(shí)期學(xué)者希望機(jī)器具有的稟賦。

但是,這階段的世界模型研究停留在理論構(gòu)想階段,雖有了較為清晰的定義和目標(biāo),仍沒(méi)有具體的技術(shù)路徑。

世界模型研究開(kāi)始落地是2000s到2010s的計(jì)算建模階段,隨著強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的深入發(fā)展,學(xué)者開(kāi)始嘗試用神經(jīng)網(wǎng)絡(luò)構(gòu)建可訓(xùn)練的世界模型。

強(qiáng)化學(xué)習(xí)通過(guò)獎(jiǎng)懲機(jī)制讓其在與環(huán)境交互過(guò)程中不斷習(xí)得策略,類似于“訓(xùn)狗”,深度學(xué)習(xí)通過(guò)分層特征提取讓其從海量數(shù)據(jù)中自動(dòng)學(xué)習(xí)規(guī)律,類似于“煉金”。

2018年,DeepMind 《World Models》(Ha & Schmidhuber)論文首次用“VAE+RNN+控制器”的三段式架構(gòu),構(gòu)建可預(yù)測(cè)環(huán)境的神經(jīng)網(wǎng)絡(luò)模型,成為現(xiàn)代世界模型的里程碑。

這一過(guò)程類似于“造夢(mèng)”——先通過(guò)自動(dòng)編碼器VAE將現(xiàn)實(shí)場(chǎng)景壓縮成數(shù)據(jù),再利用RNN循環(huán)神經(jīng)網(wǎng)絡(luò)推演未來(lái)可能的情節(jié),最后用精簡(jiǎn)的控制器指導(dǎo)行動(dòng)。這意味著世界模型首次具備了顱內(nèi)推演的能力,像人類一樣在行動(dòng)前預(yù)判后果,大大降低了試錯(cuò)成本。

2022年后,世界模型進(jìn)入大模型時(shí)代,借助Transformer的序列建模能力和多模態(tài)學(xué)習(xí)技術(shù),應(yīng)用范圍從單一模態(tài)擴(kuò)展到跨模態(tài)仿真,世界模型的推演也從2D走向3D(如OpenAI的GATO、DeepMind的Genie)。

近期研究如Meta的VC-1、Google的PaLM-E進(jìn)一步將世界模型的概念帶入公眾視野,將世界模型與大語(yǔ)言模型結(jié)合以實(shí)現(xiàn)更通用的環(huán)境推理成為一種技術(shù)發(fā)展路徑。

Google的PaLM-E(5620億參數(shù))模型成功將語(yǔ)言模型與視覺(jué)、傳感器數(shù)據(jù)等物理世界信息結(jié)合,機(jī)器人能夠理解復(fù)雜指令(如“撿起掉落的錘子”)并適應(yīng)新環(huán)境執(zhí)行任務(wù)。Meta Llama系列的開(kāi)源多模態(tài)框架(如MultiPLY)進(jìn)一步促進(jìn)了對(duì)物理環(huán)境的3D感知研究。

由上,從概念推演到落地實(shí)踐,世界模型在發(fā)展中逐步摸索,漸漸走出一條從混沌到清明的路。

二、由虛擬入現(xiàn)實(shí),世界模型大有可為

Transformer架構(gòu)的進(jìn)化、多模態(tài)數(shù)據(jù)的爆發(fā),讓世界模型走出訓(xùn)練場(chǎng),走進(jìn)游戲場(chǎng),再走向真實(shí)世界——谷歌、騰訊通過(guò)其生成逼真的游戲場(chǎng)景,特斯拉用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)車輛軌跡,DeepMind通過(guò)建模預(yù)測(cè)全球天氣。

就這樣,在實(shí)驗(yàn)室中蹣跚學(xué)步的世界模型開(kāi)始了他對(duì)現(xiàn)實(shí)物理規(guī)律的探索之路。

就像人類幼年通過(guò)游戲感受規(guī)則完成社會(huì)化一樣,世界模型的第一關(guān)也是游戲。

初期的模型應(yīng)用仰賴規(guī)則明確的虛擬環(huán)境和邊界清晰的離散空間,如Atari游戲(DQN)、星際爭(zhēng)霸(AlphaStar),采用表格型模型(如Dyna),后期結(jié)合CNN/RNN處理圖像輸入。

進(jìn)化至3D版后,谷歌DeepMind的Genie 2可通過(guò)單張圖片生成可交互的無(wú)限3D世界,時(shí)長(zhǎng)達(dá)1min,用戶可自由探索動(dòng)態(tài)環(huán)境(如地形變化、物體互動(dòng))。由騰訊、港科大、中國(guó)科大聯(lián)合推出的GameGen-O模型可一鍵生成西部牛仔、魔法師、馴獸師等游戲角色,還能以更高保真度、更復(fù)雜的物理效果生成海嘯、龍卷風(fēng)、激光等各種場(chǎng)景。

經(jīng)過(guò)大量訓(xùn)練后,世界模型由游戲過(guò)渡到工業(yè)場(chǎng)景。

游戲引擎的核心能力在于構(gòu)建高保真、可交互的3D虛擬環(huán)境。這種能力被直接遷移到工業(yè)場(chǎng)景中,用于模擬工業(yè)場(chǎng)景中各種可能出現(xiàn)故障的復(fù)雜場(chǎng)景。

機(jī)器人公司波士頓動(dòng)力在虛擬環(huán)境中預(yù)演機(jī)器人動(dòng)作(如摔倒恢復(fù)),再遷移到實(shí)體機(jī)器;特斯拉2023年提出的世界模型直接整合了游戲引擎的仿真技術(shù),利用合成數(shù)據(jù)訓(xùn)練自動(dòng)駕駛系統(tǒng),減少對(duì)真實(shí)路測(cè)數(shù)據(jù)的依賴;蔚來(lái)的智能世界模型能夠在極短時(shí)間內(nèi)推演數(shù)百種可能情境并做好預(yù)案和決策。

最近,世界模型還走進(jìn)了基礎(chǔ)研究領(lǐng)域。

DeepMind的GraphCast靠世界模型處理百萬(wàn)級(jí)網(wǎng)格氣象變量,預(yù)測(cè)天氣能力比傳統(tǒng)數(shù)值模擬快1000倍,能耗降低1000倍。它通過(guò)圖神經(jīng)網(wǎng)絡(luò)架構(gòu),能夠直接從歷史再分析數(shù)據(jù)中學(xué)習(xí)天氣系統(tǒng)的復(fù)雜動(dòng)力學(xué),精準(zhǔn)、高效預(yù)測(cè)全球天氣。

從游戲般的虛擬場(chǎng)景到自動(dòng)駕駛等現(xiàn)實(shí)場(chǎng)景,世界模型的本質(zhì)是通過(guò)大量多模態(tài)資料理解物理世界的規(guī)律。未來(lái),“世界模型+大語(yǔ)言模型”可能成為AGI的核心架構(gòu),讓AI不僅能聊天,還能真正理解并做出決策改變現(xiàn)實(shí)世界。

不過(guò),我們?yōu)楹涡枰澜缒P停吭诖笳Z(yǔ)言模型火爆全球的今天,是什么讓其顯得不可替代呢?

三、從概率到因果,我們?yōu)楹涡枰澜缒P停?/h2>

讓AI真正從模仿表征到感知本質(zhì),克服其各種恐怖谷效應(yīng)的關(guān)鍵是:讓它真正理解這個(gè)世界,了解現(xiàn)實(shí)空間和物理規(guī)律,進(jìn)而理解它為什么會(huì)做這件事,而不是機(jī)械地根據(jù)海量數(shù)據(jù)的關(guān)聯(lián)概率推測(cè)下一個(gè)token是什么。

這是基于大規(guī)模文本語(yǔ)料的大語(yǔ)言模型和不斷試錯(cuò)優(yōu)化尋找最優(yōu)路徑的強(qiáng)化學(xué)習(xí)做不到的,只有世界模型能做到。

傳統(tǒng)AI是數(shù)據(jù)驅(qū)動(dòng)型的被動(dòng)反應(yīng)系統(tǒng),而世界模型通過(guò)構(gòu)建內(nèi)部虛擬環(huán)境理解了物理、碰撞等現(xiàn)實(shí)規(guī)律,能夠像人類一樣通過(guò)想象預(yù)演行動(dòng)后果,并在游戲、機(jī)器人等領(lǐng)域共享底層推理算力。

首先是通過(guò)底層建模和多模態(tài)整合構(gòu)建出跟人類一樣的心智模型。外部,世界模型不僅模擬物理規(guī)律,還試圖理解社會(huì)規(guī)則和生物行為,從而在復(fù)雜場(chǎng)景中趨利避害。內(nèi)部,世界模型根據(jù)感知、預(yù)測(cè)、規(guī)劃和學(xué)習(xí)的協(xié)同,形成類似人類心智的時(shí)空認(rèn)知能力。

其次是因果預(yù)測(cè)和反事實(shí)推理能力。世界模型能夠基于當(dāng)前狀態(tài)和行動(dòng),預(yù)測(cè)未來(lái)的演變結(jié)果。其具備類似人類的常識(shí)庫(kù),能填補(bǔ)缺失信息并進(jìn)行反事實(shí)推理(what if),即使未直接觀察某事件,也能推斷“如果采取不同行動(dòng)會(huì)如何”。這種能力使其在數(shù)據(jù)稀缺時(shí)仍能有效決策,減少對(duì)海量標(biāo)注數(shù)據(jù)的依賴,在自動(dòng)駕駛領(lǐng)域應(yīng)用較多。

最后,世界模型通過(guò)自監(jiān)督學(xué)習(xí)構(gòu)建對(duì)世界的通用表征,獲得了跨任務(wù)、跨場(chǎng)景的泛化能力,而傳統(tǒng)模型通常需針對(duì)特定領(lǐng)域的具體任務(wù)微調(diào)。

但是,這些能力,為什么火極一時(shí)的大語(yǔ)言模型做不到呢?

要弄清為什么世界模型的預(yù)測(cè)能力和大語(yǔ)言模型的推測(cè)token能力不一樣,我們需要弄清一個(gè)概念:相關(guān)性≠因果性。前者是概率關(guān)聯(lián)、后者是因果推理。

大語(yǔ)言模型(如GPT系列)側(cè)重于大數(shù)據(jù)驅(qū)動(dòng)的自回歸學(xué)習(xí),通過(guò)海量文本數(shù)據(jù)訓(xùn)練模型以生成文本,本質(zhì)是預(yù)測(cè)概率,而世界模型學(xué)派認(rèn)為自回歸的Transformer無(wú)法通往AGI。AI需要具備真正的常識(shí)性理解能力,這些能力只能通過(guò)深度分析大量照片、音視頻等多模態(tài)數(shù)據(jù)對(duì)世界的內(nèi)在表征來(lái)獲得。

模型結(jié)構(gòu)層面,大語(yǔ)言模型主要依賴Transformer架構(gòu),通過(guò)自注意力機(jī)制處理文本序列。世界模型則包含多個(gè)模塊,如配置器、感知、世界模型、角色等,能夠估計(jì)世界狀態(tài)、預(yù)測(cè)變化、尋找最優(yōu)方案。

通俗地講,大語(yǔ)言模型訓(xùn)練出的文本天才是紙上談兵的文將,對(duì)常識(shí)可能一竅不通。而世界模型更像在建模環(huán)境里身經(jīng)百戰(zhàn)的武將,可以憑直覺(jué)和經(jīng)驗(yàn)預(yù)判對(duì)手如何出招。

世界模型雖前景可期,目前依然面臨著一些瓶頸。

算力上,訓(xùn)練世界模型所需要的計(jì)算資源遠(yuǎn)超大語(yǔ)言模型,且存在“幻覺(jué)”(錯(cuò)誤預(yù)測(cè))問(wèn)題;泛化能力上,如何平衡模型復(fù)雜度與跨場(chǎng)景適應(yīng)性仍需突破;訓(xùn)練集上,多模態(tài)的數(shù)據(jù)規(guī)模更少,且需深度標(biāo)注,質(zhì)量把關(guān)是重中之重。

如果說(shuō)類似GPT一樣的大語(yǔ)言模型已經(jīng)到了能言善辯的青春期,世界模型實(shí)則還處于牙牙學(xué)語(yǔ)的幼年期。

總的來(lái)講,世界模型是深度學(xué)習(xí)之外的另一條探索道路。如果未來(lái)深度學(xué)習(xí)陷入發(fā)展瓶頸,世界模型可能是一種備選方案。但現(xiàn)階段,世界模型仍在探索期,我們?nèi)砸獙⒅餍墓欠旁诖笳Z(yǔ)言模型和深度學(xué)習(xí)這條技術(shù)線上。

多點(diǎn)發(fā)力,協(xié)同并進(jìn),才能讓AI的成長(zhǎng)有更多道路可走。

本文由人人都是產(chǎn)品經(jīng)理作者【腦極體】,微信公眾號(hào):【腦極體】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 大語(yǔ)言模型雖然在文本生成、自然語(yǔ)言理解等方面表現(xiàn)出色,但其主要基于文本數(shù)據(jù)的統(tǒng)計(jì)規(guī)律,缺乏對(duì)物理世界和現(xiàn)實(shí)環(huán)境的深度理解和預(yù)測(cè)能力。這也是我們?nèi)祟惪梢詾橹Φ姆较?/p>

    來(lái)自廣東 回復(fù)