AI Agent 摩爾定律:每7個(gè)月能力翻倍,帶來軟件智能大爆炸

0 評(píng)論 1267 瀏覽 1 收藏 36 分鐘

AI Agent領(lǐng)域正經(jīng)歷指數(shù)級(jí)增長(zhǎng),能力每7個(gè)月翻倍,甚至在2024-2025年加速至每4個(gè)月翻倍。這一趨勢(shì)被稱為“AI Agent摩爾定律”,預(yù)示著未來幾年AI將從完成簡(jiǎn)單任務(wù)邁向處理復(fù)雜項(xiàng)目的里程碑。本文深入探討這一現(xiàn)象背后的驅(qū)動(dòng)力、技術(shù)瓶頸及潛在的“軟件智能爆炸”(SIE)終局猜想,揭示AI自主開發(fā)AI的革命性前景。

AI Agent 領(lǐng)域也存在 scaling law,甚至還在加速。

2022 年 ChatGPT 剛發(fā)布時(shí)能夠?qū)崿F(xiàn)的代碼任務(wù)差不多等同于人類耗時(shí) 30s 的任務(wù),到今天,AI Agent 已經(jīng)能夠自主完成需要人類花費(fèi)一個(gè)小時(shí)的 coding 任務(wù)?!叭蝿?wù)長(zhǎng)度”是一個(gè)相當(dāng)直觀地測(cè)量 AI Agent 能力變化的標(biāo)準(zhǔn)。

AI 獨(dú)立研究機(jī)構(gòu) META 的數(shù)據(jù)分析發(fā)現(xiàn),Agent 能夠完成的任務(wù)長(zhǎng)度正以指數(shù)級(jí)增長(zhǎng),大約每 7 個(gè)月翻一倍,預(yù)計(jì) 2029 年 Agent 能夠完成時(shí)長(zhǎng)為 1 個(gè)工作月的任務(wù)。

有意思的是,最近這一趨勢(shì)甚至還在加速,2024-2025 年 Agent 能完成的任務(wù)長(zhǎng)度約每 4 個(gè)月翻一倍,如果這種更快的趨勢(shì)持續(xù)下去,Agent 可能在 2027 年就能完成長(zhǎng)達(dá)一個(gè)月的任務(wù)。

本文是對(duì) META、Forethought 和 AI Digest 研究對(duì)于 agent scaling law 的整理編譯。AI 研究人員們認(rèn)為,AI scaling law 的終局是 AI agent 自主開發(fā) AI agent,到了那個(gè)時(shí)候我們就會(huì)進(jìn)入軟件智能爆炸時(shí)代(Software Intelligence Explosion,SIE)。

衡量模型能力進(jìn)步和算力成本下降的“新摩爾定律”是基礎(chǔ)模型競(jìng)賽階段的關(guān)鍵坐標(biāo)系,隨著 2025 ?Agent 落地,摩爾定律進(jìn)入 3.0,AI agent 的 scaling law 也為我們部署 agent 投資和產(chǎn)品提供了參考指引。

?? 目錄 ??

01 如何科學(xué)衡量 Agent 的能力

02 AI Agent 能力每 7 個(gè)月翻倍

03 AI Scaling Law 還在加速

04 為什么會(huì)出現(xiàn) Agent Scaling Law

05 終局猜想:Agent 開發(fā) Agent

06 潛在瓶頸和解決方案

01.如何科學(xué)衡量Agent 的能力

雖然 AI 能力在某種意義上正快速提升,但這種提升與對(duì)現(xiàn)實(shí)世界的影響之間的關(guān)聯(lián)并不清晰。

在大部分定量測(cè)試問題上(exam-style problems),AI 很多時(shí)候已經(jīng)比人類專家還要強(qiáng),并且只靠極低的算力成本就可以實(shí)現(xiàn)這一點(diǎn),經(jīng)過專門的 fine-tuning 后,AI 甚至已經(jīng)可以幫人類處理很多任務(wù)。

但即使是能力最強(qiáng)大的 AI Agent,目前也無法獨(dú)立完成實(shí)質(zhì)性的項(xiàng)目,或直接替代人類勞動(dòng)力,甚至無法可靠地進(jìn)行基礎(chǔ)的電腦操作。

考慮到 AI Agent 并不是缺乏解決單步驟任務(wù)的技能或知識(shí),它們主要在多步驟任務(wù)中,將更長(zhǎng)的動(dòng)作序列串聯(lián)起來時(shí)會(huì)遇到困難,因此,METR 的研究人員選擇以人類專業(yè)人士完成某個(gè)任務(wù)所需的時(shí)間定義為“任務(wù)長(zhǎng)度”,并把“任務(wù)長(zhǎng)度”作為衡量 Agent 在現(xiàn)實(shí)世界能力的指標(biāo)。

直觀來看,ChatGPT 在 2022 年推出時(shí),它能夠完成耗時(shí) 30 秒的 coding 任務(wù),到今天, AI Agent 已經(jīng)能夠自主完成需要人類花費(fèi)一個(gè)小時(shí)的 coding 任務(wù)。

02.AI Agent ?能力

每 7 個(gè)月翻倍

METR 選取了 2019 年至 2025 年間最強(qiáng)大的 AI Agent ,并在大約 200 個(gè)任務(wù)上進(jìn)行了測(cè)試,這些測(cè)試中主要是 coding 類任務(wù),還有一部分是通用推理任務(wù),這些任務(wù)的長(zhǎng)度短至 30 秒以內(nèi),長(zhǎng)至超過 8 小時(shí)。隨后,他們將 Agent 的任務(wù)成功率與每個(gè)任務(wù)的長(zhǎng)度進(jìn)行了比較,發(fā)現(xiàn):

  • 任務(wù)長(zhǎng)度與 Agent 成功率高度相關(guān)(R2 = 0.83);
  • Agent 在成功率為 50% 的情況下,能完成的任務(wù)長(zhǎng)度呈指數(shù)級(jí)增長(zhǎng)。

任務(wù)長(zhǎng)度與 Agent 成功率高度相關(guān)

在一組多步驟的任務(wù)中,METR 發(fā)現(xiàn),當(dāng)模型在完成耗時(shí)少于 4 分鐘的任務(wù)時(shí),成功率接近 100%;但對(duì)于耗時(shí)超過 4 小時(shí)的任務(wù),成功率卻不到 10%。

基于這一發(fā)現(xiàn),可以用“模型能夠以 x% 概率成功完成的任務(wù)長(zhǎng)度”來描述模型的能力,并擬合出一條曲線,以任務(wù)長(zhǎng)度來預(yù)測(cè)模型的成功概率。也可以確定一個(gè)成功概率數(shù)值后,基于曲線來預(yù)測(cè)這一任務(wù)成功率下, AI Agent 可以完成的任務(wù)長(zhǎng)度。

人類完成任務(wù)所需時(shí)間與模型任務(wù)完成成功率的關(guān)系圖

模型能夠以 50% 概率成功完成的任務(wù)長(zhǎng)度示意圖。例如,Claude 3.7 Sonnet(圖中最右側(cè)的模型,用最深的綠色表示)以 50% 概率成功完成的任務(wù)長(zhǎng)度約為一小時(shí),因?yàn)閿M合曲線在這一時(shí)間點(diǎn)與 50% 成功概率的閾值相交

這一點(diǎn)也很好得解釋了前面提到的現(xiàn)象:模型能夠在很多 benchmark 測(cè)試上超越人類能力,但到了日常工作自動(dòng)化的場(chǎng)景中,又常常顯得不夠可靠。

因?yàn)榧词故墙裉熳钕冗M(jìn)的模型,這些模型能夠解決一些即使是專業(yè)人士也需要花費(fèi)數(shù)小時(shí)的難題,但在任務(wù)執(zhí)行上,它們?cè)诒WC質(zhì)量穩(wěn)定的前提下,可以參與“任務(wù)長(zhǎng)度”還停留在幾分鐘以內(nèi)的水平。

AI Agent 能夠執(zhí)行的任務(wù)長(zhǎng)度每 7 個(gè)月翻倍

在過去 6 年中,以 50% 成功概率為標(biāo)準(zhǔn),頭部模型能夠完成的任務(wù)長(zhǎng)度已顯著增加。如果在對(duì)數(shù)坐標(biāo)系中繪制這一趨勢(shì),模型能夠完成的任務(wù)長(zhǎng)度與指數(shù)趨勢(shì)高度吻合,大概每 7 個(gè)月翻一倍。

雖然 Agent 能夠完成的任務(wù)長(zhǎng)度的長(zhǎng)短取決于研究人員所定義的計(jì)算方式,比如研究中使用的任務(wù)類型、用于衡量表現(xiàn)的人類水平等,但整體趨勢(shì)大致是正確的:大約每年有 1-4 次翻倍。在未來 2-4 年,如果過去 6 年的這種趨勢(shì)可以繼續(xù)保持,那 Agent 將能夠完成各種為期一周的任務(wù)。

而且這一趨勢(shì)非常陡峭,這意味著,即使測(cè)量存在較大誤差,或者模型與人類對(duì)比時(shí)存在偏差,都不影響對(duì)趨勢(shì)的預(yù)測(cè),極端情況下,即使絕對(duì)測(cè)量值存在 10 倍的偏差,但反應(yīng)到 AI Agent 能力進(jìn)步的時(shí)間預(yù)測(cè),這種偏差僅為 2 年。

不過我們?nèi)匀灰紤]到存在模型顯著誤差的可能性。比如,在預(yù)測(cè) AI 未來表現(xiàn)上,與用 2024 年之前的 AI 發(fā)展趨勢(shì)相比,用 2024 年之后的 AI 發(fā)展趨勢(shì)來預(yù)測(cè)的話,時(shí)效性會(huì)更強(qiáng)。

如果只對(duì) 2024 年和 2025 年的數(shù)據(jù)進(jìn)行擬合,AI Agent 的可靠性在 50% 不變的情況下,Agent 實(shí)現(xiàn)一個(gè)月任務(wù)長(zhǎng)度能力的時(shí)間縮短了~ 2.5 年。

Agent 能完成的任務(wù)長(zhǎng)度的指數(shù)級(jí)增長(zhǎng)趨勢(shì)似乎非常穩(wěn)固,而且目前沒有出現(xiàn)趨于平穩(wěn)的跡象。根據(jù)這一趨勢(shì)進(jìn)行推測(cè),預(yù)計(jì):

  • 2026 年 Agent 能夠完成時(shí)長(zhǎng)為 2 小時(shí)的任務(wù),
  • 2027 年 Agent 能夠完成時(shí)長(zhǎng)為 1 個(gè)工作日(8 小時(shí))的任務(wù),
  • 2028 年 Agent 能夠完成時(shí)長(zhǎng)為 1 個(gè)工作周(40 小時(shí))的任務(wù),
  • 2029 年 Agent 能夠完成時(shí)長(zhǎng)為 1 個(gè)工作月(167 小時(shí))的任務(wù)。

03.Agent Scaling Law還在加速

如同上面提到的,AI Agent 能力進(jìn)步上不僅存在 7 個(gè)月翻倍的趨勢(shì),且能力翻倍的時(shí)間還在不斷縮短,且這一趨勢(shì)甚至還在加速,這本質(zhì)上是因?yàn)榈讓幽P湍芰€在不斷進(jìn)步。

在 METR 的測(cè)算中, 2024-2025 年,Agent 能完成的任務(wù)長(zhǎng)度每 4 個(gè)月翻一倍,而 2019-2025 年,這一速度是每 7 個(gè)月翻一倍。這意味著,如果 4 個(gè)月翻倍這一趨勢(shì)可以持續(xù)下去,到了 2027 年,Agent 就可以完成完成一個(gè)月時(shí)長(zhǎng)的任務(wù)。

而且這個(gè)速度還有可能進(jìn)一步加速,目前可能正處于比指數(shù)增長(zhǎng)更快的增長(zhǎng)軌跡上。直觀來看,這也是合乎情理,因?yàn)?Agent 在完成為期 1 周和 2 周的任務(wù)時(shí),所需技能的差距可能比完成 1 年和 2 年的任務(wù)時(shí)更大。

此外,隨著 AI 能力的提升,AI 在開發(fā)更強(qiáng)大 AI 上的作用也將越來越大,這也可能導(dǎo)致 Agent 能完成的任務(wù)長(zhǎng)度呈現(xiàn)超指數(shù)級(jí)增長(zhǎng)。越來越強(qiáng)大的 AI 系統(tǒng)可能會(huì)觸發(fā)加速飛輪效應(yīng),即 Agent 加速創(chuàng)造更強(qiáng)大 Agent,而這些更強(qiáng)大的 Agent 又進(jìn)一步加速創(chuàng)造更強(qiáng)大的 Agent。

因此 Agent 的能力可能會(huì)迅速飆升,超越任何人在 AI 研究領(lǐng)域的能力,甚至延展到其他或所有領(lǐng)域。這種影響將是革命性的。Agent 能完成的任務(wù)長(zhǎng)度的增加可能最終成為人類歷史上最重要的趨勢(shì)之一。

04.為什么會(huì)出現(xiàn) Agent Scaling Law

獨(dú)立 AI 研究機(jī)構(gòu) Forethought 圍繞 AI R&D 話題做了系列研究,這一研究可以解釋 Agent scaling law 出現(xiàn)的原因。研究結(jié)果表明, AI 能實(shí)現(xiàn)這么快速的進(jìn)步,背后的動(dòng)力來自 LLM 硬件和軟件的突破。

硬件:更多算力和更多數(shù)據(jù)

在算法和數(shù)據(jù)沒有變化的情況下,只依靠算力規(guī)模的提升就可以帶來模型能力的增強(qiáng)。例如,GPT-3 本質(zhì)上是 GPT-2 的擴(kuò)展版本,但由于算力的大幅提升,GPT-3 不僅能夠進(jìn)行連貫的對(duì)話,還能編寫可運(yùn)行的計(jì)算機(jī)代碼、進(jìn)行語言翻譯和創(chuàng)作詩(shī)歌,而 GPT-2 在表現(xiàn)上大多是語無倫次的胡言亂語。

而且前沿 AI 系統(tǒng)算力的提升不僅會(huì)改進(jìn)相同任務(wù)的表現(xiàn),還可能帶來新能力的涌現(xiàn)。研究人員有兩種方法來增加 AI 系統(tǒng)的算力:

1. 花費(fèi)更多資金購(gòu)買更強(qiáng)的計(jì)算資源;

2. 開發(fā)出更高效的硬件,使相同成本下的算力更強(qiáng)。

軟件:開發(fā)更好的 AI 模型

“AI 軟件”包括除算力層硬件外的幾乎所有內(nèi)容,比如 AI 技術(shù)范式,系統(tǒng)架構(gòu),訓(xùn)練算法,數(shù)據(jù)獲取,參數(shù)調(diào)整,fine-tuning 的方法等等。

AI 軟件進(jìn)步可以進(jìn)一步分為兩類:

1. 效率改進(jìn),新 AI 系統(tǒng)執(zhí)行與之前 AI 系統(tǒng)大致相同的任務(wù)時(shí),計(jì)算成本更低;

2. 能力改進(jìn),新 AI 系統(tǒng)能夠完成之前系統(tǒng)完全無法做到的任務(wù),或在相同任務(wù)上表現(xiàn)得更為出色。

在實(shí)踐中,效率改進(jìn)和能力改進(jìn)之間的界限有時(shí)較為模糊。例如,更高的訓(xùn)練效率可以訓(xùn)練出更大的 AI 模型,而更大的模型往往表現(xiàn)出新能力或更好的性能。

AI 軟件進(jìn)步很難衡量,尤其是能力改進(jìn),例如 ChatGPT 通過 GPT-3.5 實(shí)現(xiàn)更具信息性的對(duì)話,并將其集成到直觀用戶界面中開發(fā)而成的,如何量化 ChatGPT 在與用戶高效對(duì)話方面的進(jìn)步,或良好用戶界面帶來的提升?

相比之下,效率改進(jìn)比較容易衡量,比如可以比較 AI 系統(tǒng)在達(dá)到特定性能水平時(shí)所需的算力。

下圖中,LLM 的訓(xùn)練效率估計(jì)值(約 8 個(gè)月翻倍)是相對(duì)保守的,因?yàn)闆]有考慮訓(xùn)練后的改進(jìn),而運(yùn)行效率估計(jì)值(約 4 個(gè)月翻倍)則顯得相對(duì)激進(jìn),因?yàn)榘塑浖獾囊蛩亍?/p>

如果在這兩個(gè)估計(jì)值之間取均值,可以得出訓(xùn)練效率和運(yùn)行效率都具有約 6 個(gè)月效率翻倍的時(shí)間。

不同分析方式下,AI 效率翻倍所需時(shí)間

AI 能力的進(jìn)步 > 算力成本下降

除了效率提升之外,AI 能力提升也相當(dāng)顯著,甚至可能比效率提升更重要。

最近 AI 系統(tǒng)的新能力在提升系統(tǒng)實(shí)用性方面,遠(yuǎn)超已有能力的效率提升。過去 10 年中 AI 經(jīng)濟(jì)重要性的增加主要來源于 AI 新能力的出現(xiàn),而不是已有能力在算力要求上變得更低。

比如 LLM 的能力提升,RLHF 使得對(duì) LLM 進(jìn)行“微調(diào)”成為可能,可以讓其扮演特定角色,而不僅僅是模仿互聯(lián)網(wǎng)文本。此外,LLM 訓(xùn)練效率的提升也可以轉(zhuǎn)化為能力提升,通過 scaling 使新能力涌現(xiàn)。

LLM 公司可以通過兩種方式將訓(xùn)練效率提升應(yīng)用于 LLM:

1. 創(chuàng)建與之前系統(tǒng)性能相當(dāng)、但速度更快且計(jì)算成本更低的 LLM;

2. 創(chuàng)建計(jì)算成本相同(或更高)、但能力增強(qiáng)的系統(tǒng)。

大模型公司通常同時(shí)進(jìn)行這兩種嘗試。開發(fā)者通常對(duì)(2)更為興奮,并傾向于在流程中整合他們可用的最強(qiáng)模型。但如果效率提升是主要推動(dòng)力,(1)會(huì)引發(fā)更多行業(yè)關(guān)注。

05.終局猜想:Agent 開發(fā) Agent

前面提到,當(dāng) AI Agent 能力足夠強(qiáng)時(shí),極有可能會(huì)出現(xiàn)“Agent 開發(fā) Agent”的現(xiàn)象,這一現(xiàn)象被 Forethought 定義為 ASARA,即 AI Systems for AI R&D Automation,出現(xiàn)一個(gè) AI 系統(tǒng)能夠完全自動(dòng)化 AI 研發(fā)中涉及的所有任務(wù)。

值得注意的是,訓(xùn)練新 AI 系統(tǒng)所需的算力通常遠(yuǎn)大于運(yùn)行已訓(xùn)練系統(tǒng)副本所需的算力。這意味著,如果用于訓(xùn)練 ASARA 的算力被重新分配用于運(yùn)行,則可以并行運(yùn)行數(shù)十萬份甚至數(shù)百萬份副本。如果每個(gè)副本都能匹配頂尖人類研究者的表現(xiàn),ASARA 的認(rèn)知總輸出很可能相當(dāng)于數(shù)百萬名頂尖人類研究者。

目前,全球大約有數(shù)十萬名研究人員從事不同的 AI 軟件研發(fā),但絕大多數(shù)人員并未專注于提升最先進(jìn)的 AI 能力,AI 研發(fā)能力遠(yuǎn)未達(dá)到人類潛力的極限。然而隨著 ASARA 的到來,可以想象出一個(gè)擁有數(shù)百萬虛擬頂尖研究者的團(tuán)隊(duì),其中很大一部分可能專注于推進(jìn)最前沿的能力發(fā)展。

如果當(dāng)前的 AI 軟件進(jìn)展速度意味著 AI 效率的翻倍時(shí)間約為 6 個(gè)月,那么 ASARA 會(huì)顯著提升進(jìn)展速度,F(xiàn)orethought 粗略估計(jì),AI 效率翻倍所需的時(shí)間可能會(huì)縮短到 1-2 個(gè)月。

如果這個(gè)循環(huán)完全不需要人類干預(yù),AI 進(jìn)展速度可能會(huì)越來越快,最終達(dá)到軟件智能爆炸(Software Intelligence Explosion,SIE),指的是僅由軟件驅(qū)動(dòng)的反饋循環(huán)在 ASARA 誕生后也能引發(fā)加速的 AI 進(jìn)步)。

在 SIE 狀態(tài)下,假設(shè)硬件投入保持不變,人類研究人員將全部被 ASARA 替代,AI 進(jìn)步更快,同時(shí) ASARA 自身能力不斷增強(qiáng)。

我們可以構(gòu)建一個(gè)簡(jiǎn)化模型,來演示在實(shí)現(xiàn) ASARA 之后的增長(zhǎng)飛輪,假設(shè)總算力保持不變,這個(gè)數(shù)學(xué)模型將展示兩種情景假設(shè):

1. 軟件研發(fā)的收益遞減:隨著軟件改進(jìn)變得越來越難,進(jìn)一步提升變得更具挑戰(zhàn)性;

2. 日益強(qiáng)大的 ASARA 帶來的正反饋:更強(qiáng)大的系統(tǒng)反過來推動(dòng)更快的進(jìn)展。

該模型還包含幾個(gè)簡(jiǎn)化假設(shè):

1. ASARA 可以分解為多個(gè)獨(dú)立的 AI 研究員,每個(gè) AI 研究員都能夠執(zhí)行軟件研發(fā)中的所有任務(wù);

2. 所有 AI 進(jìn)展都表現(xiàn)為撰寫論文,每篇論文代表一個(gè)增量的進(jìn)步,因此進(jìn)展可以通過累計(jì)論文數(shù)量來簡(jiǎn)單衡量;

3. 所有 AI 研究員的生產(chǎn)力都是相同的,可以簡(jiǎn)單表示為每單位時(shí)間撰寫的論文數(shù)量;

4. AI 研究員的生產(chǎn)力不會(huì)隨著時(shí)間變得更高或更低,但可以變得“計(jì)算更高效”,即運(yùn)行每個(gè) AI 研究員所需的算力減少。

假設(shè)一開始只有 1 個(gè) AI 研究員,AI 研究員的生產(chǎn)力為每月 1 篇論文,并且在撰寫了 2 篇論文后,計(jì)算效率可以翻倍,即 2 個(gè)月后,相同的硬件下可以容納 2 個(gè) AI 研究員,每個(gè)研究員每月可以撰寫 1 篇論文,因此總生產(chǎn)力是每月 2 篇論文。

但由于軟件研發(fā)的收益遞減,下一次效率翻倍所需的論文數(shù)量會(huì)增加——假設(shè)增加 3 倍,需要 6 篇論文。所以有了 2 個(gè) AI 研究員之后,這兩個(gè)人撰寫 6 篇論文,即 3 個(gè)月時(shí)間,才能實(shí)現(xiàn)第二次效率翻倍。

到第 3 個(gè)月,在這 2 名研究員完成 6 篇論文撰寫后完成了第二次效率升級(jí),每個(gè)人每月可以撰寫 3 篇論文。此時(shí),硬件能力進(jìn)步允許容納 4 個(gè) AI 研究員。與此同時(shí),第 3 次效率翻倍所需的論文數(shù)量會(huì)更高——假設(shè)再次增加 3 倍,變?yōu)?18 篇論文。有了 4 個(gè) AI 研究員后翻倍將需要 4.5 個(gè)月。

在這種情況下,每次效率翻倍所需的時(shí)間越來越長(zhǎng):第一次需要 2 個(gè)月,第二次 3 個(gè)月,第三次 4.5 個(gè)月。

? 情景假設(shè) 2:ASARA 飛輪帶來的正反饋

同樣假設(shè)最初只有 1 個(gè) AI 研究員,每月能撰寫 1 篇論文,第一次效率翻倍需要撰寫 2 篇論文。而第二次效率翻倍仍然需要比第一次更多的論文,即軟件研發(fā)仍然存在收益遞減,但增加的數(shù)量不會(huì)很多,假設(shè)第二次翻倍需要 3 篇論文,比第一次多 50%。

在有了 2 個(gè) AI 研究員后,每個(gè) AI 研究員每月撰寫 1 篇論文,3 篇論文可以在 1.5 個(gè)月內(nèi)完成,以此類推,翻倍的速度會(huì)越來越快。

如果僅在這個(gè)簡(jiǎn)化模型的框架內(nèi)進(jìn)行推測(cè),這意味著在有限的時(shí)間內(nèi)將實(shí)現(xiàn)無限的進(jìn)步。

總而言之,在軟件研發(fā)的收益遞減時(shí),每次效率翻倍所需的論文數(shù)量比上一次增加超過一倍(例如,從 2 → 6 → 18),這意味著 AI 進(jìn)展變得更難的速度超過了 AI 研究員增長(zhǎng)的速度。

而在 ASARA 帶來的飛輪中,每次效率翻倍所需的論文數(shù)量比上一次增加不到一倍(例如,從 2 → 3),這意味著 AI 研究員增長(zhǎng)的速度超越了效率翻倍變難的速度。

如果每次效率翻倍所需的論文數(shù)量恰好翻倍,那么每次效率翻倍仍然需要 2 個(gè)月(例如,2 個(gè) AI 研究員需要完成 4 篇論文,4 個(gè) AI 研究員需要完成 8 篇論文,依此類推)。

若在模型中不僅關(guān)注效率改進(jìn),還關(guān)注能力改進(jìn)時(shí),當(dāng)能力改進(jìn)使得 AI 的輸出增加到等同于效率翻倍的程度時(shí),就稱該能力改進(jìn)使 AI 軟件能力翻倍。

Forethought 用軟件研發(fā)回報(bào)率 r 來衡量進(jìn)一步改進(jìn) AI 軟件的困難程度,r 表示在 AI 軟件研發(fā)累計(jì)工作量翻倍的情況下,AI 軟件能力翻倍的次數(shù)。r 值越低,表示改進(jìn)變得越困難。

r 值設(shè)定如下:

  • 當(dāng) r=1 時(shí),會(huì)出現(xiàn)持續(xù)的指數(shù)增長(zhǎng),每次軟件能力翻倍都需要 2 倍的研究投入。
  • 當(dāng) r<1 時(shí),會(huì)出現(xiàn)進(jìn)展變慢的現(xiàn)象,每次軟件翻倍都需要超過 2 倍的研究投入。
  • 當(dāng) r>1 時(shí),對(duì)應(yīng)出現(xiàn) SIE,每次軟件翻倍所需的研究投入少于上一次的 2 倍。

假設(shè)在 ASARA 首次開發(fā)時(shí),軟件翻倍時(shí)間縮短至 1 個(gè)月。

如果 r = 0.7,每次 AI 軟件能力翻倍所需的時(shí)間將比上次多 35%,這意味著第二次軟件能力翻倍將在 41 天后發(fā)生,第三次翻倍將在 55 天后發(fā)生,第四次翻倍將在 74 天后發(fā)生,第五次翻倍將在 100 天后發(fā)生。這將導(dǎo)致在不到一年的時(shí)間里,AI 軟件能力提高約 30 倍,且隨后幾年的進(jìn)展會(huì)顯著放緩。

這個(gè)進(jìn)展下的年度增長(zhǎng)率可能與當(dāng)前 AI 系統(tǒng)的提升速度相似,盡管當(dāng)前 AI 系統(tǒng)的提升不僅包括軟件進(jìn)展,還包括硬件進(jìn)展和硬件支出的增加。

如果 r = 3,那么每次翻倍將需要上次的 63% 的時(shí)間,意味著接下來的幾次翻倍將分別需要:19 天、12 天、7.6 天、4.8 天,依此類推。

持續(xù)的指數(shù)增長(zhǎng)可能顯得不太可信,因?yàn)?r 必須恰好為 1,但有可能是因?yàn)槿祟悤?huì)采取措施,來維持在這個(gè)微妙的平衡點(diǎn)上,比如人類可能會(huì)在希望進(jìn)展“加速”和進(jìn)展“稍緩”之間搖擺不定;人類可能會(huì)有意識(shí)地制定政策,期望能夠?qū)崿F(xiàn) AI 系統(tǒng)更平穩(wěn)的能力增長(zhǎng)。

因此,由上述討論可知,是否會(huì)發(fā)生 SIE 完全取決于 r 是否大于 1。

有一個(gè)值得討論的問題是:現(xiàn)實(shí)世界中,軟件研發(fā)回報(bào)率是大于 1 還是小于 1?

雖然上述模型是針對(duì) ASARA 場(chǎng)景,但在沒有達(dá)到 ASARA 的當(dāng)下也適用。在當(dāng)前環(huán)境下,r 表示的是,每次人類的研發(fā)累計(jì)工作量翻倍時(shí),AI 軟件能力翻倍的次數(shù)。因此可以通過測(cè)量當(dāng)前人類軟件研發(fā)累計(jì)工作量的增長(zhǎng),并將這一增長(zhǎng)與 AI 軟件能力的增長(zhǎng)關(guān)聯(lián)起來,來估算 r 的值。

Forethought 研究了圖像識(shí)別、LLM、AI 算法效率等領(lǐng)域,并考慮到 AI 能力提升,以及軟件改進(jìn)的乘法效應(yīng),即訓(xùn)練算法的改進(jìn)與后期的微調(diào)、搭建框架等技術(shù)是乘法性相互作用的。Forethought 表示人類軟件研發(fā)累計(jì)工作的翻倍將導(dǎo)致 AI 軟件能力的若干次翻倍,猜測(cè) r 的最佳可能值在 1-4 之間。

這個(gè)結(jié)果實(shí)際上將軟件的進(jìn)展與硬件的進(jìn)展放在了類似的基礎(chǔ)上。Tom Davidson 曾估算了硬件的 r 值,發(fā)現(xiàn)歷史上 r 值大約為 7,而對(duì)于 AI 芯片(特別是 GPU),從 2006 年到 2022 年,r 值約為 5,即每次研發(fā)的投入翻倍,計(jì)算成本會(huì)降低了 5-7 倍。雖然硬件在過去幾十年中的迅速發(fā)展是廣為人知的,但不太為人所知的是,軟件進(jìn)展可能也以類似的速度增長(zhǎng)。

然而,當(dāng)前的 r 值在長(zhǎng)期內(nèi)預(yù)計(jì)是不可持續(xù)的。對(duì)于固定數(shù)量的硬件,AI 能力的實(shí)現(xiàn)存在根本性的物理限制,隨著我們接近這個(gè)極限,軟件進(jìn)展可能會(huì)放緩。

但沒有充分的理由認(rèn)為這一極限會(huì)僅略高于第一個(gè) ASARA 的水平,第一個(gè) ASARA 可以被認(rèn)為是第一個(gè)在相關(guān)認(rèn)知領(lǐng)域內(nèi)替代人類工作者的系統(tǒng)。人類可能不是最智能的生命形式,而僅僅是地球上第一個(gè)足夠聰明,可以從事科學(xué)和工程等活動(dòng)的生命形式。人類在認(rèn)知屬性上的范圍是廣泛的,人類仍然在通過人口增長(zhǎng)、專業(yè)化以及各種文化發(fā)展中獲益。

此外,ASARA 很可能會(huì)使用比人類大腦在發(fā)展過程中所用的“計(jì)算量”更多的算力進(jìn)行訓(xùn)練,這表明在訓(xùn)練 ASARA 以匹配人類學(xué)習(xí)方面仍有顯著的效率提升空間。

因此,盡管目前 r 可能大于 1,但最終會(huì)下降——在基本限制下,r 將需要降到 0。這意味著無論投入多少研發(fā),進(jìn)展都將停止。但目前尚不清楚隨著我們接近極限,r 將如何隨時(shí)間下降。盡管如此,離這些限制越遠(yuǎn),r 仍然大于 1 的可能性越大,發(fā)生 SIE 的機(jī)會(huì)也越大。

還可以注意到,若我們?cè)皆邕_(dá)到 ASARA,因?yàn)?r 在那時(shí)未必已經(jīng)降到 1,所以越可能發(fā)生 SIE。因此,較短的時(shí)間表可能會(huì)增加 SIE 的可能性。

06.軟件智能爆炸的瓶頸和解決方案

硬件制約

上述分析都發(fā)生在算力不首先的背景下。也許存在一種可能是,在實(shí)現(xiàn)全自動(dòng)的 Agent 系統(tǒng)的過程中,模型研發(fā)中的作用并不像想象的那樣重要,關(guān)鍵的推動(dòng)因素可能是算力基礎(chǔ)設(shè)置的增加。畢竟,硬件可以用于運(yùn)行模型訓(xùn)練,更多的硬件意味著更多或更大規(guī)模的模型訓(xùn)練。如果沒有算力的持續(xù)擴(kuò)展,也許大部分軟件層的進(jìn)展也會(huì)停滯。

但軟件效率的提升會(huì)帶來模型訓(xùn)練的算力成本降低。如果算法改進(jìn)使得在筆記本電腦上能夠訓(xùn)練一個(gè) GPT-3 規(guī)模的 AI 系統(tǒng),那么每個(gè)擁有筆記本電腦的研究人員都可以運(yùn)行自己 GPT-3 規(guī)模的實(shí)驗(yàn)。即使硬件不變,隨著時(shí)間的推移,也有可能進(jìn)行更多實(shí)驗(yàn),這種效應(yīng)可能足以維持快速的效率進(jìn)展。

如果硬件限制確實(shí)成為軟件發(fā)展的瓶頸,LLM 公司也可以通過運(yùn)行更小、更便宜的實(shí)驗(yàn),并將結(jié)論外推到更大規(guī)模的系統(tǒng),來彌補(bǔ)這一限制。之所以認(rèn)為可以從更小的實(shí)驗(yàn)中進(jìn)行顯著外推,是因?yàn)?LLM 和其他前沿 AI 系統(tǒng)通常在以下兩者之間存在非常明確的關(guān)系:用于訓(xùn)練系統(tǒng)的算力與系統(tǒng)的最終表現(xiàn)。

例如,OpenAI 發(fā)現(xiàn) GPT-4 的某些特性可以從之前少于 GPT-4 算力的訓(xùn)練中高度預(yù)測(cè)。如果執(zhí)行軟件研發(fā)的 ASARA 同樣可以通過運(yùn)行更小的 AI 實(shí)驗(yàn)來推測(cè)大規(guī)模訓(xùn)練的結(jié)果,那可能完全可以跳過大規(guī)模的訓(xùn)練。

ASARA 還可能通過多種途徑顯著提高模型訓(xùn)練的質(zhì)量、效率和信息價(jià)值,比如,在運(yùn)行實(shí)驗(yàn)之前就消除錯(cuò)誤和微妙的實(shí)驗(yàn)設(shè)計(jì)缺陷,更加重視有前景的研究方向,從第一性原理進(jìn)行更有價(jià)值的實(shí)驗(yàn)設(shè)計(jì),深入分析每個(gè)實(shí)驗(yàn)的結(jié)果,將每個(gè)實(shí)驗(yàn)的結(jié)果與所有其他實(shí)驗(yàn)結(jié)果和證據(jù)進(jìn)行綜合,持續(xù)監(jiān)控實(shí)驗(yàn),并在獲得重要結(jié)果后立即終止實(shí)驗(yàn)等。

因此,AI 軟件研發(fā)可能會(huì)轉(zhuǎn)向那些本身就不依賴大規(guī)模實(shí)驗(yàn)的方向,比如微調(diào)、構(gòu)建和 prompt 等,這些方法的實(shí)驗(yàn)可能仍會(huì)帶來實(shí)質(zhì)性的進(jìn)展。

甚至有可能,在強(qiáng)硬件限制和 ASARA 迅速拓展的背景下,AI 領(lǐng)域?qū)囊蕾嚧笥?jì)算量的機(jī)器學(xué)習(xí)轉(zhuǎn)向新的范式,這種范式可能更少依賴實(shí)驗(yàn),甚至完全放棄訓(xùn)練,轉(zhuǎn)向顯式設(shè)計(jì)所需的 AI 系統(tǒng),類似于 GOFAI(Good Old-Fashioned Artificial Intelligence,泛指用最原始的人工智能的邏輯方法解決小領(lǐng)域的問題)。

換一個(gè)角度,即使來自硬件的實(shí)驗(yàn)限制不足以使軟件進(jìn)展停滯不前,但有這些限制仍然可能比沒有限制的情況下的進(jìn)展要慢。上述解決方法可能仍然能夠讓 ASARA 在硬件限制下取得實(shí)質(zhì)性的進(jìn)展。

此外,在 SIE 中,邊際回報(bào)的遞減可能比歷史數(shù)據(jù)中更陡峭。歷史上,計(jì)算資源在增長(zhǎng),因此研究人員可以發(fā)明只在新的計(jì)算規(guī)模下有效的算法。但在 SIE 中,這種情況將無法發(fā)生,因?yàn)橛布3植蛔?,限制在固定?jì)算規(guī)模下的算法可能會(huì)使邊際回報(bào)遞減變得更加陡峭。

考慮到硬件的限制,F(xiàn)orethought 將 r 的最佳猜測(cè)估計(jì)值減少到 0.5-2,如果 AI 發(fā)展需要大規(guī)模實(shí)驗(yàn),則估計(jì)值較低,如果 prompt 和構(gòu)建等改進(jìn)能夠帶來顯著進(jìn)展,則估計(jì)值較高。

訓(xùn)練新 AI 系統(tǒng)的所需時(shí)間較長(zhǎng)

在當(dāng)前的 AI 范式中,最強(qiáng)大的系統(tǒng)通常分為兩個(gè)階段進(jìn)行訓(xùn)練:一個(gè)較長(zhǎng)的“預(yù)訓(xùn)練 pre-training”階段和一個(gè)較短的“微調(diào) fine-tuning”階段。

對(duì)于最強(qiáng)大的系統(tǒng),pre-training 確實(shí)可能很長(zhǎng),需要持續(xù)幾個(gè)月使用大型數(shù)據(jù)中心。近期 AI 的進(jìn)展稍微改變了這個(gè)局面,因?yàn)樗鼈儼凳?fine-tuning 在開發(fā)能力方面比傳統(tǒng)認(rèn)知上的更加重要和持久,盡管目前 fine-tuning 仍然遠(yuǎn)短于 pre-training。

無論如何,正是這些長(zhǎng)時(shí)間的訓(xùn)練,無論是通過 pre-training、越來越廣泛的 fine-tuning,還是其他尚未開發(fā)的訓(xùn)練階段,都可能成為 AI 進(jìn)展的瓶頸,進(jìn)而減緩 SIE 的發(fā)展。

如果每一代 ASARA 只能創(chuàng)造出比它們自己稍微更聰明一點(diǎn)的系統(tǒng),并且每一代都需要經(jīng)過漫長(zhǎng)的訓(xùn)練過程,那么這可能會(huì)極大地抑制進(jìn)展。

但是,也有幾個(gè)原因表明,這類模型訓(xùn)練可能不會(huì)成為進(jìn)展的瓶頸。進(jìn)展可能通過其他方法得以維持,例如,專注于 prompt、較短的 fine-tuning。也可能開發(fā)出其他方法,使得能夠在不重新訓(xùn)練的情況下繼續(xù)發(fā)展,例如通過新穎的方式修改已有系統(tǒng)的部分功能。

此外,如前文所述,AI 范式的轉(zhuǎn)變可能會(huì)更清晰地繞過這些障礙。如果訓(xùn)練新的模型成為實(shí)現(xiàn) ASARA 的瓶頸,那么這種瓶頸將為該領(lǐng)域?qū)ふ移渌娲椒ㄌ峁┚薮蟮募?lì)。即便從零開始訓(xùn)練新系統(tǒng)仍然是必要的,仍然可以合理地認(rèn)為 SIE 可能發(fā)生,因?yàn)橛?xùn)練新系統(tǒng)的速度有可能比現(xiàn)在更快。算法改進(jìn)可能使得訓(xùn)練新系統(tǒng)的效率更高,從而每次訓(xùn)練所需的時(shí)間減少。

如果 ASARA 的訓(xùn)練時(shí)間最初為 2 個(gè)月,然后通過算法改進(jìn)提高了 30 倍的效率,那么這些效率的提升不僅可以用來訓(xùn)練更強(qiáng)大的系統(tǒng),還可以用來訓(xùn)練既更強(qiáng)大又計(jì)算負(fù)擔(dān)較輕的系統(tǒng)。

只要每次訓(xùn)練的時(shí)間能比上一次稍微快一些,訓(xùn)練時(shí)間最終可能趨近于零,AI 進(jìn)展也可能變得極為快速。因此,訓(xùn)練新 AI 系統(tǒng)的瓶頸可能會(huì)延緩而不是阻止 SIE 的發(fā)生。

值得注意的是,訓(xùn)練 AI 系統(tǒng)所需的時(shí)間并不是當(dāng)前 AI 范式固有的不可改變的屬性,而是各種相互競(jìng)爭(zhēng)的因素之間的妥協(xié)——包括盡早完成訓(xùn)練的價(jià)值、算力的價(jià)格、算力的價(jià)格隨時(shí)間變化的預(yù)期等。SIE 發(fā)生時(shí),平衡將大幅傾向于盡早完成訓(xùn)練(因?yàn)檫M(jìn)展非常迅速,系統(tǒng)可能會(huì)很快過時(shí)),這可能會(huì)導(dǎo)致訓(xùn)練時(shí)間大大縮短。

訓(xùn)練新 AI 系統(tǒng)的所需時(shí)間仍然是一個(gè)懸而未決的問題。盡管上面提到的可能性存在,但也有可能所有不涉及長(zhǎng)時(shí)間訓(xùn)練的進(jìn)展方法最終要么完全失敗,要么無法維持足夠的進(jìn)展,因此,要保持 r>1,保持隨著研發(fā)投入的增加,軟件性能需要能不斷翻倍(性能翻倍需要更多的訓(xùn)練時(shí)間),可能會(huì)妨礙后續(xù)的訓(xùn)練時(shí)間變得越來越短。

本文由人人都是產(chǎn)品經(jīng)理作者【海外獨(dú)角獸】,微信公眾號(hào):【海外獨(dú)角獸】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!