OpenAI CEO 宣布轉(zhuǎn)向,「大模型時(shí)代」即將結(jié)束?
最近一段時(shí)間,互聯(lián)網(wǎng)科技公司或者互聯(lián)網(wǎng)大佬入局AI大模型的消息頻頻傳出,而作為推出ChatGPT、走在大模型技術(shù)領(lǐng)域前沿的OpenAI,最近卻突然改變了方向聲稱。難道大模型時(shí)代真的要走向結(jié)束了嗎?一起來看看作者的分析解答。
4月19日,雖然在這個(gè)月幾乎每周都至少有一家科技大公司入局訓(xùn)練大模型,但OpenAI 卻突然改變了方向聲稱,大模型時(shí)代已經(jīng)要結(jié)束了。
上周末在麻省理工學(xué)院,OpenAI 的 CEO 在演講中警告稱:我們已經(jīng)處在大模型時(shí)代的尾聲,并表示如今的 AIGC 發(fā)展中,將數(shù)據(jù)模型進(jìn)一步做大,塞進(jìn)更多數(shù)據(jù)的方式,已經(jīng)是目前人工智能發(fā)展中最后一項(xiàng)重大進(jìn)展,并且還聲稱目前還不清楚未來的發(fā)展方向何去何從。
消息傳出,立即引發(fā)很多外界的質(zhì)疑,OpenAI 本身已經(jīng)是大模型技術(shù)領(lǐng)域最前沿的研究機(jī)構(gòu),為何會(huì)說出這種能讓研究方向180度掉頭的論調(diào)?
在如今的生成式 AI 背后的技術(shù),稱其為大模型甚至已經(jīng)不夠準(zhǔn)確,這些模型所需的參數(shù)數(shù)量已經(jīng)是天文數(shù)字,稱其為「巨型模型」或許更加準(zhǔn)確。
OpenAI 最早的語言模式是 GPT-2,于 2019 年公布,發(fā)布時(shí)就有 15 億個(gè)參數(shù),此后隨著 OpenAI 研究人員發(fā)現(xiàn)擴(kuò)大模型參數(shù)數(shù)量能有效提升模型完善程度,真正引爆 AI 行業(yè)浪潮的 GPT-3 發(fā)布時(shí),參數(shù)數(shù)量已經(jīng)達(dá)到了 1750 億個(gè)。
截至目前,OpenAI 并沒有公布最新迭代版本 GPT-4 所用的參數(shù)數(shù)量。但外界普遍估算其包括的參數(shù)量已經(jīng)達(dá)到了 GPT-3 的二十倍 —— 3.5萬億個(gè)參數(shù)。
但人類互聯(lián)網(wǎng)歷史上被保留下來的各種高質(zhì)量語料,已經(jīng)在 GPT-3 以及后續(xù)發(fā)布的 GPT-4 的學(xué)習(xí)中被消耗殆盡。大模型參數(shù)數(shù)量仍然可以繼續(xù)膨脹下去,但對應(yīng)數(shù)量的高質(zhì)量數(shù)據(jù)卻越來越稀缺,因此增長參數(shù)數(shù)量帶來的邊際效益愈發(fā)降低。這如同 AI 行業(yè)的「摩爾定律」一般。
除了大模型本身的技術(shù)發(fā)展方向,Altman 提到的另一個(gè)問題:購買大量 GPU 以及建設(shè)數(shù)據(jù)中心的物理限制以及高昂的成本,或許才是更多 AI 大模型開發(fā)公司現(xiàn)在所面臨的切膚之痛:運(yùn)營巨型數(shù)據(jù)服務(wù)中心成本高昂已經(jīng)是行業(yè)公認(rèn),但如果是用于 AI 大模型訓(xùn)練則更是貴上加貴,無論是對電力還是水力的消耗都極其巨大。
即使是 GPT-4 或 New Bing,也多次因?yàn)樗懔Σ蛔悴坏貌还_宣布短時(shí)間內(nèi)暫停訪問。算力已經(jīng)成為限制 AIGC 進(jìn)一步拓展使用場景的關(guān)鍵桎梏。Altman 的說法的根據(jù),或許也有很大一部分來源于 OpenAI 所面臨的現(xiàn)實(shí)原因。
在今年三月,英偉達(dá)專用于大模型參數(shù)計(jì)算、采用專用 Transformer Engine 架構(gòu)的英偉達(dá) H100NVL 系列發(fā)布之后,從中嗅到商機(jī)的黃牛也開始借機(jī)炒價(jià),售價(jià)已經(jīng)飆升至四萬美元。但這些在當(dāng)下大模型技術(shù)巨大的風(fēng)口面前似乎都不值一提,目前 H100NVL 系列仍然處于一貨難求的狀態(tài)。馬斯克也在 Twitter 上驚呼「似乎每個(gè)人和他們的狗都在搶購 GPU」。
不過吐槽歸吐槽,即便是馬斯克也不得不為了自己新成立的 AI 公司而買買買:據(jù)《商業(yè)內(nèi)幕》報(bào)道,馬斯克已經(jīng)購入了一萬組英偉達(dá)最新發(fā)布的 GPU 并運(yùn)至數(shù)據(jù)中心。并在 Twitter 上聲稱將開發(fā) TruthGPT 來挑戰(zhàn) ChatGPT。
盡管 Altman 同時(shí)還在演講中表示「OpenAI 目前沒有在開發(fā) GPT-5」。但在 AI 大模型發(fā)展狂奔的路上,沒有人愿意真的成為「落后六個(gè)月」的那個(gè)。
根據(jù)分析機(jī)構(gòu) SemiAnalysis 估算,如果按照目前 ChatGPT 的運(yùn)算處理效率,想要承擔(dān) Google 搜索目前在全球全部訪問流量,至少需要 410 萬張英偉達(dá) A100 GPU。即使只是訓(xùn)練出目前 ChatGPT 能力的大模型,也需要超過 10000 個(gè) GPU 來完成,后續(xù)運(yùn)營維護(hù)還需要更多。
這也是如今幾乎你能見到的每個(gè)大模型產(chǎn)品都需要「內(nèi)測邀請碼」的原因:不僅訓(xùn)練這些大模型燒錢,運(yùn)營起來更加燒錢。
這種對于計(jì)算硬件極度迫切的需求,推動(dòng)著英偉達(dá)成為這個(gè)市場最大的壟斷者。如今英偉達(dá)已經(jīng)占據(jù)了計(jì)算卡 88% 的市場份額,其他選項(xiàng) —— 例如 Google 開發(fā)的 Tensor TPU,甚至不提供對外售賣的選項(xiàng)。
但正如馬斯克「嘴上說暫停訓(xùn)練半年,實(shí)際光速成立 AI 公司」一樣,在很大程度上,這也只是 Altman 的一家之言。如今很多后來者的技術(shù)發(fā)展程度都還遠(yuǎn)未到能說出「AI 發(fā)展不能靠無腦計(jì)算」的程度。但 Altman 所說的確實(shí)已經(jīng)成為如今頭部大模型開發(fā)公司正在/即將要面對的棘手問題。
「一味不計(jì)成本地堆砌硬件不是未來」已經(jīng)成為越來越多業(yè)內(nèi)人士的共識(shí)。
現(xiàn)在的 AI 發(fā)展階段,甚至很多地方都有著互聯(lián)網(wǎng)發(fā)展早期時(shí)代的即視感:AI 行業(yè)的發(fā)展也已經(jīng)出現(xiàn)了「摩爾定律」,訓(xùn)練大模型所需的大量 GPU 組成的硬件訓(xùn)練集群,與世界上第一臺(tái)計(jì)算機(jī)并沒有本質(zhì)上的區(qū)別。
人工智能也需要一次「半導(dǎo)體革命」,探索未來也需要更加高效的方式:或許對大模型參數(shù)數(shù)量的精簡,以及利用多個(gè)較小的模型實(shí)現(xiàn)處理能力的提升,會(huì)是大模型時(shí)代結(jié)束之后,AIGC 行業(yè)的下一個(gè)發(fā)展方向。
在 ChatGPT 發(fā)布之初,針對參數(shù)量過高以及關(guān)于道德倫理方面的問題,OpenAI 曾公開過一項(xiàng)新的研究:使用一種通過人類反饋來強(qiáng)化學(xué)習(xí) (RLHF) 的技術(shù),對模型數(shù)據(jù)進(jìn)行微調(diào)。
經(jīng)過超過一年的測試,OpenAI 由此生成了 InstructGPT,其模型參數(shù)量僅有 13 億,只不到原版 ChatGPT 的百分之一,但這個(gè)迭代款不僅表現(xiàn)出更準(zhǔn)確的回答能力,甚至在回答中關(guān)于事實(shí)核查以及負(fù)面內(nèi)容的表現(xiàn),要好于 ChatGPT 本身。
此外,同樣近期大火的 AutoGPT:使用 GPT-4 作為底層技術(shù),加入了從網(wǎng)頁中抽取關(guān)鍵信息的能力,根據(jù)返回的結(jié)果進(jìn)一步執(zhí)行命令,幫你自動(dòng)完成任務(wù)處理。突破了只能處理文本相關(guān)內(nèi)容任務(wù)的限制。
由此誕生的結(jié)果,就是用戶在 AutoGPT 的實(shí)際使用中都能明顯感受到,要智能的多的結(jié)果,甚至完完全全改變了原本 ChatGPT 常規(guī)的使用方式,比如 AutoGPT 能自動(dòng)完成一整個(gè)網(wǎng)頁的代碼實(shí)現(xiàn),甚至還有網(wǎng)友發(fā)現(xiàn) AutoGPT 為了完成最初的任務(wù)目標(biāo),自行在招聘網(wǎng)站上發(fā)布了招聘廣告,吸引其他人來輔助完成。
這些在應(yīng)用層面的創(chuàng)新,除了能為大模型技術(shù)探索更多的應(yīng)用場景,也是在 AI 領(lǐng)域探索現(xiàn)有算力之下發(fā)展的可能。基于人類反饋實(shí)時(shí)修改結(jié)果的最直觀體驗(yàn),就是讓人工智能變得更加聰慧,同時(shí)也是真正意義上能實(shí)現(xiàn)「一個(gè)人就是一個(gè)團(tuán)隊(duì)」的技術(shù)。
宏觀來看,即使當(dāng)下大模型技術(shù)對于 AIGC 的發(fā)展至關(guān)重要,但長遠(yuǎn)來講,AI 絕不會(huì)永遠(yuǎn)依賴大模型的參數(shù)提升以及堆砌算力來構(gòu)建未來,開發(fā)更小更精準(zhǔn)的模型,以及更加具體的應(yīng)用場景,或許已經(jīng)是下一個(gè)時(shí)代真正的方向。
屆時(shí),或許是大模型時(shí)代的結(jié)束,卻是人工智能時(shí)代真正的開始。
作者:張勇毅;編輯:高宇雷
來源公眾號:電廠(ID:wonder-capsule),探索科技公司的未知,為你充電。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @電廠 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
有道理