Transformer能解釋一切嗎?

0 評(píng)論 2908 瀏覽 4 收藏 19 分鐘

Transformer的高內(nèi)存消耗和高推理成本的局限性開(kāi)始顯現(xiàn)出來(lái),替代者躍躍欲試。本篇文章詳細(xì)利用各種數(shù)據(jù)介紹了Transformer的替代者以及各種理論知識(shí),推薦想了解人工智能的同學(xué)閱讀。

提出Transformer的那篇論文《Attention is All You Need》問(wèn)世已經(jīng)是六年前的事了。當(dāng)初的8位論文作者有6人出自谷歌,但到現(xiàn)在大多也已轉(zhuǎn)身尋找新的故事。

Lukasz Kaiser去了OpenAI,他曾經(jīng)谷歌大腦的同事Noam Shazeer成立了Character AI,估值已經(jīng)超過(guò)10億美元。另外兩位同事Ashish Vaswani和Niki Parmar在創(chuàng)立了AI軟件開(kāi)發(fā)公司Adept AI Labs后,把這個(gè)同樣估值超過(guò)10億的初創(chuàng)公司交給了另一位聯(lián)合創(chuàng)始人,又開(kāi)始下一次創(chuàng)業(yè)了。

只有Llion Jones,這個(gè)從威爾士一個(gè)小村莊里走出來(lái)的程序員,還留在谷歌。他曾經(jīng)談起這個(gè)并不夠?qū)W術(shù)的論文標(biāo)題的由來(lái),是對(duì)披頭士的那首《All You Need is Love》的簡(jiǎn)單致敬。

而利用注意力機(jī)制來(lái)提高模型訓(xùn)練速度的Transformer架構(gòu),確實(shí)讓AI從實(shí)驗(yàn)室深處的極寒之地里走出來(lái)了。它成為當(dāng)下這場(chǎng)生成式AI浪潮無(wú)可爭(zhēng)議的基礎(chǔ)。某種程度上,上面提到的所有人,都沒(méi)有真正離開(kāi)這篇論文。

Mikolov在2010年提出RNN,這個(gè)框架在7年后被Transformer取代。而在Transformer問(wèn)世后的一個(gè)相似時(shí)間周期后,其高內(nèi)存消耗和高推理成本的局限性也開(kāi)始顯現(xiàn)出來(lái)。

替代者也躍躍欲試了。

一、“不可能三角”

Transformer能解釋一切嗎?

圖源:《Retentive Network: A Successor to Transformer for Large Language Models》

Transformer的自注意力機(jī)制增強(qiáng)了模型并行計(jì)算的能力,并且正契合了GPU對(duì)大規(guī)模數(shù)據(jù)進(jìn)行并發(fā)處理的設(shè)計(jì)傾向。但Transformer在面對(duì)大型數(shù)據(jù)集和較長(zhǎng)輸入序列時(shí),需要的計(jì)算量會(huì)陡增。

于是并行訓(xùn)練能力、性能和低成本推理,逐漸成為T(mén)ransformer框架下的“不可能三角”。

近日,微軟研究院和清華大學(xué)的研究團(tuán)隊(duì)提出了一個(gè)新的框架RetNet(Retentive Network)來(lái)代替Transformer,并表示RetNet可以打破這個(gè)“不可能三角”。

“這就像是M1芯片之于筆記本電腦?!币晃划a(chǎn)品經(jīng)理在推特上這樣形容RetNet。

二、O(N)困境

在這個(gè)“不可能三角”中,RetNet選擇的突破口是推理成本。

由于使用了自注意力機(jī)制,Transformer模型展現(xiàn)出較高的訓(xùn)練并行性,同時(shí)在機(jī)器翻譯、語(yǔ)言建模等任務(wù)上也取得了很好的表現(xiàn)。但取代了RNN的自注意力機(jī)制同樣成為一種桎梏。

這集中體現(xiàn)在時(shí)間復(fù)雜度這個(gè)標(biāo)尺上。在描述算法復(fù)雜度時(shí),常用O(n)、O(n^2)、O(logn)等表示某個(gè)算法在計(jì)算耗時(shí)與輸入數(shù)據(jù)量(n)之間的關(guān)系表示。

O(n)意味著數(shù)據(jù)量的增加與算法耗時(shí)成正比,O(n^2)意味著像冒泡排序那樣,算法耗時(shí)是數(shù)據(jù)量的n^n倍。計(jì)算耗時(shí)越長(zhǎng),算法越復(fù)雜,也就意味著推理成本越高。

Transformer能解釋一切嗎?

圖源:博客園

拿文本翻譯做個(gè)例子,在處理長(zhǎng)文本序列時(shí)(假設(shè)文本長(zhǎng)度為N),自注意力機(jī)制的時(shí)間復(fù)雜度為O(N^2),當(dāng)N過(guò)大時(shí),翻譯速度很低。這也是為什么當(dāng)前的大語(yǔ)言模型,在文本token長(zhǎng)度上的進(jìn)展頗為受人關(guān)注。

雖然Transformer可以有效訓(xùn)練并行性,但由于每步的O(N)復(fù)雜度以及內(nèi)存綁定的鍵值緩存,它們的推理效率低下。這種低效率使得Transformer模型會(huì)消耗大量GPU內(nèi)存并降低推理速度,因此不適合部署。

三、從O(N)到O(1)

O(1)無(wú)疑是最優(yōu)的選擇,這意味著無(wú)論數(shù)據(jù)輸入量n如何變化,算法耗時(shí)都是一個(gè)常量。

RetNet框架的最大的驚艷之處就在這里,它將O(N)降維到了O(1)。

RetNet引入了一種多尺度保留機(jī)制(multi-scale retention mechanism)來(lái)取代多頭注意力。作為三種計(jì)算范式之一的分塊循環(huán)表示,可在內(nèi)存和計(jì)算方面實(shí)現(xiàn)高效的O(1)推斷,從而顯著降低部署成本和延遲。

這意味著RetNet的推理成本是固定不變的。在一系列對(duì)比RETNet與Transformer及其變體的實(shí)驗(yàn)中,對(duì)比7B模型和 8k序列長(zhǎng)度,RetNet的解碼速度比帶鍵值緩存的Transformers快8.4倍,節(jié)省70%的內(nèi)存。RetNet的推理延遲變化對(duì)輸入數(shù)據(jù)量的大小變化并不敏感,這也讓它能夠包容更大的吞吐量(Throughput)。

測(cè)試結(jié)果表示,在訓(xùn)練期間RetNet比標(biāo)準(zhǔn)Transformer節(jié)省了25-50%的內(nèi)存和7倍的加速。

四、一些重要的實(shí)驗(yàn)結(jié)果

Transformer能解釋一切嗎?

圖源:《Retentive Network: A Successor to Transformer for Large Language Models》

O(1)為RetNet在GPU內(nèi)存方面帶來(lái)的優(yōu)勢(shì)是,它完全不隨token數(shù)增加而變化。

Transformer能解釋一切嗎?

圖源:《Retentive Network: A Successor to Transformer for Large Language Models》

Throughput(神經(jīng)網(wǎng)絡(luò)的吞吐量)是一個(gè)算法模型在單位時(shí)間內(nèi)(例如,1s)可以處理的最大輸入的訓(xùn)練樣本數(shù)據(jù)。RetNet在輸入端token數(shù)增加的情況下仍然能夠維持高吞吐量,而Transformer在這方面的數(shù)據(jù)則隨著token數(shù)的增加而逐漸衰減。

Transformer能解釋一切嗎?

圖源:《Retentive Network: A Successor to Transformer for Large Language Models》

Perplexity(困惑度)是語(yǔ)言模型最鮮明的評(píng)價(jià)標(biāo)準(zhǔn)。它衡量語(yǔ)言模型對(duì)單詞序列中下一個(gè)單詞的預(yù)測(cè)能力。當(dāng)模型參數(shù)量變大時(shí),困惑度往往會(huì)降低,即語(yǔ)言模型能夠做出更優(yōu)的預(yù)測(cè)——這也是為什么我們對(duì)萬(wàn)億參數(shù)模型抱有極大期待。

論文中比較了RetNet與Transformer在1.3B、2.7B以及6.7B這三種不同尺寸上的困惑度變化,實(shí)驗(yàn)結(jié)果RetNet的困惑度下降更快,并且當(dāng)模型大小超過(guò)2B時(shí),RetNet的表現(xiàn)開(kāi)始優(yōu)于Transformer。

這一觀察結(jié)果意義重大,它表明RetNet更適合需要大量計(jì)算資源和內(nèi)存的大型語(yǔ)言模型。

Transformer能解釋一切嗎?

圖源:《Retentive Network: A Successor to Transformer for Large Language Models》

2018年,大模型仍然前景未明的時(shí)候,黃仁勛在深度學(xué)習(xí)的綜合性能評(píng)價(jià)方面提出了PLASTER框架。這是七個(gè)測(cè)量維度的縮寫(xiě),其中延遲(Latency)的重要性僅僅被放在可編程性(Programmability)之后(其他五個(gè)維度分別是準(zhǔn)確率(A)、模型大?。⊿)、吞吐量(T)、能效(E)以及學(xué)習(xí)率(R))。

RetNet與Transformer在不同Batch Size(一次訓(xùn)練所選取的樣本數(shù))下的延遲表現(xiàn)同樣印證了,RetNet的響應(yīng)速度將在訓(xùn)練規(guī)模進(jìn)一步擴(kuò)大后展現(xiàn)出優(yōu)勢(shì)。

五、Transformer能解釋一切嗎

這篇論文中的幾位核心作者,在更早時(shí)候就已經(jīng)開(kāi)始關(guān)注GPT在上下文學(xué)習(xí)中的運(yùn)行機(jī)制。2022年末ChatGPT問(wèn)世后不久,他們發(fā)表了一篇表明Transformer注意力具有雙重形式的梯度下降的論文。而這些研究者對(duì)于RetNet的野心并不會(huì)停留在文本輸入上。

論文在最后表示,RetNet將會(huì)成為未來(lái)訓(xùn)練多模態(tài)大語(yǔ)言模型的核心角色。

在這篇論文發(fā)表的10天之前,世界人工智能大會(huì)上一家投資了智譜AI等多個(gè)大模型明星團(tuán)隊(duì)的創(chuàng)投公司表示,Transformer在短期內(nèi)會(huì)是多模態(tài)的主流網(wǎng)絡(luò)結(jié)構(gòu),但并不是人工智能技術(shù)的重點(diǎn),“壓縮整個(gè)數(shù)字世界的通用方法仍未出現(xiàn)”。

Transformer是目前幾乎所有主流大模型的基石,這場(chǎng)基于Transformer而起的技術(shù)革命,已經(jīng)快速到達(dá)了一個(gè)新的搖擺點(diǎn)。外部的壓力來(lái)自暴漲的算力資源需求,以及人類(lèi)所有的高質(zhì)量語(yǔ)料可能在有限的期限內(nèi)枯竭。

Transformer能解釋一切嗎?

圖源:推特

搖擺的地方在于,到底是Transformer還不夠好,還是Transformer本身并不是一條正確道路?

至少?gòu)腞etNet的角度,它仍然是相信Transformer的,RetNet是后者的顛覆版本,但并沒(méi)有跳出以深度學(xué)習(xí)為基礎(chǔ),全神貫注在自然語(yǔ)言處理任務(wù)上做突破的邏輯框架。

另一種更劇烈的反對(duì)聲音則直接站在了Transformer的對(duì)面,比如再度活躍起來(lái)的“卷積神經(jīng)網(wǎng)絡(luò)之父”楊立昆。

六、模型和數(shù)據(jù),誰(shuí)更重要

在幾個(gè)月前的一次公開(kāi)演講中,楊立昆再次批評(píng)了GPT大模型。他認(rèn)為根據(jù)概率生成自回歸的大模型,根本無(wú)法破除幻覺(jué)難題。甚至直接斷言GPT模型活不過(guò)5年。

LeCun的質(zhì)疑是,基于文本訓(xùn)練的大型語(yǔ)言模型只能理解極片面的真實(shí)世界知識(shí),而僅僅靠自回歸預(yù)測(cè)下一個(gè)token的單一方式所形成的“智能”缺乏物理直覺(jué)。這樣的模型能夠在真實(shí)世界中對(duì)物理直覺(jué)問(wèn)題做出對(duì)的回答——也可能做出錯(cuò)的回答。因?yàn)榛卮鸬囊罁?jù)來(lái)自將整個(gè)真實(shí)世界壓縮成文本進(jìn)行訓(xùn)練后所形成的邏輯關(guān)系,但這并不是直接面對(duì)物理世界本身。

并且由于這樣的預(yù)測(cè)方式本質(zhì)上缺乏時(shí)間尺度,這樣的模型也就缺乏真正意義上的規(guī)劃和決策能力。

矛頭在根本上對(duì)準(zhǔn)Transformer。

言下之意,Transformer統(tǒng)領(lǐng)了一種以預(yù)訓(xùn)練規(guī)模兌換智能涌現(xiàn)能力——所謂大力出奇跡——的發(fā)展道路(并且到目前為止取得了矚目的成果),但如果真的有一條通往AGI的道路,到底是該以數(shù)據(jù)驅(qū)動(dòng)模型,還是模型驅(qū)動(dòng)數(shù)據(jù)?這仍是一個(gè)懸而未決的問(wèn)題。

七、“刺激—反應(yīng)”

楊立昆與這條區(qū)別于GPT的AGI未來(lái)猜想路徑,更強(qiáng)調(diào)智能體主動(dòng)發(fā)起的與物理世界之間的實(shí)時(shí)關(guān)系,這是強(qiáng)化學(xué)習(xí)擅長(zhǎng)的事。在這一點(diǎn)上,Transformer的繼承者RetNet也只是治標(biāo)不治本。

OpenAI在ChatGPT中以人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)的微調(diào)方法補(bǔ)充了這種實(shí)時(shí)反饋的能力。但大語(yǔ)言模型的所有“常識(shí)”——也就是其智能所在——都來(lái)自一次次隆重的預(yù)訓(xùn)練,即在知道最優(yōu)數(shù)據(jù)分布時(shí),依靠巨大的模型、算力以及數(shù)據(jù)去擬合分布。這是Transformer與GPU在并行計(jì)算能力上的契合所帶來(lái)的便利,而作為T(mén)ransformer繼任者的RetNet,只是在極力優(yōu)化這整個(gè)后續(xù)的計(jì)算過(guò)程。

而強(qiáng)化學(xué)習(xí)與有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)都不一樣。它本身并不知道最優(yōu)分布,而是通過(guò)獎(jiǎng)勵(lì)信號(hào)的反饋機(jī)制不停的尋找相對(duì)的“最優(yōu)”。這種在與環(huán)境交互中主動(dòng)“試錯(cuò)”,并且獲取正反饋(收益),進(jìn)而從自身經(jīng)驗(yàn)中進(jìn)一步理解環(huán)境的方式,相比自監(jiān)督學(xué)習(xí)來(lái)說(shuō)更加接近人類(lèi)對(duì)于物理世界的理解方式,這就像心理學(xué)中的“刺激—反應(yīng)”理論。

很多人對(duì)強(qiáng)化學(xué)習(xí)的第一次感性認(rèn)識(shí)都來(lái)自曾顛覆了人類(lèi)圍棋世界的AlphaGO,而到目前為止。全世界可能也沒(méi)有另一家公司比AlphaGO背后的公司DeepMind更懂強(qiáng)化學(xué)習(xí)。

與RetNet在Transformer的基礎(chǔ)上做調(diào)整不同,DeepMind在6月末提出了另一種大模型的迭代思路——AlphaGo+GPT4。

八、AlphaGo和AlphaZero

人類(lèi)一敗涂地的故事總是矚目,但AlphaGO曾有一個(gè)后輩AlphaGo Zero。

2016年,AlphaGO用樹(shù)搜索和上萬(wàn)張棋局的預(yù)先學(xué)習(xí),4:1擊敗了李世乭。但另一個(gè)延續(xù)下去的故事是,AlphaGo Zero在一年后以100:0的戰(zhàn)績(jī)擊潰了AlphaGO。

2017年《自然》上的一篇論文介紹了這項(xiàng)壯舉,核心的內(nèi)容是AlphaGo Zero如何在完全沒(méi)有先驗(yàn)知識(shí),即不依賴任何人類(lèi)數(shù)據(jù)、指導(dǎo)或領(lǐng)域知識(shí)的前提下,通過(guò)自我學(xué)習(xí)來(lái)獲得超越人類(lèi)水平的專業(yè)領(lǐng)域能力。

換言之,AlphaGo Zero就好像帶著一個(gè)空腦袋,坐在一間屋子里,在只掌握圍棋游戲規(guī)則信息,眼前只有一副圍棋棋盤(pán)和棋子的情況下,擊敗了AlphaGO。

AlphaGo Zero的不同之處在于它采用了一種完全基于強(qiáng)化學(xué)習(xí)的算法,僅僅將自己作為老師,以此誕生出更高質(zhì)量的走法選擇。與使用人類(lèi)專家數(shù)據(jù)進(jìn)行訓(xùn)練相比,純粹的強(qiáng)化學(xué)習(xí)方法只需要多訓(xùn)練幾個(gè)小時(shí),但漸近性能(算法在接近其理論極限時(shí)的性能)要好得多。

AlphaGo Zero的勝利是強(qiáng)化學(xué)習(xí)的勝利。但它的局限性也很明顯,就像楊立昆所推崇的能量模型(Energy-based Models)所具有的問(wèn)題一樣,“采樣速度太慢了”,一位強(qiáng)化學(xué)習(xí)領(lǐng)域的研究者表示。

九、Gemini

現(xiàn)在這條更側(cè)重強(qiáng)化學(xué)習(xí)的AGI路徑,壓在了DeepMind正在研究的一個(gè)新的名為Gemini的大模型身上。DeepMind CEO 哈薩比斯表示,對(duì)Gemini的研發(fā)投入將會(huì)超過(guò)數(shù)千萬(wàn)甚至數(shù)億美金。做個(gè)對(duì)比,OpenAI用1個(gè)億美金迭代出了GPT-4。

“Gemini”本身是雙子座的意思。在哈薩比斯的表述中,這個(gè)全新的大模型將會(huì)是GPT4和AlphaGo的結(jié)合體,它仍然是一個(gè)大語(yǔ)言模型,但AlphaGo所具備的強(qiáng)化學(xué)習(xí)和樹(shù)搜索能力會(huì)給Gemini帶來(lái)更強(qiáng)的決策和規(guī)劃能力——這個(gè)楊立昆認(rèn)為GPT在AGI道路上早晚會(huì)遇到的阿喀琉斯之踵。

Gemini背后的谷歌顯然希望能借著Gemini重新在與微軟的爭(zhēng)鋒中占到一個(gè)好的位置。在ChatGPT問(wèn)世之后,谷歌快速站到了OpenAI的對(duì)手Anthropic的背后。如果這被看作一種防守姿態(tài)的話,Gemini則更像谷歌主動(dòng)發(fā)起的一場(chǎng)新的路線之爭(zhēng),就像曾經(jīng)在GPT與BERT身上發(fā)生過(guò)的事情一樣。

但無(wú)論如何,RetNet或是Gemini,改革或是淘汰Transformer的狂妄本身,已經(jīng)包含了對(duì)這個(gè)偉大框架的所有敬意。

作者:油醋

來(lái)源公眾號(hào):品玩GenAI(ID:PW_GenAI),比一部分人更先進(jìn)入GenAI 。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @品玩 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!