自回歸模型VS擴(kuò)散型模型 住手,你們不要再打了啦
在人工智能領(lǐng)域,自回歸模型和擴(kuò)散模型分別在文字和圖像生成任務(wù)中占據(jù)主導(dǎo)地位。然而,隨著技術(shù)的發(fā)展,兩者之間的邊界似乎開(kāi)始模糊。本文將深入探討這兩種模型的核心差異,分析它們?yōu)楹芜m用于不同的信號(hào)類型(離散信號(hào)與連續(xù)信號(hào)),并探討如何通過(guò)技術(shù)路徑實(shí)現(xiàn)自回歸模型在圖像生成任務(wù)中的應(yīng)用。
為何文字與圖像生成模型分道揚(yáng)鑣?
你是否會(huì)有這樣的疑問(wèn),為什么主流的文字模型用的都是自回歸模型,而主流的圖片視頻生成模型卻偏愛(ài)擴(kuò)散模型呢?
最近的一些項(xiàng)目也讓這個(gè)事情慢慢地變得微妙了起來(lái)啊。
比如說(shuō) Gemini 的這樣的一個(gè)自回歸模型,由于良好的圖片一致性驚艷了整個(gè)圈子。
而前段時(shí)間擴(kuò)散大語(yǔ)言模型項(xiàng)目 Mercury 也因?yàn)樗斓倪@種文本生成速度引發(fā)了大量的關(guān)注。
難道說(shuō)模型的這個(gè)邊界正在被打破嗎?
自回歸模型和擴(kuò)散模型,它們之間到底有著什么樣的區(qū)別呢?
核心差異:離散信號(hào)與連續(xù)信號(hào)的本質(zhì)
其實(shí)這個(gè)問(wèn)題的核心是要追溯到為什么最早人們開(kāi)始選擇這個(gè)技術(shù)路線的時(shí)候,用自回歸模型去生成文字,用擴(kuò)散模型去生成圖片。
這背后其實(shí)隱藏的是文字和圖像自身的最根本的區(qū)別,也就是離散信號(hào)和連續(xù)信號(hào)。
文字是一種離散信號(hào),有一系列明確的、有限的這種符號(hào)構(gòu)成。
就比如說(shuō)我們的語(yǔ)言中有龜和兔這兩個(gè)明確的符號(hào)概念,但是你不可能在龜和兔之間找到一個(gè)中間狀態(tài),就是我們沒(méi)有辦法定義一個(gè)既是龜又是兔的中間符號(hào),這其實(shí)體現(xiàn)出來(lái)的就是文字本質(zhì)上的離散性。
那圖像就是一種連續(xù)的信號(hào),它是平滑無(wú)限的啊。
舉個(gè)簡(jiǎn)單例子,就是你觀察這個(gè)紅色和黃色之間,其實(shí)可以找出無(wú)數(shù)個(gè)不同的橙色啊。
這些中間狀態(tài)都是連續(xù)存在的,所以它不是有限的離散符號(hào)。
那更進(jìn)一步,其實(shí)文字本身就是人發(fā)明的,對(duì)這個(gè)連續(xù)世界的一種抽象,或者說(shuō)是采樣。
就比如說(shuō)我們看到不同品種的龜,對(duì)吧
無(wú)論是中華草龜還是豬鼻龜,它們都被我們統(tǒng)一成了一個(gè)離散的概念龜。
并且用龜這個(gè)字這個(gè)符號(hào)來(lái)進(jìn)行一個(gè)表示,所以正是由于有這樣的差異,決定了早期的生成任務(wù)會(huì)選擇不同的模型方向。
生成機(jī)制對(duì)比:從人類行為到模型邏輯的仿生學(xué)映射
自回歸模型:契合人類語(yǔ)言生成的逐字預(yù)測(cè)機(jī)制
那在這個(gè)地方其實(shí)我們首先要去了解人是怎么樣去生成文字的,就是人在說(shuō)話的時(shí)候是一個(gè)什么樣的過(guò)程。
那人說(shuō)話時(shí)是一個(gè)逐字逐句、循序漸進(jìn)的過(guò)程,就是我講一個(gè)字或者說(shuō)表達(dá)一個(gè)字的時(shí)候,其實(shí)都是根據(jù)前面說(shuō)的話,是吧?
舉個(gè)例子就是我現(xiàn)在想喝,你要預(yù)測(cè)下一個(gè)這個(gè)字是什么的時(shí)候,你可能會(huì)說(shuō)我想喝奶茶,我想喝可樂(lè),但是大概率不會(huì)說(shuō)我想喝自行車,我想喝混凝土,就是語(yǔ)言,它有一種天然的基于上下文的推進(jìn)邏輯。
那自回規(guī)模型的工作機(jī)制其實(shí)和人說(shuō)話的這個(gè)過(guò)程高度相似,自回規(guī)模型就是根據(jù)已生成的離散符號(hào)去預(yù)測(cè)下一個(gè)符號(hào)的概率,在每一步的這種預(yù)測(cè)之中,是吧?。
我就從這個(gè)有限的符號(hào)集里面去判斷哪一個(gè)符號(hào)的概率最大,你可以理解成本質(zhì)上它是一個(gè)分類任務(wù)。
所以自回規(guī)模型和語(yǔ)言生成的這種內(nèi)在習(xí)慣是相似的,導(dǎo)致它非常適用于文字生成的任務(wù)相對(duì)應(yīng)的。
擴(kuò)散模型:模擬圖像繪制的漸進(jìn)細(xì)化與特征概率分布
相對(duì)應(yīng)的,我們要去了解人是怎么畫畫的。
假設(shè)你想畫一只長(zhǎng)頸鹿,你可能會(huì)先從一個(gè)簡(jiǎn)單的草圖開(kāi)始,然后逐步添加細(xì)節(jié),使它越來(lái)越接近你腦海中的長(zhǎng)頸鹿形象。
我們腦海中對(duì)「長(zhǎng)頸鹿」這個(gè)概念有一些典型特征,例如長(zhǎng)長(zhǎng)的脖子和身上獨(dú)特的斑紋。因此,當(dāng)我們繪制長(zhǎng)頸鹿時(shí),就會(huì)有意識(shí)地加入這些特征,因?yàn)樗鼈兪谴怼搁L(zhǎng)頸鹿」這一概念的典型標(biāo)志。
然后我們從數(shù)學(xué)的角度去看,像長(zhǎng)長(zhǎng)的脖子、身上獨(dú)特的斑紋這樣的特征組合。
在我們?nèi)ピO(shè)想的這個(gè)長(zhǎng)頸鹿的圖案,或者說(shuō)我們看到的長(zhǎng)頸鹿圖案里面出現(xiàn)的概率是很高的,所以這塊體現(xiàn)出來(lái)就是長(zhǎng)頸鹿這個(gè)概念背后其實(shí)都是特征的概率分布特征的這樣的一種集合。
所以當(dāng)我們用擴(kuò)散模型去生成圖片的時(shí)候,在做的一件事情就是試圖讓圖像中的這些特征盡可能地向我們想要表達(dá)的那個(gè)概念的高概率區(qū)域去靠攏。
比如說(shuō)在連續(xù)的這個(gè)空間中,我不斷地把這個(gè)脖子畫長(zhǎng),畫的像長(zhǎng)脖子,不斷地去增加這個(gè)斑紋的質(zhì)地,讓它看起來(lái)像是一個(gè)長(zhǎng)頸鹿斑紋,那么最終的圖像由于我在不斷地去把這些特征給它進(jìn)行一個(gè)強(qiáng)化,就會(huì)導(dǎo)致我們畫出來(lái)的長(zhǎng)頸鹿就真的很像一個(gè)真實(shí)的長(zhǎng)頸鹿。
所以擴(kuò)散模型就是在找一種概率分布,找的是從模糊草圖到細(xì)節(jié)逐漸變清晰的這樣的一個(gè)過(guò)程,和人們?nèi)ダL畫的這種思維方式是吻合的,所以擴(kuò)散模型就天然的適合圖像生成的任務(wù)。
但是這個(gè)還要再多說(shuō)一句,就是當(dāng)我們用擴(kuò)散模型生成長(zhǎng)頸鹿的圖像的時(shí)候,雖然我們有長(zhǎng)脖子、獨(dú)特斑紋這種明顯的典型特征的預(yù)設(shè),但由于圖像信號(hào)本身是連續(xù)的信號(hào),所以我們截取到的這個(gè)特征自然也是連續(xù)的,這種連續(xù)的特征導(dǎo)致我們很難明確地去找出哪些維度是具體對(duì)應(yīng)這個(gè)長(zhǎng)脖子,哪些維度是具體對(duì)應(yīng)這個(gè)獨(dú)特斑紋,因?yàn)樗麄冞@些特征之間其實(shí)是沒(méi)有明確的邊界的,所以擴(kuò)散模型生成圖的過(guò)程算是比較直觀的。
但是你很難地具體地去判斷,誒,每一個(gè)特征或者說(shuō)這多個(gè)維度特征的組合表達(dá)的到底是什么樣的一種含義?
所以擴(kuò)散模型在學(xué)習(xí)這些特征的時(shí)候,其實(shí)學(xué)到就是一種整體的、抽象的、無(wú)法用語(yǔ)言表述的感覺(jué),其實(shí)就跟人在第一次看到一個(gè)非常宏偉的建筑的時(shí)候,你不會(huì)具體去分析這個(gè)畫面里面的哪些細(xì)節(jié)讓它變得宏偉,像你不會(huì)說(shuō)這個(gè)設(shè)計(jì)語(yǔ)言是什么,其實(shí)很多時(shí)候我們就是直觀地感受到這個(gè)宏偉的這樣的一個(gè)整體的美感,或者說(shuō)是一種直覺(jué),畫面之所以能夠有效地傳遞這種直覺(jué)或者說(shuō)是美的這樣的一種概念。
是因?yàn)閷徝辣旧砭褪请y以表述的,難以用明確的這種邊界去進(jìn)行一個(gè)定義,它依靠的就是大量的微妙特征,它們相互融合、相互作用,然后讓人們感受到這是一種美的概念,所以這個(gè)是為什么擴(kuò)散模型有的時(shí)候的確能夠生成一些讓人覺(jué)得很驚艷的作品,我就把這個(gè)叫做擴(kuò)散模型 AI 的一種想象力。
所以我們可以看到其實(shí)人們?cè)谑褂眠@個(gè)自回歸模型和擴(kuò)散模型生成文字和圖像的時(shí)候,是符合人們自己去使用文字繪制圖像的方式的,這背后有一種類似于仿生學(xué)的概念,就是人怎么做,我就讓模型去怎么做。
他們雖然有著不同的技術(shù)方案,有著不同的模型,但其實(shí)都是解決相對(duì)應(yīng)問(wèn)題的這樣的一種,最短的這樣的一種路徑。
邊界的突破:自回歸模型處理圖像的技術(shù)路徑
那第二個(gè)問(wèn)題就是像 Gemini或者說(shuō) Grok -3 的這樣的模型,為什么現(xiàn)在又能夠去完成多模態(tài)的任務(wù)?
既能生成文字,又能生成圖像呢?
這地方說(shuō)一句就是Gemini其實(shí)并沒(méi)有公開(kāi)它的任何技術(shù)資料,所以我們只能去找類似的開(kāi)源項(xiàng)目,然后弄清楚這背后的秘密。
這方教大家一下怎么找。
首先我們到這個(gè) hugging face 的模型界面,然后我們要去找到多模態(tài)的模型,就是這里的 Any to Any
眾所周知,Deepseek 的開(kāi)源工作做得非常的完善,所以我們后面所說(shuō)的關(guān)于自回歸模型的一些討論,其實(shí)基本上都是來(lái)源于 Janos 的這樣的一個(gè)技術(shù)報(bào)告啊。
那話說(shuō)回來(lái),大家可以去思考一下,圖片是連續(xù)的,自回歸擅長(zhǎng)處理離散的信號(hào),那我們?cè)趺礃幽軌蜃屪曰匾?guī)模型去生成圖片或者說(shuō)處理圖片呢?
那這個(gè)地方我們其實(shí)可以加一個(gè)模塊去做一種轉(zhuǎn)換,我先把圖片的這種連續(xù)信號(hào)轉(zhuǎn)成離散信號(hào),之后再用自回規(guī)模型去進(jìn)行處理。
這個(gè)地方 Janus 其實(shí)做的就是這樣一件事情,我們可以看到在自回歸的這個(gè)模型里面引入了一個(gè)新的模塊,叫做 VQ Tokenizer,這個(gè) Tokenizer 就明確實(shí)現(xiàn)了連續(xù)特征到離散特征的一個(gè)轉(zhuǎn)換,VQ Tokenizer 會(huì)構(gòu)建一個(gè)稱為這個(gè) Code book 的東西,叫做離散的特征集合,就把原本的連續(xù)特征就映射到這樣的一個(gè)集合里啊。
舉個(gè)例子,我們還是一張長(zhǎng)頸鹿的圖片,在經(jīng)過(guò)了 VQ tokenizer 之后,它就會(huì)變成,那這個(gè)長(zhǎng)頸鹿的輪廓是什么樣的?
這個(gè)長(zhǎng)頸鹿的透視關(guān)系是什么樣的?
這個(gè)長(zhǎng)頸鹿它的紋理是什么樣的?
這個(gè)長(zhǎng)頸鹿頭上面有什么?
所以這樣的方式把原本難以直觀表達(dá)的這種影視的連續(xù)的特征變成了一種更加明確、更加可控的顯示的特征啊。
雖然 code book 中的這種特征維度其實(shí)不是人直接去定義的,比如說(shuō)長(zhǎng)脖子或者獨(dú)特斑紋,不是說(shuō)我想要這兩個(gè)特征,它就出現(xiàn)在這個(gè) code book 里面,但是相比于擴(kuò)散模型而言,我們能夠通過(guò)這樣的一個(gè) code book 更清晰地理解這個(gè)圖像的生成過(guò)程。
那既然如此,對(duì)吧。
我們就可以去猜為什么 Germini或者說(shuō) Grok-3在圖像編輯的任務(wù)上比擴(kuò)散模型要強(qiáng)。
首先,既然每一個(gè)維度都可以清晰地解釋,當(dāng)我們想明確地把這個(gè)長(zhǎng)脖子改成短脖子的時(shí)候,我們只需要針對(duì)那個(gè)特征維度的區(qū)域進(jìn)行一個(gè)精準(zhǔn)的修改就可以了,我們不需要擔(dān)心這種修改會(huì)影響到這個(gè)圖的其他區(qū)域。
所以這種明確的特征表示是為圖像的編輯任務(wù)提供了很大的便利的,而且它能夠最大程度上去保持圖像的一致性。
但是它也有相對(duì)應(yīng)的劣勢(shì),當(dāng)我們引入了這個(gè) VQ tokenizer 之后,就意味著你這個(gè)多出來(lái)的這個(gè)模塊,這個(gè) code book 是需要去維護(hù)的,是吧?
我怎么樣保證 code book 的這個(gè)訓(xùn)練過(guò)程和優(yōu)化是足夠準(zhǔn)確的。
我只有這樣的一個(gè)模塊不出錯(cuò),我才能生成更高質(zhì)量的內(nèi)容。
那除此之外,就是當(dāng)我把無(wú)限的信號(hào)映射到有限的離散特征之中,肯定會(huì)有信息損失,而且這種損失就尤其體現(xiàn)在復(fù)雜的、精細(xì)的場(chǎng)景上。
我們之前說(shuō)了連續(xù)的特征能夠更好地表達(dá)美學(xué)直覺(jué)這種藝術(shù)性的抽象概念。
那當(dāng)這些連續(xù)性的信號(hào)被強(qiáng)行離散化之后,就很有可能造成細(xì)節(jié)或者說(shuō)整體美感的這樣的一種下降,所以自回歸模型很有可能在高度復(fù)雜的圖像生成任務(wù)上遇到瓶頸,畢竟有一些美的東西你真的沒(méi)有辦法用顯示的或者說(shuō)用語(yǔ)言去進(jìn)行一個(gè)精確的描述。
那最后其實(shí)就是自回規(guī)模型,現(xiàn)在來(lái)看在圖像的分辨率上其實(shí)還是有一定的劣勢(shì),就基本上是不太趕得上現(xiàn)階段的擴(kuò)散模型的。
那相對(duì)應(yīng)的這個(gè)擴(kuò)散模型的優(yōu)點(diǎn)就是算法更直接,圖像更細(xì)膩、分辨率更高,是吧?
小結(jié)
那綜上所述,其實(shí)自回模型和擴(kuò)散模型雖然有的地方有交叉,但是整體而言它們都有自己的適用領(lǐng)域,并且很有可能聯(lián)合起來(lái)使用,嗯,會(huì)有更好的思路,所以我們沒(méi)有必要去討論這個(gè)誰(shuí)會(huì)取代誰(shuí)啊。
那相比于模型本身,我覺(jué)得更重要的是只有當(dāng)我們真正去理解這個(gè)技術(shù)背后的原理和它的發(fā)展的這種脈絡(luò)的時(shí)候,我們才能在現(xiàn)在這個(gè) AI 的時(shí)代浪潮之中,準(zhǔn)確地選擇最適合自己產(chǎn)品的技術(shù)方案,真正地做出屬于自己的判斷。
掌握了這個(gè)知識(shí),其實(shí)你就已經(jīng)比別人站得更高、看得更遠(yuǎn)了,以未來(lái)也會(huì)走得更穩(wěn),這個(gè)才是我認(rèn)為的,要知其然,更要知其所以然。
作者:Easton ,公眾號(hào):智子觀測(cè)站
本文由 @Easton 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
標(biāo)題寫錯(cuò)了吧。。。。還是要嚴(yán)謹(jǐn)一些
抱歉