OpenAI的吉卜力,撞車(chē)了被字節(jié)起訴“投毒AI”的前實(shí)習(xí)生?
OpenAI的GPT-4o圖像生成功能引發(fā)了廣泛關(guān)注,其采用的自回歸技術(shù)與主流擴(kuò)散模型截然不同,可能預(yù)示著AI圖像生成領(lǐng)域的范式轉(zhuǎn)變。而這一技術(shù)路徑與字節(jié)跳動(dòng)前實(shí)習(xí)生田柯宇的研究成果高度相關(guān),引發(fā)了關(guān)于技術(shù)歸屬和創(chuàng)新方向的討論。
想象一下,耗費(fèi)動(dòng)畫(huà)大師宮崎駿數(shù)十年心血、一幀一畫(huà)精雕細(xì)琢的藝術(shù)風(fēng)格——比如《起風(fēng)了》中耗時(shí)一年多的四秒人群場(chǎng)景,或是《幽靈公主》里那個(gè)生物鉆地鏡頭背后一年零七個(gè)月的 5300 幀手繪,如今,在GPT-4o手中,似乎變得“唾手可得”.
用戶們興奮地將個(gè)人照片、網(wǎng)絡(luò)梗圖甚至歷史影像紛紛“一鍵吉卜力化”,其效果之逼真、風(fēng)格之統(tǒng)一,迅速點(diǎn)燃了網(wǎng)絡(luò)。無(wú)數(shù)人的時(shí)間線都被塞入了宮崎駿的平行宇宙。OpenAI CEO Sam Altman透露,4o的圖像生成功能在一小時(shí)內(nèi)就吸引了百萬(wàn)新用戶。
但如果你認(rèn)為這僅僅是OpenAI用一個(gè)更強(qiáng)的模型替換了之前的DALL-E,那可能就忽視了全貌。有敏銳的網(wǎng)友指出:“這不僅僅是一次產(chǎn)品更新——這很可能是一個(gè)徹底的范式轉(zhuǎn)變。” OpenAI 似乎正在解決那些長(zhǎng)期困擾AI圖像生成過(guò)程中,讓創(chuàng)作者望而卻步的問(wèn)題。
那么,秘密武器是什么?OpenAI自己給出了線索:這次的圖像生成是直接內(nèi)置在GPT-4o模型中的,并且,與廣泛采用擴(kuò)散模型(Diffusion Models)的DALL-E、Midjourney、Stable Diffusion 不同,OpenAI在模型卡片中聲明:“與作為擴(kuò)散模型運(yùn)行的DALL·E不同,4o圖像生成是一個(gè)原生嵌入在ChatGPT中的自回歸模型”
值得注意的是,將自回歸思想應(yīng)用于圖像生成并非OpenAI的獨(dú)創(chuàng)。事實(shí)上,如何讓擅長(zhǎng)序列預(yù)測(cè)的自回歸模型在視覺(jué)領(lǐng)域發(fā)揮潛力,一直是AI研究者們?cè)噲D攻克的方向之一,意在尋找不同于主流擴(kuò)散模型的新范式。
例如此前獲得頂級(jí)學(xué)術(shù)會(huì)議NeurIPS 2024最佳論文獎(jiǎng)等《視覺(jué)自回歸建模:通過(guò)下一尺度預(yù)測(cè)實(shí)現(xiàn)可擴(kuò)展的圖像生成》(Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction)的研究,它不僅提出了一種創(chuàng)新的 VAR 方法,顯著提升了自回歸模型生成圖像的質(zhì)量和效率,更是在實(shí)驗(yàn)中首次證明了類(lèi) GPT 的純自回歸模型在圖像生成任務(wù)上,有潛力超越當(dāng)時(shí)頂尖的擴(kuò)散 Transformer 模型。
這篇論文由北京大學(xué)與字節(jié)跳動(dòng)的研究者共同完成。而為這篇技術(shù)含量極高的論文增添了更多話題性的,是其第一作者田柯宇的另一重身份——他正是那位因被指控惡意攻擊字節(jié)跳動(dòng)訓(xùn)練集群、面臨巨額索賠而備受關(guān)注的前字節(jié)實(shí)習(xí)生。
這位“含金量還在上升”的實(shí)習(xí)生,以一種意想不到的方式,與AI圖像生成的前沿探索交織在了一起。
01 自回歸的“復(fù)興”
GPT-4o 在圖像生成上的突破,關(guān)鍵之一在于其宣稱采用的自回歸技術(shù)(AR)路徑,這與主流的擴(kuò)散模型截然不同。理解這一差異,是把握這場(chǎng)潛在“范式轉(zhuǎn)變”的核心。
擴(kuò)散模型,如Midjourney和Stable Diffusion,其原理是從隨機(jī)噪聲出發(fā),通過(guò)學(xué)習(xí)數(shù)據(jù)分布逐步去噪,最終生成圖像,強(qiáng)項(xiàng)在于生成高質(zhì)量、逼真的圖像,但在速度、計(jì)算成本以及精確理解復(fù)雜指令(尤其是文字渲染)方面常顯不足。
自回歸模型則借鑒了GPT處理文本的方式:按順序預(yù)測(cè)下一個(gè)元素。在圖像上,這意味著模型基于已生成的部分(如像素或圖像標(biāo)記),逐步構(gòu)建出完整圖像。理論上,這賦予了AR在上下文理解、細(xì)節(jié)控制和連貫性上的優(yōu)勢(shì)。然而,傳統(tǒng)AR方法存在效率低、易出錯(cuò)的問(wèn)題,長(zhǎng)期以來(lái)難以在效果上匹敵擴(kuò)散模型。
近年來(lái),以 VAR(Visual Autoregressive Modeling)、掩碼自回歸建模(MAR)等研究,開(kāi)始為 AR “正名”。VAR提出的“下一尺度預(yù)測(cè)”(從粗到細(xì)生成)等創(chuàng)新,顯著提升了AR模型的圖像質(zhì)量和生成效率,證明了AR路徑不僅可行,甚至有潛力超越擴(kuò)散模型。VAR等研究可能為GPT-4o提供了理論啟發(fā),而GPT-4o的實(shí)踐進(jìn)一步驗(yàn)證了自回歸模型在視覺(jué)生成中的可行性,讓 AR 在圖像生成領(lǐng)域迎來(lái)了“復(fù)興”的可能。
那么,GPT-4o 的圖像生成具體是如何運(yùn)作的?OpenAI強(qiáng)調(diào)其圖像功能原生集成于模型核心,而非獨(dú)立模塊。這意味著4o能充分利用其強(qiáng)大的語(yǔ)言理解和世界知識(shí)來(lái)指導(dǎo)圖像生成,實(shí)現(xiàn)前所未有的上下文理解和指令遵循能力——比如準(zhǔn)確畫(huà)出包含特定公式的白板。這種深度融合是 4o 效果出色的關(guān)鍵。
然而,一張流出的內(nèi)部白板圖(標(biāo)注了Transformer -> Diffusion流程)引發(fā)了對(duì)其“純粹”自回歸的質(zhì)疑,可能采用了混合架構(gòu):即利用 AR 的理解能力生成中間表示,再結(jié)合 Diffusion 的像素生成優(yōu)勢(shì)輸出最終圖像。這種猜測(cè)認(rèn)為4o可能融合了兩條路線的優(yōu)點(diǎn),以規(guī)避各自的短板。不過(guò)也不能排除是OpenAI在故意混淆事實(shí)。
由于沒(méi)有任何技術(shù)報(bào)告,其具體實(shí)現(xiàn)細(xì)節(jié)仍是謎團(tuán),但OpenAI的戰(zhàn)略意圖清晰可見(jiàn):一是將自回歸原則置于下一代多模態(tài)模型圖像生成的核心位置;二是依托其超大規(guī)模的模型為這一切提供算力和智能基礎(chǔ)。 無(wú)論最終的技術(shù)“配方”如何,GPT-4o 都已將自回歸推向了前沿,這很可能會(huì)改變AI圖像生成的未來(lái)發(fā)展方向。
02 中美溫差
GPT-4o圖像生成功的成功,引出了一個(gè)值得關(guān)注的現(xiàn)象:無(wú)論是語(yǔ)言模型還是視頻模型,中國(guó)的企業(yè)追趕迅速,但在尖端圖像生成上,似乎總是美國(guó)公司在前沿“獨(dú)奏”?無(wú)論是從Midjourney到Gemini Image再到4o,在中國(guó)似乎都看不到能與之“對(duì)標(biāo)”的企業(yè)或產(chǎn)品。
我們可以從技術(shù)和商業(yè)兩個(gè)視角來(lái)看待這種“溫差”。技術(shù)上,美國(guó)頂尖公司似乎更傾向于探索和押注如自回歸(AR)等可能帶來(lái)范式革命的新路徑,這或許得益于其在基礎(chǔ)研究上的長(zhǎng)期投入和對(duì)風(fēng)險(xiǎn)的更高容忍度。OpenAI在2020年就推出的自回歸圖像生成模型Image GPT,旨在將自然語(yǔ)言處理中的Transformer架構(gòu)應(yīng)用于圖像生成領(lǐng)域。
而國(guó)內(nèi)力量可能更集中于優(yōu)化成熟的Diffusion路線并快速落地應(yīng)用,這在追趕階段十分有效,但也可能帶來(lái)一定的路徑依賴。同時(shí),頂尖模型所需的算力、高質(zhì)量數(shù)據(jù)和核心算法創(chuàng)新,本身就構(gòu)成了不低的壁壘。有觀點(diǎn)認(rèn)為, Diffusion模型可能已觸及瓶頸,亟待新的突破。
商業(yè)上,市場(chǎng)定位和變現(xiàn)模式也塑造了不同的發(fā)展方向。Midjourney、GPT-4o等似乎更瞄準(zhǔn)對(duì)效果要求極致的專(zhuān)業(yè)用戶或付費(fèi)意愿強(qiáng)的市場(chǎng),追求打造“爆款”工具并直接收費(fèi)。
而中國(guó)龐大的應(yīng)用場(chǎng)景(電商、社交、營(yíng)銷(xiāo)等)或許更看重成本、效率和與現(xiàn)有生態(tài)的融合,促使技術(shù)發(fā)展更偏向工程優(yōu)化和平臺(tái)賦能,而非單一工具的極限探索。不同的資本偏好和生態(tài)整合策略也加劇了這種分野。
當(dāng)然,這并非說(shuō)中國(guó)在生圖領(lǐng)域毫無(wú)建樹(shù)。阿里巴巴、字節(jié)、DeepSeek等公司也在持續(xù)推出有競(jìng)爭(zhēng)力的模型。只是在全球“爆款”層面,暫時(shí)由美國(guó)公司領(lǐng)跑。
歸根結(jié)底,技術(shù)和商業(yè)的合力共同塑造了當(dāng)前的格局。隨著 GPT-4o可能引領(lǐng)的自回歸新浪潮,我們無(wú)疑等不及要看到這個(gè)方向的開(kāi)源進(jìn)展,或是中國(guó)企業(yè)的快速跟進(jìn)與實(shí)現(xiàn)了。
作者|周一笑
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號(hào):【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!