搞AI的是真沒(méi)錢了
MoE 架構(gòu),即混合專家架構(gòu),是神經(jīng)網(wǎng)絡(luò)的一種架構(gòu)模式。先前,有關(guān)MoE 架構(gòu)的認(rèn)知和討論并不算多,但當(dāng)MoE 架構(gòu)可以作為一種降低運(yùn)營(yíng)成本、提升訓(xùn)練效率的架構(gòu)時(shí),它便成了大模型公司的關(guān)注重點(diǎn)之一。
4月5日上午,一個(gè)來(lái)自MIT、普林斯頓等研究機(jī)構(gòu)的華人團(tuán)隊(duì)發(fā)布了自己的大模型 JetMoE ,宣布用 10萬(wàn)美元的訓(xùn)練成本,就可以訓(xùn)練出媲美 LLaMA2 級(jí)別的大模型——后者成本高達(dá)數(shù)十億美元。賈揚(yáng)清第一時(shí)間進(jìn)行了轉(zhuǎn)評(píng)贊,直指其核心在于 MoE 架構(gòu)。
此前,MoE 架構(gòu)始終是一個(gè)位于輿論水面下的大模型技術(shù),人們醉心于大模型的技術(shù)突破,而以吃瓜的心態(tài)看待其背后的成本問(wèn)題。但當(dāng) Stability AI CEO 及核心團(tuán)隊(duì)相繼離職,公司被曝每月運(yùn)營(yíng)成本高達(dá)800萬(wàn)美元以上,完全入不敷出時(shí),大家才真正的認(rèn)識(shí)到:不是中國(guó) AI 圈窮,而是全球 AI 圈都真的沒(méi)錢了——大模型就像個(gè)“碎鈔機(jī)”,無(wú)論硅谷公司,還是中國(guó)公司,都難以承受。
因此,MoE 作為一種可以降低運(yùn)營(yíng)成本、提升訓(xùn)練效率的架構(gòu),驟然成為全世界大模型公司的關(guān)注重點(diǎn)。
去年12月,Mistral AI 發(fā)布 8x7B-MoE 模型,成為全球首個(gè)開(kāi)源的 MoE 大模型;今年 1 月,Minimax 宣布發(fā)布國(guó)內(nèi)首個(gè) MoE 大語(yǔ)言模型 abab6;在接下來(lái)的幾個(gè)月,Google、APUS、達(dá)觀、階躍星辰等企業(yè)以及馬斯克,都紛紛發(fā)布了自己的 MoE 模型??紤]到研發(fā)周期的問(wèn)題,至少在 GPT-4 剛發(fā)布的時(shí)間(2023年3月),有遠(yuǎn)見(jiàn)的公司就已經(jīng)確定了 MoE 的架構(gòu)方向。
即便是 OpenAI ,當(dāng)下對(duì)其 GPT-4 技術(shù)猜測(cè)的主流觀點(diǎn)也認(rèn)為,他們一定采用了 MoE 架構(gòu)。
一、MoE不太省心,但確實(shí)可以降本
MoE 架構(gòu)的中文名稱是混合專家架構(gòu),是神經(jīng)網(wǎng)絡(luò)的一種架構(gòu)模式。它將神經(jīng)網(wǎng)絡(luò)拆分成多個(gè)專家子網(wǎng)絡(luò),面對(duì)一次輸入,既可以指定某一位“專家”來(lái)回答,也可以要求多位“專家”回答,甚至全部參與回答,最終依據(jù)權(quán)重綜合給出結(jié)果。
這使得 MoE 架構(gòu)的可擴(kuò)展性優(yōu)秀,開(kāi)發(fā)者可以在一個(gè)巨型模型上,繼續(xù)增加參數(shù)量,進(jìn)行橫向擴(kuò)展。同時(shí)因?yàn)?MoE 可以選擇只啟用部分專家子模型,也在保持性能的同時(shí),降低了推理成本。另外 MoE 架構(gòu)允許數(shù)據(jù)在多個(gè)專家模型之間進(jìn)行分配和并行處理,因此可以提高模型的訓(xùn)練和推理速度。
聽(tīng)起來(lái)全是優(yōu)點(diǎn),但是 MoE 架構(gòu)的訓(xùn)練難度很大。
一個(gè)最主要的問(wèn)題是,MoE 架構(gòu)很難保證每個(gè)“專家”都能得到充分訓(xùn)練。決定了哪些“專家”,以多大權(quán)重參與回答的核心部件是門控網(wǎng)絡(luò)(Gate Network)。如果門控網(wǎng)絡(luò)傾向于選擇某些特定的“專家”,可能會(huì)導(dǎo)致其他“專家”得不到充分的訓(xùn)練,從而造成訓(xùn)練不穩(wěn)定。而且在MoE架構(gòu)中,不同的“專家”可能會(huì)被分配到不同數(shù)量的輸入樣本。如果某些“專家”被分配的樣本過(guò)多或過(guò)少,可能會(huì)導(dǎo)致負(fù)載不平衡,影響模型的訓(xùn)練效率和最終性能。
但對(duì)于全球 AI 企業(yè),尤其是中國(guó)企業(yè)而言,這已經(jīng)是兩年來(lái)的最好局面了——至少我們可以用軟件技術(shù)解決問(wèn)題,而不是看著芯片和賬戶干著急。
從實(shí)際情況來(lái)看,國(guó)內(nèi) MoE 架構(gòu)的產(chǎn)品進(jìn)展也較為樂(lè)觀。
MiniMax 作為最早發(fā)力 MoE 架構(gòu)的主兒,一直在干悶聲發(fā)大財(cái)?shù)氖聝?,投資人看重的有場(chǎng)景、有客戶等幾個(gè)要點(diǎn),MiniMax 都具備。根據(jù)其官方為數(shù)不多的、對(duì)外透露的信息顯示,金山辦公、小紅書、騰訊、小米、閱文集團(tuán)都是其客戶。盡管這類大客戶很可能同時(shí)采購(gòu)了多個(gè)基礎(chǔ)模型服務(wù),但依然顯示出 MiniMax 進(jìn)展好像不錯(cuò)。今年3月,阿里被曝參與 MiniMax 下一輪融資,領(lǐng)投6億,據(jù)稱紅杉也承諾將參與本輪融資。某種程度上,這也代表著頭部資本對(duì) MoE 這一技術(shù)路線的認(rèn)可。
而就在 4 月 1 日,APUS(麒麟合盛)放出的信息更加露骨地說(shuō)明了這一問(wèn)題——其聯(lián)合新旦智能訓(xùn)練的大模型APUS-xDAN 大模型4.0(MoE)將于近日宣布開(kāi)源。
在早期放出的信息中,APUS 重點(diǎn)提到了兩點(diǎn):
- 參數(shù)規(guī)模為1360億,國(guó)內(nèi)開(kāi)源模型中參數(shù)規(guī)模最大;
- 是國(guó)內(nèi)首個(gè)支持在4090低端算力上訓(xùn)練的千億參數(shù)開(kāi)源大模型;
說(shuō)白了,便于橫向擴(kuò)展,是事實(shí),但可能不是主要因素,物美價(jià)廉,才是核心。
二、不玩MoE,就搞小模型
這種降本的決心貫徹的有多徹底,再看看不搞 MoE 架構(gòu)的廠商就知道了。
面壁智能2月份發(fā)布了自己的端側(cè)模型 Minicam,官方稱該模型以 2B 的尺寸可以超越Mistral-7B,媲美Llama2-13B?;⑿?3 月邀請(qǐng)了面壁智能曾國(guó)洋參與 AI 內(nèi)參會(huì)聊到該模型,曾國(guó)洋表示,現(xiàn)在業(yè)內(nèi)普遍沒(méi)有將小尺寸模型的潛力挖掘干凈,面壁追求的是如何實(shí)現(xiàn)更合理的訓(xùn)練,而不是單純的堆模型參數(shù)量。
從產(chǎn)品定位上來(lái)講,當(dāng)然可以說(shuō)這是做端側(cè)模型的應(yīng)有之義。但從成本價(jià)角度而言,這也是除開(kāi) MoE 架構(gòu)外的又一次降本嘗試。CEO 李大海在面壁的發(fā)布會(huì)上重點(diǎn)聊過(guò)這個(gè)問(wèn)題:成本是大模型的隱形競(jìng)爭(zhēng)力。面壁 MiniCPM 在端側(cè)的部署中,可以支持 CPU 推理,同時(shí)發(fā)布的量化版本,可以做到壓縮 75%,性能基本無(wú)損。如果使用驍龍 855 芯片,成本約 600元人民幣,按照運(yùn)行 5 年計(jì)算,每秒 7.5 tokens,那么 170萬(wàn) tokens 的推理成本需人民幣 1 元。成本為 Mistral-Medium 的百分之一。
小模型這套路能走多遠(yuǎn),是否因?yàn)槎唐诘钠埱?,?dǎo)致在 AGI 層面的發(fā)展繼續(xù)落后?如果之前還存在這個(gè)疑惑,那么 AI PC、AI 手機(jī)熱潮的興起,多少給大家增加了些信心。
盡管現(xiàn)在 AI PC、AI 手機(jī)是噱頭成分居多,真正在 C 端有決定意義的價(jià)值點(diǎn)較少。但這趟列車已經(jīng)綁定了太多的人:高通、英特爾、三星、聯(lián)想……以及一系列基礎(chǔ)模型廠商、模型中間件廠商。某種意義上,這是“元宇宙 Plus”版的概念列車,必須找到終點(diǎn),也必須駛到終點(diǎn)。與當(dāng)年元宇宙的情況不同的是,大模型當(dāng)下的技術(shù)發(fā)展曲線,仍在陡峭上升中——
至少在 GPT-5 發(fā)布前,所有的商業(yè)故事,都會(huì)如約講下去。
作者:王一鵬;出品:虎嗅科技組
來(lái)源公眾號(hào):虎嗅APP(ID:huxiu_com),從思考,到創(chuàng)造
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @虎嗅 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!