誰(shuí)卡住了中國(guó)GPT的“脖子”?
芯片算力在AI大模型訓(xùn)練上非常重要,但它只是一個(gè)起點(diǎn),圍繞著芯片的算力是一個(gè)巨大而復(fù)雜的系統(tǒng)。在ChatGPT的熱鬧表象下,算力正在成為生成式AI大模型發(fā)展最大的桎梏。中國(guó)算力的難題,該如何攻克?
“百度幾乎將整個(gè)集團(tuán)所有的A100都調(diào)給了文心一言?!?/p>
2月份百度“沖刺”文心一言時(shí),一位接近百度的人士對(duì)「自象限」描述了當(dāng)時(shí)的激烈戰(zhàn)況。
當(dāng)然,在大模型訓(xùn)練上,不止百度“勒緊了腰帶”。即使是微軟,在AI大模型初始期算力上也并不寬裕。2023年3月中旬,微軟發(fā)文透露:曾斥資數(shù)億美元,使用了數(shù)萬(wàn)個(gè)英偉達(dá)A100芯片幫助OpenAI組裝了一臺(tái)AI超級(jí)計(jì)算機(jī)。
兩個(gè)現(xiàn)象表現(xiàn)了算力在AI大模型訓(xùn)練上的重要性,作為AI大模型的三要素的之一,在芯片發(fā)展受限的背景下,許多人將中國(guó)AI大模型的薄弱和短板粗暴歸結(jié)于中國(guó)芯片的不足。
但實(shí)際上,芯片算力只是整個(gè)AI大模型的訓(xùn)練的一個(gè)起點(diǎn),圍繞著芯片的算力是一個(gè)巨大而復(fù)雜的系統(tǒng)。
除了不同芯片的架構(gòu)和設(shè)計(jì),還有建立在芯片之上的軟件開(kāi)發(fā)系統(tǒng),和云的計(jì)算存儲(chǔ)資源,以及圍繞這兩者工具和平臺(tái)。
如果說(shuō)ChatGPT這把火已經(jīng)燎原,那算力,就是點(diǎn)燃它的火種。
但在熱鬧表象下面,算力正在成為生成式AI大模型發(fā)展最大的桎梏,這種桎梏表現(xiàn)在許多方面,從我們所熟知的芯片性能的不足,再到芯片開(kāi)發(fā)操作系統(tǒng)的視野盲區(qū),甚至是對(duì)云計(jì)算底層的重構(gòu),都成為了即將要攻克的關(guān)鍵問(wèn)題。
01 “泛而不強(qiáng)”的中國(guó)芯片
面對(duì)中國(guó)算力短缺的問(wèn)題,更多人是“知其然不知所以然”,本質(zhì)是因?yàn)檎麄€(gè)算力體系相當(dāng)復(fù)雜,而芯片只是中間最重要的一部分。
通常來(lái)講,我們說(shuō)的算力包含三部分,即基礎(chǔ)算力、智能算力和超算算力,而AI大模型主要依靠的是智能算力。
所謂智能算力,就是由GPGPU、FPGA、ASIC這樣可以加速AI計(jì)算的芯片組成的服務(wù)器平臺(tái)提供的算力,它們負(fù)責(zé)大模型的訓(xùn)練和推理。據(jù)IDC數(shù)據(jù),2021年中國(guó)人工智能服務(wù)器工作負(fù)載中,57.6%的負(fù)載用于推理,42.4%用于模型訓(xùn)練。
▲圖源:信達(dá)證券研報(bào)
雖然可以提供的智能算力的芯片有三類,但GPGPU其實(shí)占了目前主流市場(chǎng)90%的份額,剩下的10%才是FPGA、ASIC之類的產(chǎn)品。
GPU市場(chǎng)份額更大在于其通用化。
梳理中國(guó)算力的發(fā)展脈絡(luò),大致趨勢(shì)可以以深度學(xué)習(xí)和大模型為節(jié)點(diǎn)劃分為三個(gè)階段,包括前深度學(xué)習(xí)時(shí)代,深度學(xué)習(xí)時(shí)代和大模型時(shí)代。2015年,以AlphaGo為節(jié)點(diǎn),算力進(jìn)入大模型時(shí)代。
在大模型時(shí)代之前,人臉識(shí)別、語(yǔ)音識(shí)別還是AI的主要應(yīng)用場(chǎng)景。這個(gè)階段大多數(shù)訓(xùn)練就已經(jīng)是基于GPGPU來(lái)實(shí)現(xiàn)的了,也因此GPGPU形成了目前最為成熟、完備的軟件生態(tài)。由于其芯片特點(diǎn),GPGPU的通用性也更強(qiáng),架構(gòu)也更適合AI大模型的訓(xùn)練和部署。
而相應(yīng)的,作為定制化和半定制化的FPGA 和 ASIC ,就只能應(yīng)用在一些針對(duì)性的垂類領(lǐng)域。因此它們對(duì)模型的成熟度、對(duì)企業(yè)的模型研究深度都有更高的要求。
簡(jiǎn)單來(lái)講,通用型的GPGPU適合剛?cè)腴T(mén)的小白和資深大牛在內(nèi)的所有人,而FPGA 和 ASIC作為定制款就只適合真正有經(jīng)驗(yàn)的“玩家”。當(dāng)然,通過(guò)這樣的定制化之后,F(xiàn)PGA 和 ASIC芯片的產(chǎn)品和解決方案也有更高的性價(jià)比。
在應(yīng)用場(chǎng)景的基礎(chǔ)上,芯片的應(yīng)用在AI大模型的訓(xùn)練上又分為訓(xùn)練和推理兩個(gè)具體的環(huán)節(jié)。目前能夠運(yùn)行大模型訓(xùn)練的只有GPGPU,具有代表性的芯片就是英偉達(dá)的A100、A800、H100、H800。
但這類芯片目前國(guó)內(nèi)的儲(chǔ)備并不多。據(jù)「財(cái)經(jīng)十一人」報(bào)道,國(guó)內(nèi)目前擁有超1萬(wàn)枚GPU的企業(yè)不超過(guò)5家,其中擁有1萬(wàn)枚英偉達(dá)A100芯片的最多只有一家。另有消息提到,目前騰訊、字節(jié)、百度英偉達(dá)A100的存量都不超過(guò)2000枚,阿里的存量大約能過(guò)萬(wàn),而更多公司都只能采用英偉達(dá)的中低端性能產(chǎn)品。
事實(shí)上也是如此,自A100和H100被禁止之后,中國(guó)企業(yè)就已經(jīng)將目光放到了它的替代品A800和H800上了。目前,國(guó)內(nèi)幾家頭部互聯(lián)網(wǎng)企業(yè)都向英偉達(dá)下了1.5萬(wàn)~1.6萬(wàn)左右的A800和H800訂單,涉及金額大概在十億美金左右。
當(dāng)然,國(guó)內(nèi)其實(shí)也有自己的AI芯片,甚至在上一個(gè)國(guó)產(chǎn)芯片風(fēng)口中起來(lái)的大多數(shù)有名有姓的企業(yè)做的都是應(yīng)用在云端的AI芯片。
比如壁仞科技、燧原科技、天數(shù)智芯、寒武紀(jì)等等,都有自己的GPU產(chǎn)品,甚至部分產(chǎn)品的理論指標(biāo)都不錯(cuò)。
比如寒武紀(jì)最好的產(chǎn)品思元270,在硬件指標(biāo)上大概就能接近英偉達(dá)的A100,而且價(jià)格比A100還低,百度在訓(xùn)練文心一言時(shí)就小規(guī)模的部署了一些。
而之所以沒(méi)有實(shí)現(xiàn)大規(guī)模部署,原因其實(shí)有兩方面,一個(gè)是寒武紀(jì)的這款芯片智能運(yùn)行大模型的推理部分,即它并不是一個(gè)通用的GPU。而另一方面在于,寒武紀(jì)目前還不具備大規(guī)模部署的能力。
這種大規(guī)模部署的能力具體又分為兩點(diǎn),一個(gè)是其供應(yīng)鏈?zhǔn)欠衲軌蛑纹鹦酒拇笠?guī)模出貨,畢竟一旦大規(guī)模部署,一個(gè)公司的需求就是上萬(wàn)枚。而另一個(gè)關(guān)鍵點(diǎn)在于,當(dāng)大規(guī)模出貨之后,寒武紀(jì)還需要為客戶配備大量的人力配合開(kāi)發(fā),而寒武紀(jì)在這方面目前也有沒(méi)大力推動(dòng)的意愿。
而除了國(guó)內(nèi)領(lǐng)先的半導(dǎo)體公司之外,國(guó)內(nèi)芯片的整體水平還是比較低的,有業(yè)內(nèi)資深專家表示:“目前國(guó)產(chǎn)芯片的性能整體在英偉達(dá)的30%左右?!?/p>
AI大模型的訓(xùn)練要求芯片能夠處理高顆粒度的信息。但目前國(guó)產(chǎn)GPU大多對(duì)信息處理的顆粒度不高,還不具備支撐大模型訓(xùn)練所需的能力。
另一方面,目前的國(guó)產(chǎn)GPU大多只能處理單精度的的浮點(diǎn)運(yùn)算,比如壁仞科技BR100、天數(shù)智芯的智鎧100,以及面提到的寒武紀(jì)思元270等等,它們?cè)贔P32的理論指標(biāo)上做得不錯(cuò),但沒(méi)有處理FP64的能力。
目前從公開(kāi)信息來(lái)看,國(guó)內(nèi)唯一能支持FP64雙精度浮點(diǎn)運(yùn)算的只有海光推出的DCU深算一號(hào),但它性能只有A100的60%左右。
除了這些專業(yè)做芯片的半導(dǎo)體公司之外,國(guó)內(nèi)的互聯(lián)網(wǎng)大廠也幾乎都有自己的AI芯片。
比如阿里在2019年發(fā)布的含光800,百度在2020年發(fā)布的昆侖芯,騰訊在2021年發(fā)布的紫霄,以及華為的昇騰系列等等。
但這些大廠的AI芯片大多也都屬于的定制版本,在應(yīng)用上也面臨諸多限制。
除了前面提到寒武紀(jì)的芯片只能用在推理之外,華為的昇騰通用性也很差,它只能應(yīng)用在MindSpore這類華為自己的開(kāi)發(fā)框架下,以及他們優(yōu)化好的大模型上。任何公開(kāi)的模型都必須經(jīng)過(guò)華為的深度優(yōu)化才能在華為的平臺(tái)上運(yùn)行。
當(dāng)然華為也有自己的優(yōu)勢(shì),即昇騰芯片涉及的所有IP都是買斷的,不會(huì)存在技術(shù)被卡脖子的問(wèn)題。同時(shí)華為圍繞自己的AI大模型和芯片建立了一系列的算法和軟件,實(shí)現(xiàn)了自己的閉環(huán)。
整體上,從芯片的角度國(guó)產(chǎn)算力的長(zhǎng)征才剛剛開(kāi)始,我們?cè)诓糠旨?xì)分領(lǐng)域?qū)崿F(xiàn)了一定的程度的國(guó)產(chǎn)替代,但仍然無(wú)法實(shí)現(xiàn)更多環(huán)節(jié)存在性能不足和算力漏洞。
而隨著大模型的發(fā)展越來(lái)越熱,市場(chǎng)對(duì)算力的需求仍將呈指數(shù)級(jí)上升,國(guó)產(chǎn)芯片廠商既要解決算力問(wèn)題,還要解決軟件生態(tài)和工具的問(wèn)題,難度可想而知,但市場(chǎng)留給我們時(shí)間卻不多了。
02 云 for AI有戲,AI for 云差千里
縱然“云智一體”已經(jīng)成為了討論的前提,在眾多關(guān)于云與智能關(guān)系的論調(diào)中,無(wú)非是云計(jì)算巨大的存儲(chǔ)和計(jì)算空間,能夠幫助大模型訓(xùn)練大幅度降低成本。
但這卻并不足以道出其中乾坤。
用一個(gè)形象的比喻,云與AI就像是新能源與自動(dòng)駕駛的關(guān)系。傳統(tǒng)燃油車的架構(gòu)復(fù)雜,在智能化改造方面,并沒(méi)有足夠的空間去安裝攝像頭、激光雷達(dá)和芯片,只有在新能源車簡(jiǎn)化了發(fā)動(dòng)機(jī)系統(tǒng)和整車架構(gòu)的前提下,才使得自動(dòng)駕駛硬件和軟件有接入的空間,并以智能化為目標(biāo)重塑整車結(jié)構(gòu)。當(dāng)下新能源與智能化如同一對(duì)雙生子,同步向前邁進(jìn)。
同理,在傳統(tǒng)的存儲(chǔ)和計(jì)算架構(gòu)中,并沒(méi)有那么強(qiáng)的彈性和空間,能夠適應(yīng)AI訓(xùn)練過(guò)程中的變化和應(yīng)用,用傳統(tǒng)服務(wù)器和存儲(chǔ)結(jié)構(gòu)訓(xùn)練大模型,簡(jiǎn)直是用諾基亞手機(jī)玩原神。而云計(jì)算的存在,既保證了快速響應(yīng)、快速變化的空間,連接了底層硬件和上層應(yīng)用,同時(shí)也給了大模型訓(xùn)練更強(qiáng)的算力支撐,可以說(shuō),沒(méi)有云,就不會(huì)有大模型。
▲圖源浙江證券股份有限公司
從2012年開(kāi)始,中國(guó)以阿里云為“帶頭大哥”開(kāi)始了一段云計(jì)算的征程。10年過(guò)去了,在全球排名上,阿里云已經(jīng)僅次于亞馬遜AWS和微軟Azure,排在世界第三的位置,在基礎(chǔ)設(shè)施的建設(shè)和算力準(zhǔn)備上,可以說(shuō)中美并沒(méi)有拉開(kāi)太大差距,這也是為什么,在《ChatGPT啟示錄系列|萬(wàn)字長(zhǎng)文解碼全球AI大模型現(xiàn)狀》一文中,我們強(qiáng)調(diào)中國(guó)在大模型上有一定的底氣,而日本錯(cuò)過(guò)了云時(shí)代,也就錯(cuò)過(guò)了AI。
但在多模態(tài)大模型和AIGC的進(jìn)一步推動(dòng)下,對(duì)云計(jì)算能力提出了新的要求。AIGC需要多模態(tài)數(shù)據(jù)和強(qiáng)大的模型,包括不限于時(shí)序、文檔、寬表、結(jié)構(gòu)化、非結(jié)構(gòu)化、圖片數(shù)據(jù)等,還要將各類數(shù)據(jù)融合在一起,提供存儲(chǔ)、使用能力和推理能力,這是中國(guó)云廠商將要面臨的新挑戰(zhàn)。
不過(guò),云 for AI 解決的仍然是發(fā)電問(wèn)題,AI for 云解決的才是發(fā)電效率的問(wèn)題。前者的重點(diǎn)在于“車能不能跑起來(lái)”,而后者的重點(diǎn)在于“車能跑的多快”。
這來(lái)自于AI對(duì)云計(jì)算底層架構(gòu)的改造。
以基礎(chǔ)軟件中,國(guó)內(nèi)跑的最快的數(shù)據(jù)庫(kù)為例。在阿里云瑤池?cái)?shù)據(jù)庫(kù)峰會(huì)上,李飛飛不斷強(qiáng)調(diào)“智能化是未來(lái)云原生數(shù)據(jù)庫(kù)發(fā)展的動(dòng)力”。用智能化的技術(shù)接入數(shù)據(jù)庫(kù)的運(yùn)維,比如異常檢測(cè)、HA切換、參數(shù)調(diào)參等等。
異常檢測(cè)場(chǎng)景的智能化可能要更為容易理解,假設(shè)該數(shù)據(jù)庫(kù)存在10張表格,按列分布,非智能化數(shù)據(jù)庫(kù)(包括傳統(tǒng)數(shù)據(jù)庫(kù)和云原生數(shù)據(jù)庫(kù))的檢測(cè)模式,需要將這10張表逐列檢測(cè),最終定位故障點(diǎn)。而分布式則可以將10張表拆開(kāi)同時(shí)檢測(cè),用一張表的時(shí)間跑完十張表,提高檢測(cè)效率。但智能化數(shù)據(jù)庫(kù)則可以通過(guò)引入AI能力,制定檢測(cè)標(biāo)準(zhǔn),精準(zhǔn)定位、精準(zhǔn)打擊,將檢測(cè)時(shí)間從10分鐘縮短到幾秒。
這不僅需要強(qiáng)大的AI能力,也是不斷測(cè)試不斷優(yōu)化模型的結(jié)果,最終讓云成為智能云。
帶這個(gè)思考重新看“2019年,微軟Azure花10億美元買斷OpenAI成為其獨(dú)家供應(yīng)商”,就更加感嘆納德拉的老奸巨猾。一方面,Azure成為OpenAI的獨(dú)家供應(yīng)商后,所有基于ChatGPT和GPT4的MaaS(模型即服務(wù))服務(wù)都長(zhǎng)在Azure上,這將為Azure快速獲得市場(chǎng)份額,甚至有反超AWS的可能。另一方面,OpenAI通過(guò)Azure訓(xùn)練自己的AI大模型,也快速、高強(qiáng)度打磨了Azure的智能化能力,目前Azure是全球排名第一的智能云。
微軟負(fù)責(zé)云計(jì)算和AI業(yè)務(wù)的執(zhí)行副總裁斯科特·格思里(Scott Guthrie)在接受采訪時(shí)說(shuō):“我們并沒(méi)有為OpenAI定制任何東西,盡管其最初是定制的,但我們總是以一種泛化的方式構(gòu)建它,這樣任何想要訓(xùn)練大型語(yǔ)言模型的人都可以利用同樣的改進(jìn)技術(shù)。這真的幫助我們?cè)诟鼜V泛的范圍內(nèi)成為更好的AI智能云。”
目前,微軟已經(jīng)在努力使Azure的AI功能變得更加強(qiáng)大,推出了新的虛擬機(jī),使用英偉達(dá)的H100和A100 Tensor Core GPU,以及Quantum-2 InfiniBand網(wǎng)絡(luò)。微軟表示,這將允許OpenAI和其他依賴Azure的公司訓(xùn)練更大、更復(fù)雜的AI模型。
反觀國(guó)內(nèi)智能云隊(duì)伍,僅有百度智能云獨(dú)自站在冷風(fēng)里吆喝了幾年,但在「自象限」看來(lái),百度智能云離真正的智能云還相差甚遠(yuǎn)。百度云的“智能”在于通過(guò)云服務(wù)提供AI能力,比如推薦算法、人臉識(shí)別,但這只是服務(wù)內(nèi)容的不同,換湯沒(méi)換藥。
不過(guò)從李彥宏近期的發(fā)言來(lái)看,似乎也想明白了“進(jìn)化”的方向,但可以肯定的是,中國(guó)智能云的故事不會(huì)只有百度一家,阿里騰訊華為的動(dòng)作也都在鎂光燈下。
「自象限」根據(jù)公開(kāi)信息了解到,4月11日,阿里云峰會(huì)中阿里巴巴董事局兼主席張勇出席,或?qū)⒃跁?huì)上正式推出阿里大模型,接下來(lái)還有各類行業(yè)應(yīng)用模型面世;4月18日,在火山引擎原動(dòng)力大會(huì)中,字節(jié)跳動(dòng)副總裁、火山引擎業(yè)務(wù)負(fù)責(zé)人楊震原的出現(xiàn),也讓業(yè)內(nèi)不少人士期待和推測(cè),是否會(huì)發(fā)布字節(jié)跳動(dòng)的大模型。
然而無(wú)論是技術(shù)驅(qū)動(dòng)還是市場(chǎng)驅(qū)動(dòng),一方面在硬件算力上持續(xù)突破,另一方面在軟件算力方向試圖彎道超車,在算力長(zhǎng)征路上,中國(guó)要補(bǔ)的課、要打的仗都還很多。
作者:羅輯 程心,編輯:莊顏;公眾號(hào):自象限(ID:zixiangxian)
本文由@自象限 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
如果能把芯片參數(shù)及其能力做個(gè)表格的話,讀起來(lái)會(huì)更直觀&有幫助!
我傻了。。。想刪評(píng)論刪不掉,話說(shuō)網(wǎng)站沒(méi)人維護(hù)了嗎