“算力崩塌”,是真是假
DeepSeek 的出現(xiàn),以其極低的開發(fā)成本和高效的性能,引發(fā)了全球?qū)?AI 算力需求的重新思考。本文將深入探討 DeepSeek 如何通過創(chuàng)新的模型架構(gòu)和訓(xùn)練方法,顛覆了傳統(tǒng)的“大力出奇跡”的大模型性能提升路徑,并對全球算力需求預(yù)期產(chǎn)生了重大影響。
DeepSeek的開發(fā)成本極低,開源、服務(wù)完全免費,這讓山姆·奧特曼和其他AI人工智能的從業(yè)者“印象深刻”,讓世界首富馬斯克破防,讓瑞·達(dá)利歐對美股深感擔(dān)憂。
知名投資人“木頭姐” 凱茜·伍德甚至直言:DeepSeek加劇了人工智能的成本崩潰。
“神秘的東方力量”讓全世界為之側(cè)目,也引發(fā)了中美AI領(lǐng)導(dǎo)地位更替的思考。不過,對于算力進(jìn)行重新判斷,可能仍然為時尚早。
當(dāng)前,我國AI算力部署占全球算力基礎(chǔ)設(shè)施的26%,名列世界第二。在“算力即國力”的思潮下,東數(shù)西算等數(shù)字基礎(chǔ)設(shè)施工程正積極進(jìn)行。
DeepSeek顛覆了固有的“大力出奇跡”的大模型性能提升路徑,短期內(nèi)對算力需求預(yù)期會出現(xiàn)大幅下降。但長期來看,算力部署仍然有大規(guī)模需求擴(kuò)張作的基礎(chǔ)。
正在進(jìn)行的超大規(guī)模算力投資,對于中國科技產(chǎn)業(yè)來說,仍是一筆巨大的財富。Deepseek帶來的對算力成本的大幅節(jié)省,與如今中國大規(guī)模投入的算力基礎(chǔ)設(shè)施建設(shè)并不沖突。
本文是來自公眾號《巨潮WAVE》內(nèi)容團(tuán)隊的深度價值文章。
一、顛覆
DeepSeek的顛覆性創(chuàng)新,在于極致的效率革命。它僅用不到OpenAI十分之一的成本,就達(dá)到了后者最新大模型的性能。
1月20日,DeepSeek 正式發(fā)布DeepSeek-R1模型系列,大模型排行榜Chatbot Arena上,DeepSeek- R1的基準(zhǔn)測試排名已升至全類別第三,與ChatGPT-4o最新版并駕齊驅(qū),并在風(fēng)格控制類模型分類中與OpenAI-o1并列頭名。
R1模型雖未公布訓(xùn)練成本,但據(jù)DeepSeekV3技術(shù)報告,V3模型的訓(xùn)練總計只需要278.8萬GPU小時,相當(dāng)于在2048塊H800 (英偉達(dá)特供中國市場的低配版GPU)集群上訓(xùn)練約2個月,合計成本僅557.6萬美金。
有傳言,R1模型的訓(xùn)練成本基本相當(dāng),但參數(shù)規(guī)模達(dá)到驚人的6710億,這些數(shù)據(jù)都足夠令外界震驚。
作為對比,GPT-4o模型的訓(xùn)練成本約為1億美元,需要英偉達(dá)GPU量級在萬塊以上,且是比H800性能更強(qiáng)的H100。
同樣是開源模式的Meta Llama 3 系列模型,其訓(xùn)練需要多達(dá)3930萬H100 GPU小時,DeepSeek的訓(xùn)練成本約相當(dāng)于Llama 3的7%。也有AI大佬表示過,僅DeepSeek-V3級別的能力就需要接近16000顆GPU的集群。
也就是說,這家中國初創(chuàng)AI公司僅用不到十分之一的成本,就達(dá)到了世界一流水平。
這種顛覆性的成本優(yōu)勢,極有可能改變過往“高投入、高算力”的研發(fā)路徑,市場對算力硬件需求持續(xù)高增長的預(yù)期或產(chǎn)生動搖。
“四兩撥千斤”的能力源于其自研的MLA和MOE架構(gòu),為其自身的模型訓(xùn)練成本下降起到了關(guān)鍵作用。
此外,R1模型使用數(shù)據(jù)蒸餾技術(shù)(Distillation),通過一系列算法和策略,將原始復(fù)雜的數(shù)據(jù)進(jìn)行去噪、降維、提煉,從而得到更為精煉、更為有用的數(shù)據(jù),提升訓(xùn)練效率。
模型蒸餾可以通過訓(xùn)練小型模型模仿大型模型,廣泛應(yīng)用于提高AI效率與降低成本。比喻來說,DeepSeek相當(dāng)于通過更高效的學(xué)習(xí)方法獲得了優(yōu)異分?jǐn)?shù),而OpenAI還在搞題海戰(zhàn)術(shù)。
關(guān)于“蒸餾技術(shù)”網(wǎng)絡(luò)上出現(xiàn)了一些爭議
OpenAI的訓(xùn)練非常依賴人工,其數(shù)據(jù)團(tuán)隊甚至分為不同水平的部門,大量數(shù)據(jù)標(biāo)注還要轉(zhuǎn)交給肯尼亞等廉價外包勞工,高維數(shù)據(jù)還需更高素質(zhì)的專業(yè)人員進(jìn)行標(biāo)注,這些都是成本。
近期OpenAI和一些輿論也在公開指責(zé)DeepSeek團(tuán)隊通過“模型蒸餾”技術(shù)“違規(guī)復(fù)制”其產(chǎn)品功能,但始終未提供具體證據(jù)。
而且“數(shù)據(jù)越多性能越強(qiáng)”屬于慣性固有思維,因為數(shù)據(jù)量越多,其中的干擾也將隨之變大,在此之前,市場上已經(jīng)有“人工智能變蠢了”的討論出現(xiàn)。
也就是說,如何對數(shù)據(jù)進(jìn)行清洗和精煉,同樣是提升模型能力的關(guān)鍵。通過創(chuàng)新訓(xùn)練方法,DeepSeek改變了堆砌算力的共識。
正如創(chuàng)始人梁文鋒所說:“我們想去驗證一些猜想?!?/p>
二、改寫
半導(dǎo)體領(lǐng)域普遍遵循摩爾定律,AGI行業(yè)則是沿著Scaling Law(模型規(guī)模定律)向前演進(jìn)。
Scaling Law被業(yè)界認(rèn)為是大模型訓(xùn)練的“第一性原理”,模型性能與規(guī)模(參數(shù)量、數(shù)據(jù)大小、算力資源)呈正相關(guān)——參數(shù)越多、計算資源越大,模型的性能就越強(qiáng)。
好比一個中學(xué)生,給他提供更豐富的學(xué)習(xí)資料、更長的學(xué)習(xí)時間和更好的學(xué)習(xí)環(huán)境,他的學(xué)習(xí)成績普遍會更好。
此次AI浪潮正是以Scaling law為底層邏輯的技術(shù)革命,但DeepSeek的出現(xiàn)打破了這一定律,或者至少讓Scaling law的邊際效益出現(xiàn)放緩的跡象。
這帶給業(yè)界的啟示是,人工智能產(chǎn)業(yè)將不再一味追求大規(guī)模算力的投入,而是在模型架構(gòu)和工程優(yōu)化結(jié)合上進(jìn)行突破。粗放式的瘋狂投入發(fā)展階段逐步退潮,AI創(chuàng)新進(jìn)入追求效率,追求模型架構(gòu)設(shè)計、工程優(yōu)化全新階段。
正如達(dá)摩院首席科學(xué)家趙德麗所認(rèn)為的,大模型可以看成是知識的壓縮,怎么利用知識產(chǎn)生更好的智能,就是基于基礎(chǔ)模型的思維推理必然發(fā)展的方向。
如微軟rStar-Math無需蒸餾,用60塊A100訓(xùn)練的7B模型在數(shù)學(xué)推理上可媲美 OpenAI-o1;上海 AI 實驗室的書生·浦語3.0,僅使用4T數(shù)據(jù)進(jìn)行訓(xùn)練,綜合性能超過了同量級的開源模型,而且訓(xùn)練成本降低了75%以上。?
DeepSeek帶來的“范式轉(zhuǎn)移”,不僅破除了科技大廠建立的技術(shù)領(lǐng)先壁壘,同時還打破了重資本比拼的游戲慣例。而且它不僅開源,而且還免費。
作為回應(yīng),OpenAI緊急上線新一代推理模型o3系列的mini版本,并且首次免費向用戶開放其基礎(chǔ)功能。奧特曼承認(rèn),“我個人認(rèn)為,在(開閉源)這個問題上我們站在了歷史的錯誤一方,需要找出一個不同的開源策略?!?/p>
效率優(yōu)化策略,無疑給互聯(lián)網(wǎng)大廠們的超級愿景潑了一盆冷水。
字節(jié)跳動2024年在AI賽道的資本開支就高達(dá)800億元,接近BAT的總和;微軟、谷歌、亞馬遜、Meta、蘋果五巨頭合計資本開支2253億美元,2025年有望繼續(xù)增長19.6%。其中,單是微軟就計劃在2025財年砸下800億美元,用于建設(shè)人工智能數(shù)據(jù)中心。
就在DeepSeek-R1模型發(fā)布兩天后,美國政府就聯(lián)合OpenAI、軟銀、甲骨文等啟動“星際之門”項目,計劃在未來四年內(nèi)最高投資5000億美元。孫正義還宣布要給OpenAI投資250億美元,巨頭們期望通過“軍備競賽”,維持自身在AI領(lǐng)域的全球領(lǐng)導(dǎo)地位。
此前,美國大廠為GPT-5、Llama4等下一代模型正使盡全力補(bǔ)充算力,奧特曼甚至一度去找到中東巨富,計劃籌集7萬億美金建設(shè)一座超級數(shù)據(jù)中心和芯片制造廠。
DeepSeek的出現(xiàn),改變了這種超大規(guī)模擴(kuò)張算力的行業(yè)發(fā)展“固定路徑”,但同時也出現(xiàn)了一種應(yīng)該徹底放棄算力建設(shè)的聲音。
三、過剩?
國家算力戰(zhàn)略部署的復(fù)雜性,顯然會超過一般輿論討論所得出的結(jié)論。尤其是,我國算力基礎(chǔ)設(shè)施目前仍處于初步搭建階段,還遠(yuǎn)未到過剩狀態(tài)。
一方面,隨著訪問量急速飆升,用戶蜂擁而至,DeepSeek深度思考和聯(lián)網(wǎng)搜索功能也出現(xiàn)了宕機(jī)情況。DeepSeek移動應(yīng)用上線僅18天就迎來了1600萬次下載,幾乎是ChatGPT同期的兩倍,更是成為全球140個市場中下載量最高的APP。
另一方面,需要注意的是,DeepSeek目前僅支持文字問答、讀圖、讀文檔等功能,還未涉及圖片、音頻和視頻生成領(lǐng)域,未來要想突破文本范疇,其對算力和前期訓(xùn)練成本的投入都將呈幾何級飆升。
對于其他追隨DeepSeek的大模型公司來說情況也是類似,隨著用戶的增長和產(chǎn)品線的不斷豐富,最終都需要不斷擴(kuò)張算力。目前國內(nèi)各大投資機(jī)構(gòu)都在“瘋狂對接”DeepSeek,顯然是對此有非常清晰的判斷。
百度CTO王海峰就認(rèn)為,規(guī)模定律(Scaling Law)仍然有效,更高質(zhì)量更大規(guī)模的數(shù)據(jù)、更大的模型將會帶來更強(qiáng)的能力。
目前算力建設(shè)已成為國家級戰(zhàn)略。2024年《政府工作報告》中就明確提出,適度超前建設(shè)數(shù)字基礎(chǔ)設(shè)施,加快形成全國一體化算力體系。根據(jù)《中國綜合算力指數(shù)(2024年)》報告,截至2023年末,我國算力基礎(chǔ)設(shè)施規(guī)模占全球的26%,名列第二,僅次于美國。
工信部數(shù)據(jù)顯示,截至2024年9月,我國算力總規(guī)模246EFLOPS(每秒進(jìn)行百億億次浮點運算的能力),在用算力中心機(jī)架總規(guī)模超過830萬標(biāo)準(zhǔn)機(jī)架。
此前,六部門聯(lián)合印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》,其中指出到2025年,我國算力規(guī)模將達(dá)到300EFLOPS,智能算力占比要達(dá)到35%。
“東數(shù)西算”工程早在2021年5月就已啟動,京津冀、長三角、粵港澳大灣區(qū)、成渝、貴州、內(nèi)蒙古、甘肅、寧夏八大樞紐和10大集群雛形已現(xiàn)。
國內(nèi)已建、正在建設(shè)的智算中心超過250個,規(guī)劃具有超萬張GPU集群的智算中心已有十多個,國產(chǎn)芯片廠商也因此受到極大關(guān)注。華為昇騰910B、寒武紀(jì)思元590、百度昆倉芯II-R200、海光信息深算二號,加上中芯國際,共同形成了對抗英偉達(dá)、AMD的中國軍團(tuán)。
這些大規(guī)模部署和研發(fā)投入,都具有歷史性的戰(zhàn)略意義,是人工智能時代的重要社會財富。
四、寫在最后
用低成本開發(fā)出優(yōu)質(zhì)產(chǎn)品,是中國在資源匱乏的歷史條件下,實現(xiàn)工業(yè)現(xiàn)代化的獨特文化,而美國則擅長所謂的“范佛里特彈藥量”,倚仗超大規(guī)模投入獲得超級領(lǐng)先地位。
在當(dāng)前的世界經(jīng)濟(jì)格局中,中國家電、光伏等制造業(yè)基本都是以高性價比策略取勝,DeepSeek的成功,也是在另一個領(lǐng)域中體現(xiàn)出了中國智慧、巧思和韌性。
中美AI拉鋸的混戰(zhàn)中,原先還處在追趕階段的中國企業(yè),突然以一種領(lǐng)先或顛覆者的身份出現(xiàn),讓全球科技界大為吃驚。但我們?nèi)孕枰3掷潇o和謙遜的心態(tài)。
就像梁文鋒所說的:在美國每天發(fā)生的大量創(chuàng)新里,這是非常普通的一個。他們之所以驚訝,是因為這是一個中國公司,以創(chuàng)新貢獻(xiàn)者的身份,加入到他們的游戲里去。
也正因如此,算力基礎(chǔ)設(shè)施仍是一種人工智能時代不可或缺的創(chuàng)新土壤、社會資源。
文 | 謝澤鋒 編輯 | 楊旭然
本文由人人都是產(chǎn)品經(jīng)理作者【巨潮WAVE】,微信公眾號:【巨潮WAVE】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!