追求模型效率極限,或是中國大模型的商業(yè)化答案

0 評論 1865 瀏覽 2 收藏 10 分鐘

“中國大模型商業(yè)化之路,效率驅動新篇?!?在人工智能領域,中國大模型如何突破困境實現(xiàn)商業(yè)化?DeepSeek - v3 模型的出現(xiàn)又帶來了哪些啟示?

上周末,Deep Seek-v3徹底火了。

很多人都把關注點放到訓練成本下降帶來的算力需求降低。

但在烏鴉君看來,這事最重要的意義并不在于算力多少,而是印證了一件事:

中國廠商有能力去探索模型效率的極限能力。

這代表著另一種商業(yè)可能性。

當中國大模型在訓練層面臨技術封鎖,不設預算上限的情況下去做突破性研究,變成一件極為困難的事情。如果能在好、快、便宜和可靠性之間找出最優(yōu)解,中國的科技公司便很有機會在AI應用大規(guī)模落地的過程中建立良性的商業(yè)循環(huán)。

過去十年間,中美分別以不同的方式完成了社會經濟的數字化,一個靠消費互聯(lián)網,一個靠SaaS。

如今,這樣的故事將在AI領域重演。

美國押注模型能力提升,中國追求模型效率的極限,中美將再次以不同的方式邁向人工智能的時代。

01 算力被“錯殺“了?

上周五,算力板塊大跌。

起因是幻方量化發(fā)了一個新模型,叫Deep Seek-v3。這個模型的性能接近GPT-4o和Claude-3.5-Sonnet等閉源模型,但訓練成本卻只有同性能模型的十分之一。

據說,Deep Seek-v3大模型只用了2048張H800顯卡,2個月不到時間訓練完畢,計算預算只有不到600萬美元。而Llama 3.1 405B使用1.6萬H100訓練了80天。

DeepSeek V3的出現(xiàn),讓很多人出現(xiàn)了一個疑問——算力需求是不是被高估了?其實并非如此。

第一,很多人對DeepSeek V3的訓練成本存在誤解。

作為一個后發(fā)模型,DeepSeek V3可以避開前人走的坑,或者用更高效方式避坑,也就是“站在巨人的肩膀上”。

這就好比走迷宮,有人花了很大精力走出迷宮。知道路線后,后面的人走出迷宮的時間就大大縮短了。

考慮到算法進步、算力通縮等因素,模型訓練成本本身也會隨著時間推移而下降。根據ARK的研究報告,大模型的訓練成本每年下降75%,推理成本每年下降86%。

再者說,2048塊H800也不是DeepSeek V3全部訓練算力投入。

上述成本僅包括DeepSeek-V3 的正式訓練,既不包括DeepSeek R1模型生成的高質量數據消耗的算力,也不包括模型架構的探索調試階段消耗的算力。

比如,后訓練的時候,DeepSeek直接把一個叫R1的模型,它的推理能力蒸餾到了V3模型上,這樣后訓練部分就基本沒有成本。

第二,算力投入沒有下降,而是投入方向變了。

過去,預訓練是提升模型智能的主要路徑,算力主要被用在了卷數據量、卷參數。

但到了現(xiàn)在,單純卷規(guī)模的性價比越來越低,算力就被花到了其他更有性價比的地方,比如卷數據質量,卷新的Scaling因子(RL、測試時間計算等)。

就拿合成數據來說,根據“海外獨角獸”測算,像GPT-4, Claude-3.5 水平的模型,想要其大幅提升推理能力,需要合成 1-10T 量級的高質量推理數據,對應的成本大致需要6-60億美金。

無論是合成數據,還是測試時間計算,哪一種方式都是用AI無限的計算能力來補足它數據利用效率不夠的短板。

也就是說,所謂的算力投入并沒有變小,只是算力投入的方向有所變化。

第三,從絕對值看,科技巨頭們在算力上的投入沒有減少,反而還在大大增加。

根據國外網站LessWrong估算,科技巨頭的算力明年將繼續(xù)大幅增長。即使增長幅度最少的谷歌,算力規(guī)模也至少實現(xiàn)了翻倍:微軟有75萬-90萬塊等效H100,明年預計達到250萬-310萬;谷歌有100萬-150萬塊等效H100,明年預計達到350萬-420萬;Meta有55萬-65萬塊等效H100,明年預計達到190萬-250萬;亞馬遜有25萬-40萬塊等效H100,明年預計達到130萬-160萬;xAI有10萬塊等效H100,明年預計達到55萬-100萬;

國內同樣延續(xù)這種趨勢。根據浙商證券研報,字節(jié)跳動2025年資本開始將高達1600億元,是2024年資本開支的一倍,其中約900億元用于AI算力的采購。

科技大廠堅決投資算力的邏輯也很簡單。新模型的訓練需要更多算力,而AI應用的繁榮不僅帶來了更多的算力需求,也讓算力的投資回報率更為明確。

02 找到中國大模型的商業(yè)化答案

DeepSeek-V3這事的最大意義在于,證明了一件事:

即便不是超級大廠、沒有10萬張GPU的集群,也可以通過工程創(chuàng)新的方式,訓練出足以媲美頂尖模型的成果。

這背后的邏輯是,除了堆先進算力外,更靈活、更高效地使用算力將變得越來越關鍵。之前,李開復一直在表達一個觀點:

中國做AI的優(yōu)勢從來不是在不設預算上限的情況下去做突破性研究,而是在好、快、便宜和可靠性之間找出最優(yōu)解。

在相當長時間里,國內大模型一直處于很尷尬的處境,訓練階段不僅被技術封鎖,還容易被海外開源降維打擊。但隨著模型走到應用階段,這一局面可能將發(fā)生改變。

相比訓練的技術封鎖,推理是很難封鎖的。

原因在于,訓練階段能不能成,標準很單一。應用生態(tài)能否跑通,取決于每個國家的成本結構、商業(yè)模式、經濟模型、產品供給能力,大家各有不同,是個復雜的商業(yè)問題。

固然,中國買不到最新的芯片,單位Flops的推理成本永遠比海外高,但這也倒逼中國infra出現(xiàn)了各種“工程式創(chuàng)新”,去探索更高效的算力優(yōu)化方式。

至少從目前看,國內推理優(yōu)化進展比大家想象要快。一旦算力優(yōu)化這事跑通,國內大模型在商業(yè)層面建立良性循環(huán)也不是沒有可能。

也就是說,中美未來AI將是兩個完全不同的故事:美國押注模型能力提升,中國追求模型效率的極限。

這就很像當年互聯(lián)網所發(fā)生的故事。過去十年,中國和美國在互聯(lián)網領域講了兩個完全不同的故事:硅谷加倍投入企業(yè)軟件,而中國則將賭注押在消費者應用上。

自谷歌和Meta后,美國科技業(yè)幾乎放棄了在消費互聯(lián)網上再造流量入口的嘗試,轉而選擇全面擁抱SaaS。軟件也完美接力上一個十年中的消費移動應用,成為新十年的主流投資趨勢,也跑出了很多優(yōu)秀公司。

而中國在消費互聯(lián)網展現(xiàn)了非凡的生命力,字節(jié)跳動把短視頻生意做到了全世界,美團把本地生活做成了一個千億美元的生意,而拼多多也成長為阿里、亞馬遜一外的電商新一極。

在GPT橫空出世之后,美國SaaS公司率先受益,紛紛開始向客戶提供AI功能,通過之前建立的客戶基礎和產品場景直接產生商業(yè)回報,大大提升了在AI上創(chuàng)新投入的回報確定性。而中國的AI應用卻因為缺乏場景和商業(yè)模式而進展緩慢。

隨著AI應用的逐漸落地,模型效率將會成為打通中國大模型產業(yè)商業(yè)循環(huán)的一把“鑰匙”。

文/林白

本文由人人都是產品經理作者【林白】,微信公眾號:【烏鴉智能說】,原創(chuàng)/授權 發(fā)布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!