DeepSeek們的成本,是怎么計算的?

0 評論 348 瀏覽 0 收藏 19 分鐘

文章圍繞 DeepSeek 的成本計算展開,探討了大模型訓練成本相關問題,包括對 DeepSeek 的誤解、其訓練成本構(gòu)成、降本策略及對行業(yè)的影響。

大模型混戰(zhàn),一邊卷能力,一邊卷“成本”。

DeepSeek徹底讓全球都坐不住了。

昨天,馬斯克攜“地球上最聰明的AI”——Gork 3在直播中亮相,自稱其“推理能力超越目前所有已知模型”,在推理-測試時間得分上,也好于DeepSeek R1、OpenAI o1。不久前,國民級應用微信宣布接入DeepSeek R1,正在灰度測試中,這一王炸組合被外界認為AI搜索領域要變天。

如今,微軟、英偉達、華為云、騰訊云等全球多家科技大廠都已接入DeepSeek。網(wǎng)友也開發(fā)出了算命、預測彩票等新奇玩法,其熱度直接轉(zhuǎn)化成了真金白銀,助推DeepSeek估值一路上漲,最高已經(jīng)達到了千億美金。

DeepSeek能出圈,除了免費和好用之外,還因為其僅以557.6萬美元的GPU成本,就訓練出了與OpenAI o1能力不相上下的DeepSeek R1模型。畢竟,在過去幾年的“百模大戰(zhàn)”中,國內(nèi)外AI大模型公司都砸了幾十億甚至上百億美元。Gork 3成為“全球最聰明AI”的代價也是高昂的,馬斯克稱Gork 3訓練累計消耗20萬塊英偉達GPU(單塊成本大約在3萬美元),而業(yè)內(nèi)人士估計DeepSeek僅在1萬多張。

但也有人在成本上卷DeepSeek。近日李飛飛團隊稱,僅花費不到50美元的云計算費用,就訓練出了一款推理模型S1,其在數(shù)學和編碼能力測試中的表現(xiàn)媲美OpenAI的o1和DeepSeek的R1。但需要注意的是,S1是中型模型,與DeepSeek R1的上千億參數(shù)級別存在差距。

即便如此,從50美元到上百億美元的巨大訓練成本差異,還是讓大家好奇,一方面想知道DeepSeek的能力有多強,為什么各家都在試圖趕上甚至超過它,另一方面,訓練一個大模型究竟需要多少錢?它涉及哪些環(huán)節(jié)?未來,是否還有可能進一步降低訓練成本?

1.被“以偏概全”的DeepSeek

在從業(yè)者看來,在解答這些問題前,得先捋清幾個概念。首先是對DeepSeek的理解“以偏概全”。大家驚嘆的是它眾多大模型之中的一個——推理大模型DeepSeek-R1,但它還有其他的大模型,不同大模型產(chǎn)品之間的功能不一樣。而557.6萬美元,是其通用大模型DeepSeek-V3訓練過程中的GPU花費,可以理解為凈算力成本。簡單對比下:

通用大模型:接收明確指令,拆解步驟,用戶要把任務描述清楚,包括回答順序,比如用戶需要提示是先做總結(jié)再給出標題,還是相反。回復速度較快,基于概率預測(快速反應),通過大量數(shù)據(jù)預測答案。

推理大模型:接收簡單明了、聚焦目標的任務,用戶要什么直接說,它可以自己做規(guī)劃?;貜退俣容^慢,基于鏈式思維(慢速思考),推理問題步驟得到答案。兩者主要的技術差別在于訓練數(shù)據(jù),通用大模型是問題+答案,推理大模型是問題+思考過程+答案。第二,由于Deepseek的推理大模型DeepSeek-R1關注度更高,很多人錯誤地認為推理大模型一定比通用大模型高級。需要肯定的是,推理大模型屬于前沿模型類型,是大模型預訓練范式撞墻后,OpenAI推出的在推理階段增加算力的新范式。相比通用大模型,推理大模型更燒錢,訓練時間也更長。但并不意味著,推理大模型一定比通用大模型好用,甚至對于某類問題,推理大模型反而顯得雞肋。大模型領域知名專家劉聰對「定焦One」解釋,比如問某個國家的首都/某個地方的省會城市,推理大模型就不如通用大模型好用。

DeepSeek-R1面對簡單問題時的過度思考

他表示,面對這類比較簡單的問題,推理大模型不僅回答效率低于通用大模型,消耗的算力成本也比較昂貴,甚至會出現(xiàn)過度思考等情況,最后可能給出錯誤答案。他建議,完成數(shù)學難題、挑戰(zhàn)性編碼等復雜任務時使用推理模型,總結(jié)、翻譯、基礎問答等簡單任務,通用模型使用效果更佳。第三是DeepSeek的真正實力到底如何。綜合權(quán)威榜單和從業(yè)者的說法,「定焦One」分別在推理大模型和通用大模型領域,給DeepSeek排了個位。推理大模型第一梯隊主要有四家:國外OpenAI的o系列模型(如o3-mini)、Google的Gemini 2.0;國內(nèi)的DeepSeek-R1、阿里的QwQ。不止一位從業(yè)者認為,雖然外界都在討論DeepSeek-R1作為國內(nèi)頂尖的模型,能力趕超OpenAI,但從技術角度看,相比OpenAI最新的o3,還有一定的差距。它更重要的意義是,大大縮小了國內(nèi)外頂尖水平之間的差距?!叭绻f之前的差距是2-3代,DeepSeek-R1出現(xiàn)后已經(jīng)縮小到了0.5代?!盇I行業(yè)資深從業(yè)者江樹表示。他結(jié)合自身使用經(jīng)驗,介紹了四家的優(yōu)缺點:

在通用大模型領域,根據(jù)LM Arena(用于評估和比較大型語言模型(LLM)性能的開源平臺)榜單,排在第一梯隊的有五家:國外Google的Gemini(閉源)、OpenAI的ChatGPT、Anthropic的Claude;國內(nèi)的DeepSeek、阿里的Qwen。

江樹也列舉出了使用它們的體驗。

不難發(fā)現(xiàn),盡管DeepSeek-R1震驚了全球科技圈,其價值毋庸置疑,但每家大模型產(chǎn)品都有自身的優(yōu)劣勢,DeepSeek也不是所有大模型都完美無缺。比如劉聰就發(fā)現(xiàn),DeepSeek最新發(fā)布的專注于圖像理解和生成任務的多模態(tài)大模型Janus-Pro,使用效果一般。

2.訓練大模型,要花多少錢?

回到訓練大模型的成本問題,一個大模型究竟是如何誕生的?劉聰表示,大模型誕生主要分為預訓練-后訓練兩個階段,如果把大模型比作小孩,預訓練和后訓練要做的是,讓小孩從出生時的只會哭,到懂得大人講的內(nèi)容,再到主動和大人講話。預訓練主要指訓練語料。比如將大量的文本語料投給模型,讓小孩完成知識攝取,但此刻他只是學了知識還不會用。后訓練則要告訴小孩,如何去用學了的知識,包含兩種方法,模型微調(diào)(SFT)和強化學習(RLHF)。劉聰表示,無論是通用大模型還是推理大模型、國內(nèi)還是國外,大家遵循的都是這一流程。江樹也告訴「定焦One」,各家都用的是Transformer模型,因此在最底層的模型構(gòu)成和訓練步驟上,無本質(zhì)區(qū)別。多位從業(yè)者表示,各家大模型的訓練成本差別很大,主要集中在硬件、數(shù)據(jù)、人工三大部分,每一部分也可能采取不同的方式,對應的成本也不同。劉聰分別舉例,比如硬件是買是租,兩者間的價格相差很大,如果是買,前期的一次性投入很大,但后期會大幅降低,基本只用交電費,如果是租,可能前期投入不大,但這部分成本始終無法省去。所使用的訓練數(shù)據(jù)上,是直接購買現(xiàn)成數(shù)據(jù),還是自己人工爬,也差別很大。每次的訓練成本也不太一樣,像第一次要寫爬蟲、做數(shù)據(jù)篩選,但下一個版本由于可使用上個版本的重復操作,成本會有所降低。以及在最終展現(xiàn)模型前,中間迭代了多少版本,也決定著成本高低,但大模型公司對此諱莫如深。總之,每個環(huán)節(jié)都涉及很多高額的隱形成本。外界曾按照GPU估算,在頂尖模型中,GPT-4的訓練成本大約為7800萬美元,Llama3.1超6000萬美元,Claude3.5約為1億美元。但由于這些頂尖大模型都是閉源,以及各家是否存在算力浪費現(xiàn)象,外界很難知曉。直到同梯隊的DeepSeek以557.6萬美元出現(xiàn)。

圖源 / Unsplash

需要注意的是,557.6萬美元是DeepSeek技術報告中提到的基座模型DeepSeek-V3的訓練成本?!瓣P于V3版本的訓練成本只能代表最后一次成功訓練的成本,前期的研究、架構(gòu)及算法的試錯等成本都沒有包含在內(nèi);而R1的具體訓練成本,論文中沒有提到。”劉聰表示。也就是說,557.6萬美元僅為模型總成本的一小部分。半導體市場分析和預測公司SemiAnalysis指出,考慮到服務器資本支出、運營成本等因素,DeepSeek的總成本在4年內(nèi)可能達到25.73億美元。從業(yè)者認為,相較其他大模型公司百億美元的投入,即便按25.73億美元計算,DeepSeek的成本也是低的。而且,DeepSeek-V3的訓練過程僅需2048張英偉達GPU、所用GPU小時僅為278.8萬,相比之下,OpenAI耗費了上萬張GPU,Meta訓練模型Llama-3.1-405B所用的GPU小時為3084萬。DeepSeek不僅在模型訓練階段效率更高,在調(diào)用推理階段也更高效、成本更低。從DeepSeek給出的各大模型API定價(開發(fā)者可以通過API調(diào)用大模型,實現(xiàn)文本生成、對話交互、代碼生成等功能),能看出成本其低于“OpenAI們”。通常認為,高開發(fā)成本的API通常需要通過較高的定價來回收成本。DeepSeek-R1的API定價為:每百萬輸入tokens1元(緩存命中),每百萬輸出tokens16元,反觀OpenAI的o3-mini,輸入(緩存命中)、輸出每百萬tokens的定價,分別為0.55美元(4元人民幣)、4.4美元(31元人民幣)。緩存命中,即從緩存中讀取數(shù)據(jù)而非重新計算或調(diào)用模型生成結(jié)果,可以減少數(shù)據(jù)處理的時間、降低成本。行業(yè)通過區(qū)分緩存命中和緩存未命中,從而提高API定價的競爭力,低價也讓中小企業(yè)也更容易接入。近期結(jié)束了優(yōu)惠期的DeepSeek-V3,雖然從原來的每百萬輸入tokens0.1元(緩存命中)、每百萬輸出tokens2元,分別上調(diào)到了0.5元、8元,價格仍然低于其他主流模型。雖然大模型總訓練成本很難預估,但從業(yè)者一致認為,DeepSeek可能代表的是目前一流大模型的最低成本,未來各家應該會參照DeepSeek往下降。

3.DeepSeek的降本啟示

DeepSeek的錢省在哪了?綜合從業(yè)者的說法,從模型結(jié)構(gòu)-預訓練-后訓練,每個方面都做了優(yōu)化。比如為了保證回答的專業(yè)性,很多大模型公司采用的是MoE模型(混合專家模型),即面對一個復雜難題,大模型會將其拆解為多個子任務,然后將不同子任務交給不同專家解答。雖然很多家大模型公司都曾提到過這一模型,但DeepSeek達到了終極專家專業(yè)化水平。秘訣是采用了細粒度專家分割(對專家在同一類別中再進行子任務細分)和共享專家隔離(隔離部分專家減輕知識冗余),這樣做的好處是,能大幅提高MoE參數(shù)效率和性能,做到更快更準確給予答案。有從業(yè)者估算,DeepSeekMoE相當于僅用大約40%的計算量,便達到了與LLaMA2-7B差不多的效果。數(shù)據(jù)處理也是大模型訓練的一道坎,各家都琢磨著如何提高計算效率,同時還能降低內(nèi)存和帶寬等硬件需求。DeepSeek找到的方法是,在處理數(shù)據(jù)時用FP8低精度訓練(用于加速深度學習訓練),“此舉在已知開源模型中比較領先,畢竟大多數(shù)大模型使用的是FP16或BF16混合精度訓練,F(xiàn)P8的訓練速度比它們快很多。”劉聰表示。后訓練中的強化學習上,策略優(yōu)化是一大難點,可以理解為讓大模型更好地進行過決策,比如AlphaGo通過策略優(yōu)化學會了如何在圍棋中選擇最優(yōu)的落子策略。DeepSeek選擇GRPO(分組相對策略優(yōu)化)而非PPO(近端策略優(yōu)化)算法,兩者的主要區(qū)別在于在進行算法優(yōu)化時,是否借助價值模型,前者通過組內(nèi)相對獎勵來估計優(yōu)勢函數(shù),后者用的是單獨的價值模型。少一個模型,算力要求自然更小,也會節(jié)省成本。以及推理層面上,用多頭潛在注意力機制(MLA)而非傳統(tǒng)的多頭注意力(MHA),顯著降低了顯存占用和計算復雜度,最直接的好處是,API接口費用下降。不過,這次DeepSeek給劉聰?shù)淖畲髥l(fā)是,可以從不同角度提升大模型推理能力,純模型微調(diào)(SFT)和純強化學習(RLHF)都可以做出不錯的推理大模型。

圖源 / Pexels

也就是說,目前做推理模型,可以有四種方式:第一種:純強化學習(DeepSeek-R1-zero)第二種:SFT+強化學習(DeepSeek-R1)第三種:純SFT(DeepSeek蒸餾模型)第四種:純提示詞(低成本小模型)“之前圈內(nèi)都是標注SFT+強化學習,大家都沒有想到,原來做純SFT和純做強化學習,也能得到很好的效果。”劉聰表示。DeepSeek的降本不僅給從業(yè)者帶來了技術上的啟發(fā),也影響著AI公司的發(fā)展路徑。英諾天使基金合伙人王晟介紹,AI產(chǎn)業(yè)在跑通AGI方向上往往有兩種不同的路徑選擇:一個是“算力軍備”范式,堆技術堆錢堆算力,先把大模型性能拉至一個高點,再考慮產(chǎn)業(yè)落地;另外一個是“算法效率”范式,一開始就以產(chǎn)業(yè)落地為目標,通過架構(gòu)創(chuàng)新和工程化能力,推出低成本高性能模型?!癉eepSeek的一系列模型證明了,在天花板漲不動的情況下,把重點放在優(yōu)化效率而非能力增長上的范式具有可行性?!蓖蹶煞Q。從業(yè)者們相信,未來隨著算法的進化,大模型的訓練成本還會進一步降低。方舟投資管理公司的創(chuàng)始人兼CEO“木頭姐”曾指出,在DeepSeek之前,人工智能訓練成本每年下降75%,推理成本甚至下降85%到90%。王晟也曾表示,年初發(fā)布的模型到年底再發(fā)布同樣的模型,成本都會有大幅度下降,甚至有可能降至1/10。獨立研究機構(gòu)SemiAnalysis在最近一篇分析報告中指出,推理成本的下降是人工智能不斷進步的標志之一。原來需要超級計算機、多張GPU才能完成的GPT-3大模型性能,現(xiàn)在一些安裝在筆記本電腦上的小模型也能實現(xiàn)同樣效果。而且成本也下降了很多,Anthropic首席執(zhí)行官Dario認為,算法定價成朝著GPT-3質(zhì)量發(fā)展,成本已經(jīng)降低1200倍。未來,大模型的降本速度還會越來越快。

本文由人人都是產(chǎn)品經(jīng)理作者【定焦One】,微信公眾號:【定焦One】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!