日韩人妻在线视频二区，东京热无码av一本大道，久久久久天堂亚洲AV无码社区，国产亚洲动漫欧美日韩一区，国产专区无码午夜，一本到精品免费精品在线观看，亚洲国产第50页精品，18国产精品白浆在线观看

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

DeepSeek們的成本，是怎么計算的？

定焦One

2025-02-21

0 評論 348 瀏覽 0 收藏

19 分鐘

文章圍繞 DeepSeek 的成本計算展開，探討了大模型訓練成本相關問題，包括對 DeepSeek 的誤解、其訓練成本構(gòu)成、降本策略及對行業(yè)的影響。

大模型混戰(zhàn)，一邊卷能力，一邊卷“成本”。

DeepSeek徹底讓全球都坐不住了。

昨天，馬斯克攜“地球上最聰明的AI”——Gork 3在直播中亮相，自稱其“推理能力超越目前所有已知模型”，在推理-測試時間得分上，也好于DeepSeek R1、OpenAI o1。不久前，國民級應用微信宣布接入DeepSeek R1，正在灰度測試中，這一王炸組合被外界認為AI搜索領域要變天。

如今，微軟、英偉達、華為云、騰訊云等全球多家科技大廠都已接入DeepSeek。網(wǎng)友也開發(fā)出了算命、預測彩票等新奇玩法，其熱度直接轉(zhuǎn)化成了真金白銀，助推DeepSeek估值一路上漲，最高已經(jīng)達到了千億美金。

DeepSeek能出圈，除了免費和好用之外，還因為其僅以557.6萬美元的GPU成本，就訓練出了與OpenAI o1能力不相上下的DeepSeek R1模型。畢竟，在過去幾年的“百模大戰(zhàn)”中，國內(nèi)外AI大模型公司都砸了幾十億甚至上百億美元。Gork 3成為“全球最聰明AI”的代價也是高昂的，馬斯克稱Gork 3訓練累計消耗20萬塊英偉達GPU（單塊成本大約在3萬美元），而業(yè)內(nèi)人士估計DeepSeek僅在1萬多張。

但也有人在成本上卷DeepSeek。近日李飛飛團隊稱，僅花費不到50美元的云計算費用，就訓練出了一款推理模型S1，其在數(shù)學和編碼能力測試中的表現(xiàn)媲美OpenAI的o1和DeepSeek的R1。但需要注意的是，S1是中型模型，與DeepSeek R1的上千億參數(shù)級別存在差距。

即便如此，從50美元到上百億美元的巨大訓練成本差異，還是讓大家好奇，一方面想知道DeepSeek的能力有多強，為什么各家都在試圖趕上甚至超過它，另一方面，訓練一個大模型究竟需要多少錢？它涉及哪些環(huán)節(jié)？未來，是否還有可能進一步降低訓練成本？

1.被“以偏概全”的DeepSeek

在從業(yè)者看來，在解答這些問題前，得先捋清幾個概念。首先是對DeepSeek的理解“以偏概全”。大家驚嘆的是它眾多大模型之中的一個——推理大模型DeepSeek-R1，但它還有其他的大模型，不同大模型產(chǎn)品之間的功能不一樣。而557.6萬美元，是其通用大模型DeepSeek-V3訓練過程中的GPU花費，可以理解為凈算力成本。簡單對比下：

通用大模型：接收明確指令，拆解步驟，用戶要把任務描述清楚，包括回答順序，比如用戶需要提示是先做總結(jié)再給出標題，還是相反。回復速度較快，基于概率預測（快速反應），通過大量數(shù)據(jù)預測答案。

推理大模型：接收簡單明了、聚焦目標的任務，用戶要什么直接說，它可以自己做規(guī)劃?；貜退俣容^慢，基于鏈式思維（慢速思考），推理問題步驟得到答案。兩者主要的技術差別在于訓練數(shù)據(jù)，通用大模型是問題+答案，推理大模型是問題+思考過程+答案。第二，由于Deepseek的推理大模型DeepSeek-R1關注度更高，很多人錯誤地認為推理大模型一定比通用大模型高級。需要肯定的是，推理大模型屬于前沿模型類型，是大模型預訓練范式撞墻后，OpenAI推出的在推理階段增加算力的新范式。相比通用大模型，推理大模型更燒錢，訓練時間也更長。但并不意味著，推理大模型一定比通用大模型好用，甚至對于某類問題，推理大模型反而顯得雞肋。大模型領域知名專家劉聰對「定焦One」解釋，比如問某個國家的首都/某個地方的省會城市，推理大模型就不如通用大模型好用。

DeepSeek-R1面對簡單問題時的過度思考

他表示，面對這類比較簡單的問題，推理大模型不僅回答效率低于通用大模型，消耗的算力成本也比較昂貴，甚至會出現(xiàn)過度思考等情況，最后可能給出錯誤答案。他建議，完成數(shù)學難題、挑戰(zhàn)性編碼等復雜任務時使用推理模型，總結(jié)、翻譯、基礎問答等簡單任務，通用模型使用效果更佳。第三是DeepSeek的真正實力到底如何。綜合權(quán)威榜單和從業(yè)者的說法，「定焦One」分別在推理大模型和通用大模型領域，給DeepSeek排了個位。推理大模型第一梯隊主要有四家：國外OpenAI的o系列模型(如o3-mini)、Google的Gemini 2.0；國內(nèi)的DeepSeek-R1、阿里的QwQ。不止一位從業(yè)者認為，雖然外界都在討論DeepSeek-R1作為國內(nèi)頂尖的模型，能力趕超OpenAI，但從技術角度看，相比OpenAI最新的o3，還有一定的差距。它更重要的意義是，大大縮小了國內(nèi)外頂尖水平之間的差距?！叭绻f之前的差距是2-3代，DeepSeek-R1出現(xiàn)后已經(jīng)縮小到了0.5代?！盇I行業(yè)資深從業(yè)者江樹表示。他結(jié)合自身使用經(jīng)驗，介紹了四家的優(yōu)缺點：

在通用大模型領域，根據(jù)LM Arena（用于評估和比較大型語言模型（LLM）性能的開源平臺）榜單，排在第一梯隊的有五家：國外Google的Gemini（閉源）、OpenAI的ChatGPT、Anthropic的Claude；國內(nèi)的DeepSeek、阿里的Qwen。

江樹也列舉出了使用它們的體驗。

不難發(fā)現(xiàn)，盡管DeepSeek-R1震驚了全球科技圈，其價值毋庸置疑，但每家大模型產(chǎn)品都有自身的優(yōu)劣勢，DeepSeek也不是所有大模型都完美無缺。比如劉聰就發(fā)現(xiàn)，DeepSeek最新發(fā)布的專注于圖像理解和生成任務的多模態(tài)大模型Janus-Pro，使用效果一般。

2.訓練大模型，要花多少錢？

回到訓練大模型的成本問題，一個大模型究竟是如何誕生的？劉聰表示，大模型誕生主要分為預訓練-后訓練兩個階段，如果把大模型比作小孩，預訓練和后訓練要做的是，讓小孩從出生時的只會哭，到懂得大人講的內(nèi)容，再到主動和大人講話。預訓練主要指訓練語料。比如將大量的文本語料投給模型，讓小孩完成知識攝取，但此刻他只是學了知識還不會用。后訓練則要告訴小孩，如何去用學了的知識，包含兩種方法，模型微調(diào)（SFT）和強化學習（RLHF）。劉聰表示，無論是通用大模型還是推理大模型、國內(nèi)還是國外，大家遵循的都是這一流程。江樹也告訴「定焦One」，各家都用的是Transformer模型，因此在最底層的模型構(gòu)成和訓練步驟上，無本質(zhì)區(qū)別。多位從業(yè)者表示，各家大模型的訓練成本差別很大，主要集中在硬件、數(shù)據(jù)、人工三大部分，每一部分也可能采取不同的方式，對應的成本也不同。劉聰分別舉例，比如硬件是買是租，兩者間的價格相差很大，如果是買，前期的一次性投入很大，但后期會大幅降低，基本只用交電費，如果是租，可能前期投入不大，但這部分成本始終無法省去。所使用的訓練數(shù)據(jù)上，是直接購買現(xiàn)成數(shù)據(jù)，還是自己人工爬，也差別很大。每次的訓練成本也不太一樣，像第一次要寫爬蟲、做數(shù)據(jù)篩選，但下一個版本由于可使用上個版本的重復操作，成本會有所降低。以及在最終展現(xiàn)模型前，中間迭代了多少版本，也決定著成本高低，但大模型公司對此諱莫如深。總之，每個環(huán)節(jié)都涉及很多高額的隱形成本。外界曾按照GPU估算，在頂尖模型中，GPT-4的訓練成本大約為7800萬美元，Llama3.1超6000萬美元，Claude3.5約為1億美元。但由于這些頂尖大模型都是閉源，以及各家是否存在算力浪費現(xiàn)象，外界很難知曉。直到同梯隊的DeepSeek以557.6萬美元出現(xiàn)。

圖源 / Unsplash

需要注意的是，557.6萬美元是DeepSeek技術報告中提到的基座模型DeepSeek-V3的訓練成本?！瓣P于V3版本的訓練成本只能代表最后一次成功訓練的成本，前期的研究、架構(gòu)及算法的試錯等成本都沒有包含在內(nèi)；而R1的具體訓練成本，論文中沒有提到。”劉聰表示。也就是說，557.6萬美元僅為模型總成本的一小部分。半導體市場分析和預測公司SemiAnalysis指出，考慮到服務器資本支出、運營成本等因素，DeepSeek的總成本在4年內(nèi)可能達到25.73億美元。從業(yè)者認為，相較其他大模型公司百億美元的投入，即便按25.73億美元計算，DeepSeek的成本也是低的。而且，DeepSeek-V3的訓練過程僅需2048張英偉達GPU、所用GPU小時僅為278.8萬，相比之下，OpenAI耗費了上萬張GPU，Meta訓練模型Llama-3.1-405B所用的GPU小時為3084萬。DeepSeek不僅在模型訓練階段效率更高，在調(diào)用推理階段也更高效、成本更低。從DeepSeek給出的各大模型API定價（開發(fā)者可以通過API調(diào)用大模型，實現(xiàn)文本生成、對話交互、代碼生成等功能），能看出成本其低于“OpenAI們”。通常認為，高開發(fā)成本的API通常需要通過較高的定價來回收成本。DeepSeek-R1的API定價為：每百萬輸入tokens1元（緩存命中），每百萬輸出tokens16元，反觀OpenAI的o3-mini，輸入（緩存命中）、輸出每百萬tokens的定價，分別為0.55美元（4元人民幣）、4.4美元（31元人民幣）。緩存命中，即從緩存中讀取數(shù)據(jù)而非重新計算或調(diào)用模型生成結(jié)果，可以減少數(shù)據(jù)處理的時間、降低成本。行業(yè)通過區(qū)分緩存命中和緩存未命中，從而提高API定價的競爭力，低價也讓中小企業(yè)也更容易接入。近期結(jié)束了優(yōu)惠期的DeepSeek-V3，雖然從原來的每百萬輸入tokens0.1元（緩存命中）、每百萬輸出tokens2元，分別上調(diào)到了0.5元、8元，價格仍然低于其他主流模型。雖然大模型總訓練成本很難預估，但從業(yè)者一致認為，DeepSeek可能代表的是目前一流大模型的最低成本，未來各家應該會參照DeepSeek往下降。

3.DeepSeek的降本啟示

DeepSeek的錢省在哪了？綜合從業(yè)者的說法，從模型結(jié)構(gòu)-預訓練-后訓練，每個方面都做了優(yōu)化。比如為了保證回答的專業(yè)性，很多大模型公司采用的是MoE模型（混合專家模型），即面對一個復雜難題，大模型會將其拆解為多個子任務，然后將不同子任務交給不同專家解答。雖然很多家大模型公司都曾提到過這一模型，但DeepSeek達到了終極專家專業(yè)化水平。秘訣是采用了細粒度專家分割（對專家在同一類別中再進行子任務細分）和共享專家隔離（隔離部分專家減輕知識冗余），這樣做的好處是，能大幅提高MoE參數(shù)效率和性能，做到更快更準確給予答案。有從業(yè)者估算，DeepSeekMoE相當于僅用大約40%的計算量，便達到了與LLaMA2-7B差不多的效果。數(shù)據(jù)處理也是大模型訓練的一道坎，各家都琢磨著如何提高計算效率，同時還能降低內(nèi)存和帶寬等硬件需求。DeepSeek找到的方法是，在處理數(shù)據(jù)時用FP8低精度訓練（用于加速深度學習訓練），“此舉在已知開源模型中比較領先，畢竟大多數(shù)大模型使用的是FP16或BF16混合精度訓練，F(xiàn)P8的訓練速度比它們快很多。”劉聰表示。后訓練中的強化學習上，策略優(yōu)化是一大難點，可以理解為讓大模型更好地進行過決策，比如AlphaGo通過策略優(yōu)化學會了如何在圍棋中選擇最優(yōu)的落子策略。DeepSeek選擇GRPO（分組相對策略優(yōu)化）而非PPO（近端策略優(yōu)化）算法，兩者的主要區(qū)別在于在進行算法優(yōu)化時，是否借助價值模型，前者通過組內(nèi)相對獎勵來估計優(yōu)勢函數(shù)，后者用的是單獨的價值模型。少一個模型，算力要求自然更小，也會節(jié)省成本。以及推理層面上，用多頭潛在注意力機制（MLA）而非傳統(tǒng)的多頭注意力（MHA），顯著降低了顯存占用和計算復雜度，最直接的好處是，API接口費用下降。不過，這次DeepSeek給劉聰?shù)淖畲髥l(fā)是，可以從不同角度提升大模型推理能力，純模型微調(diào)（SFT）和純強化學習（RLHF）都可以做出不錯的推理大模型。

圖源 / Pexels

也就是說，目前做推理模型，可以有四種方式：第一種：純強化學習（DeepSeek-R1-zero）第二種：SFT+強化學習（DeepSeek-R1）第三種：純SFT（DeepSeek蒸餾模型）第四種：純提示詞（低成本小模型）“之前圈內(nèi)都是標注SFT+強化學習，大家都沒有想到，原來做純SFT和純做強化學習，也能得到很好的效果。”劉聰表示。DeepSeek的降本不僅給從業(yè)者帶來了技術上的啟發(fā)，也影響著AI公司的發(fā)展路徑。英諾天使基金合伙人王晟介紹，AI產(chǎn)業(yè)在跑通AGI方向上往往有兩種不同的路徑選擇：一個是“算力軍備”范式，堆技術堆錢堆算力，先把大模型性能拉至一個高點，再考慮產(chǎn)業(yè)落地；另外一個是“算法效率”范式，一開始就以產(chǎn)業(yè)落地為目標，通過架構(gòu)創(chuàng)新和工程化能力，推出低成本高性能模型?！癉eepSeek的一系列模型證明了，在天花板漲不動的情況下，把重點放在優(yōu)化效率而非能力增長上的范式具有可行性?！蓖蹶煞Q。從業(yè)者們相信，未來隨著算法的進化，大模型的訓練成本還會進一步降低。方舟投資管理公司的創(chuàng)始人兼CEO“木頭姐”曾指出，在DeepSeek之前，人工智能訓練成本每年下降75%，推理成本甚至下降85%到90%。王晟也曾表示，年初發(fā)布的模型到年底再發(fā)布同樣的模型，成本都會有大幅度下降，甚至有可能降至1/10。獨立研究機構(gòu)SemiAnalysis在最近一篇分析報告中指出，推理成本的下降是人工智能不斷進步的標志之一。原來需要超級計算機、多張GPU才能完成的GPT-3大模型性能，現(xiàn)在一些安裝在筆記本電腦上的小模型也能實現(xiàn)同樣效果。而且成本也下降了很多，Anthropic首席執(zhí)行官Dario認為，算法定價成朝著GPT-3質(zhì)量發(fā)展，成本已經(jīng)降低1200倍。未來，大模型的降本速度還會越來越快。

本文由人人都是產(chǎn)品經(jīng)理作者【定焦One】，微信公眾號：【定焦One】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App