国产精品无码久久综合网老牛影视，亚洲а∨天堂久久精品，国产成人精品a视频一区，婷婷丁香五月天综合东京热，日韩av片高清在线观看，国产精品4hu.www，欧美自拍偷拍一区，亚洲国产理论片在线观看

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

萬字長文：DeepSeek 647天鑄就的登神長階

馬丁的面包屑

2025-02-18

0 評論 353 瀏覽 1 收藏

44 分鐘

這篇文章深入剖析了DeepSeek在大語言模型（LLM）領(lǐng)域的發(fā)展歷程，詳細回顧了其從2023年4月踏上AGI征程到2024年1月發(fā)布震驚世界的R1模型的647天。文章以時間為線索，梳理了DeepSeek在技術(shù)創(chuàng)新、模型迭代與公司文化等方面的諸多細節(jié)，展現(xiàn)了其如何通過一系列堅實的技術(shù)突破和戰(zhàn)略決策逐步構(gòu)建起強大的技術(shù)壁壘，并最終實現(xiàn)登頂。

過完元宵節(jié)從老家回到深圳，我用三天時間，讀完了Deepseek在LLM領(lǐng)域的13篇論文，從里面發(fā)現(xiàn)了一些細節(jié)，分享給你們。

首先，震驚世界的R1，不是一日鑄就的，里面用到了很多過去項目中獨創(chuàng)的技術(shù)突破。

其中一些突破在逐步驗證后，反復(fù)迭代升級，最終成為了R1的牢固基石，例如他們當(dāng)前所用的MoE框架，經(jīng)歷了四次升級。又比如GRPO，最開始其實是在一個數(shù)學(xué)模型，DeepSeek-Math-7B上首次提出的。

當(dāng)然也有一些技術(shù)選擇或技術(shù)突破，他們在后續(xù)工作應(yīng)用時失敗了，或者放棄了。例如令牌丟棄策略，例如他們提出的RMaxTS（蒙特卡洛樹變體）。

所有13篇論文組成了我眼中的“登神長階”，這里面每個臺階都是極其堅固和富有創(chuàng)意的。我相信這條登神之路，遠遠未到終點。

其次，從論文的非技術(shù)部分我還發(fā)現(xiàn)了一些有趣的地方。可以用來佐證外界所傳言的DeepSeek獨特公司文化。

最后，關(guān)于內(nèi)容的專業(yè)性和友好性問題。我會盡力做不失精確的科普。但由于以下限制：

1）部分技術(shù)內(nèi)容需要大量前置知識，展開說明篇幅會爆炸；

2）我自身不可避免帶有知識詛咒；

3）我個人的技術(shù)理解偏差。所以只能說盡可能保證精確和科普友好。

如果有看不懂的概念，建議使用這個prompt問問DeepSeek-R1:

接下來我的內(nèi)容將按時間線組織，以論文為核心主線，但也會少量穿插一些重要事件（特別是開頭）。

論文中出現(xiàn)的技術(shù)創(chuàng)新點，我會盡可能用通俗科普的方式解釋清楚。但我不希望這篇內(nèi)容過長，所以如果需要查看完整的亮點和科普內(nèi)容，請移步這13篇論文的翻譯&注釋文檔。

01 DeepSeek的647天

23年4月14日，開始

DeepSeek前身幻方量化在公眾號發(fā)布文章幻方新征程，宣布將以研究組織的形式投入AGI征程

文章引文——“務(wù)必要瘋狂地擁抱雄心，同時要瘋狂地真誠”

文章閱讀量8387，剔除其過去舊用戶日均的3000閱讀，可以說除了AI核心圈的人士，幾乎無人知曉。

這一天離ChatGPT發(fā)布135天，離DeepSeek-R1發(fā)布647天。

23年5月24日，官宣

暗涌采訪了DeepSeek梁文峰，在公眾號發(fā)布《瘋狂的幻方：一家隱形AI巨頭的大模型之路》

網(wǎng)絡(luò)上關(guān)于這篇文章的解讀非常多，我就不重復(fù)闡述了，感興趣的可以看看原文

大家可以分享一下最喜歡哪句話。我喜歡的可能和多數(shù)人不太一樣，是下面這句

“我們希望更多人，哪怕一個小 app都可以低成本去用上大模型，而不是技術(shù)只掌握在一部分人和公司手中，形成壟斷”

這篇文章標志著DeepSeek的籌備接近完成，梁文峰開始認真招人了。

相近的時間線上，ChatGPT IOS版在5月18日發(fā)布，迅速登上TOP1。

這一天距離R1發(fā)布607天。

23年7月17日，公司成立

DeepSeek注冊成立，全稱杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司。

很多人可能是第一次看到這個公司的全稱。是的，DeepSeek是DeepSeek，AI六小龍是AI六小龍，他們是不一樣的公司。

這一天距離R1發(fā)布553天。

23年10月25日，第一篇論文

DeepSeek發(fā)布論文：DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior，支持從圖像生成3D模型。這篇論文中的7位作者后來有6位出現(xiàn)在了DeepSeek Visual系列模型中。

這也是唯一我沒有深入閱讀的DeepSeek論文，因為看起來他只和圖像有關(guān)，與LLM沒有太大關(guān)系。我也不清楚為什么這個方向是DeepSeek的第一篇論文。

這也是DeepSeek在X上注冊后發(fā)布的第一條公告信息Introducing #DreamCraft3D

這一天距離R1發(fā)布453天。

但接下來，真正的狂飆開始了！

你將看到DeepSeek是如何一步步打磨他們的技術(shù)棧，并創(chuàng)造出R1這樣的驚艷產(chǎn)品。

下面是我梳理思路用的思維導(dǎo)圖，每個灰色的小塊是一篇論文，綠色塊則是獨創(chuàng)的技術(shù)點，虛線是技術(shù)點在不同論文（模型）之間的引用。

當(dāng)然，別害怕，這個圖只是讓你建立一個模糊概念，接下來我們還是按時間線講。

23年11月2日，狂飆開始：Coder-V1

DeepSeek公眾號注冊，發(fā)布首篇文章：可能是最強的開源代碼大模型！深度求索發(fā)布 DeepSeek Coder，閱讀量4.3W

24年1月25日，發(fā)布論文：DeepSeek-Coder: When the Large Language Model Meets Programming — The Rise of Code Intelligence

這篇論文嘗試在儲存庫級別組織預(yù)訓(xùn)練數(shù)據(jù)。即我不是簡單讓大模型學(xué)習(xí)單一的代碼文件，而是要讓大模型認識到代碼之間的組織關(guān)系。例如一個代碼項目中，某個代碼文件是需要調(diào)用另一個代碼文件的，又或者Readme、接口文檔這類描述整體邏輯的文檔。

補充技術(shù)原創(chuàng)判定規(guī)則：我并非專業(yè)的算法人員，所以我很難判斷某個方法是否DeepSeek首創(chuàng)。我的判斷標準為——如DeepSeek在論文中附加了其他論文引用，則為非原創(chuàng)；如DeepSeek大幅描述，且無相關(guān)引用，則為原創(chuàng)。

補充時間線判定規(guī)則：當(dāng)DeepSeek公開發(fā)布一個項目，然后公開論文，以項目為時間線，因為論文的發(fā)布可能具有滯后性。但若無相關(guān)項目，則以論文為第一時間線判定節(jié)點。

這一天距離R1發(fā)布445天。

23年11月29日，DeepSeek-67B（V1）

DeepSeek發(fā)布第一個通用大模型 DeepSeek-67B。

24年1月5日，7天后，DeepSeek發(fā)布對應(yīng)論文，也是LLM系列第一篇：DeepSeek LLM Scaling Open-Source Language Models with Longtermism。

這篇論文中，有如下亮點：

① 使用GQA（Grouped-Query Attention）取代傳統(tǒng)的MHA（Multi-Head Attention）。注意力機制是Transferfomer中一個重要模塊，很難快速解釋清楚。如果不懂的朋友，你搞清楚一點即可：GQA相對MHA，在成本上會更低，但是效果會下降——為此他們增加了模型深度，以緩解模型效果的下降，但效果還是不如MHA。

② 他們使用了多步學(xué)習(xí)率調(diào)度器來取代余弦學(xué)習(xí)率調(diào)度器。學(xué)習(xí)率可以近似理解為模型以多快的速度學(xué)習(xí)數(shù)據(jù)，通常在剛開始訓(xùn)練的時候可以讓他猛猛學(xué)，隨著時間推移就必須逐步降低。他們設(shè)定的多步學(xué)習(xí)率是前80%進程中固定最大值，80%~90%為31.6%，90%~100%為10%。這樣做的好處是，如果你想搞N個模型做實驗，那么前80%是可以復(fù)用的，你只需要針對后20%進行實驗，從而把每次實驗成本從100%壓低到20%。

③ 在GQA和多步學(xué)習(xí)率調(diào)度器這種方案組合下，他們的實驗成本非常低。因此他們做了大量實驗來驗證一個事情：到底Scaling Law的公式到底是什么？（Scaling laws：模型的性能與計算量、參數(shù)量、數(shù)據(jù)規(guī)模存在關(guān)聯(lián)，越大越好）

④ 首先他們重新定義了C=6ND公式，這是過去流傳甚廣的計算資源計算公式。N是參數(shù)規(guī)模，D是數(shù)據(jù)規(guī)模，C是計算資源。但他們發(fā)現(xiàn)這個公式是不精確的，在小參數(shù)模型的情況下，偏差率最高能達到50%。于是他們用M（FLOPs/token）來取代6N，以實現(xiàn)更精確的計算資源估算。

⑤ 然后他們做了一堆實驗，推導(dǎo)出超參數(shù)的Scaling laws公式，當(dāng)計算資源C確定時，可以推導(dǎo)出對應(yīng)Batch Size和學(xué)習(xí)率。附圖如下：

⑥ 他們還做了一堆實驗，推導(dǎo)出最佳的模型和數(shù)據(jù)分配策略，即計算資源確定，模型大小和數(shù)據(jù)大小的關(guān)系。

回到論文的標題：DeepSeek LLM Scaling Open-Source Language Models with Longtermism?；陂L期主義的開源大語言模型。

當(dāng)我全部讀完整篇內(nèi)容的時候，我才知道DeepSeek眼中的長期主義是什么——“這個事情我可能要做很久，不著急，我把我的基礎(chǔ)打好，把最簡潔，最基礎(chǔ)，最底層的公式、定理推導(dǎo)好，驗證好，一步步做就是了”。

事實上，在后續(xù)的12篇論文里他們也是這么做的，一點點用實驗和實踐，趟出了通向AGI的道路。

這一天離R1發(fā)布418天。

24年1月11日，MoE系列第一篇

DeepSeek發(fā)布了第2篇論文：DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models。這也是他們關(guān)于MoE架構(gòu)的第一篇論文。

這篇論文的亮點是：

① 精細化專家分割：把專家的數(shù)量從傳統(tǒng)如GShard等MoE方法再次進一步細分。專家越細分，每個專家的專業(yè)化程度就會越高，模型能力越強。

② 共享專家：有一些知識可能是高頻出現(xiàn)的，為了避免專業(yè)專家也學(xué)到這些知識，他們特地隔離出來一些專家作為共享專家。

通俗來講，可以理解共享專家就是醫(yī)院前臺，全能但無用，精細化分割后的專家就是?？漆t(yī)生，專業(yè)但垂直。

另外為了避免有朋友被我誤導(dǎo)，從而以為MoE里的專家就是數(shù)學(xué)專家、代碼專家。事實上并非如此，LLM里的專家，更多是Token層面的，他們的專業(yè)知識是人類難以理解的。

例如下圖，每個顏色就是一個專家。圖片來自論文Mixtral of Experts

另外MoE架構(gòu)允許模型僅使用部分參數(shù)就能激活完整能力——例如R1模型，他的參數(shù)是671B，但每次推理的時候只需要激活37B的參數(shù)，僅為5.5%的參數(shù)規(guī)模，這就讓訓(xùn)練和推理的成本驟降。

② 但是MoE會遇到兩個問題：不同的專家之間訓(xùn)練可能會失衡，就是有的專家老是沒被訓(xùn)練到，最后變成弱智。如果專家在不同設(shè)備（GPU）上這種情況就更嚴重了。甚至保證為了訓(xùn)練充分，計算過程會瘋狂跨設(shè)備通信，拼命找專家塞知識，哪怕送知識的路都塞死了（通信問題）也不停下，這就會導(dǎo)致性能浪費，成本升高。

為此他們設(shè)置了專家因子、設(shè)備因子來避免這個情況的發(fā)生。

這篇論文后來被用在DeepSeek-V2和DeepSeek-Coder-V2兩個模型上，并有了一些改進，后面會說到。

這一天離R1發(fā)布375天。

24年2月5日，進入數(shù)學(xué)領(lǐng)域

Deep發(fā)布了第4篇論文：DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models，在這篇論文中首次出現(xiàn)了GRPO（Group Relative Policy Optimization，組相對策略優(yōu)化）用以替代PPO。如果你不知道PPO，那么換一個名字——OpenAI的RLHF就是PPO方法。

這篇論文有如下亮點：

① 提出了GRPO。傳統(tǒng)的強化學(xué)習(xí)（PPO），假設(shè)你要訓(xùn)練一個67B的模型，需要在訓(xùn)練中維護3~4個67B的模型，分別是：1) 被訓(xùn)練的模型；2）一個不變的模型，用來與訓(xùn)練模型做參考，避免訓(xùn)歪了；3）獎勵模型，用以對被訓(xùn)練模型的輸出打分，用以訓(xùn)練。這個部分可以用規(guī)則，也可以用模型；4）價值模型，用以評估被訓(xùn)練模型的結(jié)果，給出價值判斷。

其中價值模型的訓(xùn)練非常困難和麻煩，并且他占用了大量的內(nèi)存和計算負擔(dān)，所以DeepSeek干脆把他干掉了。DeepSeek認為，價值模型本質(zhì)上就是給模型訓(xùn)練提供一個參考基線而已，那么我讓模型回答很多次，把多個回答的平均值當(dāng)成基線也可以啊。在這里GRPO的邏輯就是“鼓勵與平均基線不同，格外突出”的回答。

如果你覺得上面的東西很難理解，你就記住：GRPO讓模型訓(xùn)練的困難下降，并且成本降低。

注意，從GQA、MoE、到現(xiàn)在的GRPO，這已經(jīng)是DeepSeek在降低成本上提出的第三項嘗試，這種嘗試后面會越來越多

② 此外，他們發(fā)現(xiàn)在強化學(xué)習(xí)的過程中，不斷實時生成的數(shù)據(jù)比固定不變的數(shù)據(jù)訓(xùn)練效果更好（在線采樣VS離線采樣），為此，后來他們在DeepSeek-V2中，實現(xiàn)了在線強化學(xué)習(xí)框架。

值得一提的是，這個Math模型非常厲害，以至于全球第一屆AI奧數(shù)競賽，TOP4團隊全用的這個作為基礎(chǔ)模型。

這一天離R1發(fā)布350天。

24年2月8日，無人問津的新年祝福

DeepSeek在公眾號上基于DeepSeek-67B生成了新春祝福：辭舊迎新，揚帆起航｜DeepSeek送來AI新年賀詞，閱讀量僅有5K。

有趣的是，發(fā)布的IP來自四川，看來DeepSeek的運營同學(xué)可能來自四川。

這一天離R1發(fā)布347天。

24年3月8日，視覺模型第一篇

DeepSeek發(fā)布了第5篇論文：DeepSeek-VL: Towards Real-World Vision-Language Understanding，這是他們視覺模型系列的第一個版本。

DeepSeek的視覺模型系列論文共兩篇，但和V2、V3、R1至少在論文技術(shù)點上看不到太多的關(guān)聯(lián)性。

為了減少閱讀這篇內(nèi)容的負擔(dān)，在這里不對這篇論文進行亮點陳列和科普，感興趣的朋友可以在文末找到我全部13篇論文的中-英雙語+批注解釋版本，那里會更詳細。

24年5月6日，V2發(fā)布，價格屠夫

DeepSeek發(fā)布了DeepSeek-V2-236B（激活參數(shù)21B），性能上超過所有開源模型，并極度逼近閉源模型如GPT-4-1106-preview

而在價格上，更是讓西方驚嘆，經(jīng)典的中式價格屠夫又來了。

隨后，在5月7日，他們發(fā)布了第6篇論文：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model，這篇論文中的亮點我列出來的有14個，全部寫出來各位腦漿可能都要沸騰了，我只挑一些重要、有代表性的說一下。

本篇論文亮點如下：

① 提出了MLA（Multi-head Latent Attention）取代DeepSeek-67B中使用的GQA。而GQA一開始就是處于降低成本目的取代的傳統(tǒng)的MHA（Multi-head Attention）。注意到?jīng)]有，MLA比MHA的差別只在于多了一個latent。他的區(qū)別就是把KV緩存，進行了低秩壓縮成為潛向量（latent空間）。你可能覺得好難理解，沒關(guān)系，看下面這張圖：

左側(cè)是原本的KV緩存，右側(cè)是低秩壓縮后的KV緩存，數(shù)據(jù)變得非常小，但是精髓的語義全部保留。

在完成壓縮后，MLA的成本和原本的GQA相當(dāng)。但GQA原本就是成本低，性能差，而MLA成本和GQA一樣，性能卻比GQA乃至傳統(tǒng)的MHA更強！

② 相較1月11日發(fā)布的MoE論文，他們做了一項改進：在Token選擇MoE 專家的時候，先計算一下這個Token對每個專家的親和力，然后只選擇其中的部分專家。就是說你去醫(yī)院，要會診的時候，傳統(tǒng)MOE給你安排8個專家，現(xiàn)在通過計算你的病情，只找3個專家就行了——這又進一步降低了成本。

③ 然后他們在MoE上還做了一個改進。前面不是提到怕專家訓(xùn)練失衡，導(dǎo)致有的專家變得弱智嗎？為此加了專家因子和設(shè)備因子做平衡，這次他們多加了一個通信因子——就是避免因為設(shè)備間通信的原因，導(dǎo)致專家訓(xùn)練不夠或成本上升。

④ 就算他們加了這么多控制因素，專家畢竟在多個設(shè)備上，還是很容易出問題。他們又設(shè)置了一個Token丟棄策略，根據(jù)Token和專家的親和分來判斷：如果設(shè)備爆了，那么親和分低的Token就不訓(xùn)練了丟掉。——顯然，這是為成本而做出的性能妥協(xié)，這肯定會導(dǎo)致模型能力下降。怎么辦呢？放心，他們在3個月后近乎完全解決了這個問題。

⑤ 前面Math那篇論文提到過，他們確認了實時獲得RL數(shù)據(jù)比離線的效果更好，為此花費大量精力做了一個RL框架（原話：we invest tremendous efforts哈哈哈，是多痛苦才在論文里這樣寫）

這一天離R1發(fā)布259天。

此外，補充一點，5月15日，DeepSeek通過大模型備案，全面對國內(nèi)開放。

24年5月23日，進入定理證明領(lǐng)域

DeepSeek發(fā)布第7篇論文：DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data，這是關(guān)于定理證明（Theorem Proving）的。

Prover系列是我看得最頭痛的論文，因為他解決的問題是“數(shù)學(xué)定理證明”，DeepSeek的工作暫時集中在高中、大學(xué)范疇，還不涉及特別高深的數(shù)學(xué)難題——但他們的大學(xué)是清北，我的大學(xué)是二本，我們眼中的大學(xué)數(shù)學(xué)可能不是一個東西……

為方便大家理解，要先對“數(shù)學(xué)定理證明”做一個科普

如下圖左側(cè)，這是我們高中時需要進行的證明題，大家可能還有一些印象。要讓計算機計算1+1=？是簡單的，這只是一個計算題。但是要讓計算機完成加法交換律，證明A+B=B+A，卻需要一套專門提供給計算機使用的語言。這就是“形式數(shù)學(xué)語言”（如下圖右側(cè)）。

數(shù)學(xué)定理證明領(lǐng)域是大模型推理難度非常高的領(lǐng)域，在這個方向的積累會極大程度有助于大模型的推理能力提升。事實上，我也確實看到很多Prover系列的技術(shù)思路被復(fù)用在V3/R1上。

本文亮點如下：

① 通過LLM將自然語言表達的數(shù)學(xué)問題，轉(zhuǎn)為計算機可識別的“形式數(shù)學(xué)語言”

② 為加快訓(xùn)練效率，讓大模型同時進行定理的證明和反證，這樣有一條路走通，另一條路就不用走了

③ 通過Self-instruct的方式，用自己合成的數(shù)據(jù)來訓(xùn)練自己?！@個方法后來用在了R1當(dāng)中

④ 通過高級模型蒸餾一些高質(zhì)量的數(shù)據(jù)，作為冷啟動數(shù)據(jù)。——這個方法后來用在了R1當(dāng)中

這一天離R1發(fā)布242天。

24年6月17日，Coder-V2，不幸撞車

DeepSeek發(fā)布DeepSeek-Coder-V2-236B（激活參數(shù)21B），在DeepSeek-V2-Base的基礎(chǔ)上訓(xùn)練而成。論文：DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

本文亮點：

① 是首個開源的100B以上的代碼模型

② 之前建立的代碼/數(shù)學(xué)數(shù)據(jù)收集管道，由于V2模型進化，導(dǎo)致精度變高，數(shù)據(jù)的質(zhì)量更高了——現(xiàn)在V3版本出現(xiàn)了，數(shù)據(jù)精度可能會進一步提升，值得期待。

模型在性能上超越了所有開源模型，并極度逼近GPT-4——而且成本依舊是爆炸性的低。

非常可惜的是，僅僅過了4天，6月21日，Claude 3.5 Sonet發(fā)布，代碼領(lǐng)域的神登基了——直到今天，它仍未隕落?？陀^地說，V3和R1在jason輸出，代碼格式等方面仍然稍弱Claude3.5一籌。

這一天離R1發(fā)布217天。

24年8月15日，Prover1.5

DeepSeek發(fā)布Prover系列第二個模型，DeepSeek-Prover-1.5-7B：Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search

本文亮點：

① 為定理證明引入CoT數(shù)據(jù)+lean狀態(tài)數(shù)據(jù)。即整個輸入包括：數(shù)學(xué)問題+自然語言描述的解題思路（CoT）+當(dāng)前解題步驟中Lean的狀態(tài)反饋（Lean是專用于形式化數(shù)學(xué)定理證明的工具）

② 提出RMaxTS（蒙特卡洛樹搜索的一種變體）。因為整個證明過程是一步步推敲的，類似下圍棋一樣，一步步下，所以可以用搜索算法來判斷證明的下一步。他們的核心設(shè)計在于：1）為搜索附加了一個“內(nèi)在獎勵”，用于鼓勵模型去探索未知節(jié)點。2）隨著探索推進，大部分節(jié)點都是失敗結(jié)果，這會導(dǎo)致獎勵很稀疏（大量失敗，少量正確），為此他們引入DUCB（discounted upper confidence bounds），即越往后發(fā)現(xiàn)的正向獎勵越高

這篇論文中的CoT數(shù)據(jù)的構(gòu)造思路最后用在了R1模型上面。R1還嘗試使用了RMaxTS，這很符合OpenAI之前論文中提及的過程獎勵——即判斷模型每一步的價值，而不是判斷最終結(jié)果。

這一天離R1發(fā)布158天。

24年8月28日，MoE系列第二篇

DeepSeek發(fā)布MoE系列第二篇論文：Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts，在這篇論文中，他們升級了MoE負載均衡的控制方法（就是怎么讓每個專家充分訓(xùn)練，又避免成本上升）

本文亮點：

① 回憶一下上個MoE版本可以稱為“有損負載均衡控制”，他們的方法是通過專家因子，設(shè)備因子，通信因子三個超參數(shù)來控制負載均衡。但實際使用中，并不能完全解決問題，為此他們還引入了Token丟棄策略，在一些專家實在學(xué)不過來的時候，丟掉一些不適配的Token?！梢韵胂筮@種MoE方案必定是會損害性能的

② 在這個版本中，他們引入了一個模型來控制負載均衡。模型會觀察每個訓(xùn)練批次中專家的“勞累情況”，如果某個專家太累，后續(xù)就少派學(xué)習(xí)任務(wù)，如果太閑，就多派點學(xué)習(xí)任務(wù)。

③ 實驗表明，這種方法在訓(xùn)練成本上實現(xiàn)了極大的提升，同時對模型的性能（能力）也導(dǎo)致了輕微的提升。

這個MoE方案是當(dāng)前他們最終的MoE方案了，最后用在了V3和R1中

這一天離R1發(fā)布145天。

24年12月13日，視覺模型第二篇

DeepSeek發(fā)布了視覺模型的第二篇論文：DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding，這是一個MoE架構(gòu)的模型，DeepSeek-VL2-27B（激活4.1B）

同樣的，由于視覺模型系列，看起來似乎未與V3、R1有太大關(guān)聯(lián)，我們不在這里展開說明論文亮點。

這一天離R1發(fā)布38天。

24年12月26日，V3發(fā)布，登神在即

DeepSeek發(fā)布了DeepSeek-V3-671B（激活37B）

一天后，12月27日，發(fā)布論文DeepSeek-V3 Technical Report

本文亮點：

① 前面提到的最新MoE方案，GRPO，MLA，Prover中的CoT實踐，Self-instruct全部都用上了

② 實現(xiàn)了MTP（Multi-Token Prediction）方法，即讓模型同時預(yù)測下一個+下下一個Token。這個方法將提升模型訓(xùn)練的效果，同時降低訓(xùn)練成本和推理成本，并且他是可拆卸的。原理科普有點長，我不想再敲一遍，把注釋截圖過來

③ 在開放性問題上，他們使用基于模型的獎勵。重點是在獎勵模型的訓(xùn)練中，他們并不是讓模型學(xué)習(xí)“如果xxx，就是好的”，而是“如果xxx，那么因為xxx，所以他是好的”——即引入了獎勵的CoT思考過程。

④ 基于R1-lite的推理數(shù)據(jù)進行自身的二次微調(diào)優(yōu)化，從而提升表現(xiàn)推理表現(xiàn)。需要注意的是，V3并不是使用R1數(shù)據(jù)進行微調(diào)，而是R1-lite，真正的R1實際上是在12月26日V3發(fā)布后，用了幾周時間訓(xùn)練出來的。

⑤ 實現(xiàn)FP8混合精度訓(xùn)練。對于FP8，你可以近似把他看成小數(shù)點位，即FP8允許計算、儲存8位小數(shù)點，F(xiàn)P32則允許32位，很顯然，F(xiàn)P8計算性能更低，但精度也更低。——補充，以上僅為方便理解，實際上例如FP32支持的不是32位小數(shù)，而是1個符號位+8個指數(shù)位+23個小數(shù)位。

所以DeepSeek做的是FP8“混合”精度訓(xùn)練，而不是FP8訓(xùn)練，即在實踐中，他們將有的操作放在FP32環(huán)境進行，有的放在FP8進行，甚至先在FP8，發(fā)現(xiàn)算不過來然后放過去FP32。

這里再補充一個知識，我們經(jīng)常聽到模型量化，或者說A模型的FP4版本，這其實就是說把模型的參數(shù)從FP8的精度降到FP4的精度。這樣模型的計算成本會極度降低，從而節(jié)約成本。

⑥ 除此以外還有大量的Infra優(yōu)化細節(jié)，例如通過一套Dualpipe管線，將計算和通信完全重疊，定制的PTX以自動調(diào)整通信塊大小，反向傳播期間重算部分工作以節(jié)約內(nèi)存，利用CPU存放EMA等等

整篇論文最大的特點就是大量的Infra優(yōu)化細節(jié)，再疊加前面MoE、MLA、GRPO等形成了成本的進一步驟降。

還記得前面那篇暗涌對梁文峰的采訪嗎，再重復(fù)一遍我最喜歡的那句話：我們希望更多人，哪怕一個小 app都可以低成本去用上大模型，而不是技術(shù)只掌握在一部分人和公司手中，形成壟斷。

如果社會的未來注定走向近賽博朋克，那反抗軍的火苗也未嘗不能燒遍曠野。

這一天離R1發(fā)布25天，留給DeepSeeker們加班訓(xùn)練R1的時間不多了！

24年1月15日，席卷全球

DeepSeek APP上架，席卷全球應(yīng)用商店榜單

這一天離R1發(fā)布5天

24年1月20日，登神

DeepSeek-R1發(fā)布，當(dāng)時的盛況可能很多人還歷歷在目，這股浪潮一直席卷到今天。

2天后，1月22日，DeepSeek發(fā)布R1論文：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

附帶說一句，1月23日，是英偉達股價最高點，而后在1月24日開啟了暴跌之路（可能老外們花了一天讀論文吧）

本文亮點：

① 前文已提過的MoE、GRPO、MLA等等不再提及和描述

② R1-Zero，完全通過強化學(xué)習(xí)來實現(xiàn)模型的能力挖掘。但需要澄清：R1-Zero只在推理任務(wù)領(lǐng)域進行了優(yōu)化學(xué)習(xí)，即代碼、數(shù)學(xué)等常見的推理領(lǐng)域，這符合DeepSeek一直以來在Math、Prover、Coder等系列的嘗試，也符合他們通常先做面向推理的強化學(xué)習(xí)對齊，再做面向人類偏好的強化學(xué)習(xí)對齊習(xí)慣。

③ 完全公開了能力上匹敵OpenAI-o1級別模型的訓(xùn)練流程：1）先對R1-Zero的數(shù)據(jù)進行篩選&人為標注，去掉了過長、語言重復(fù)等嚴重的問題，獲取高質(zhì)量的種子數(shù)據(jù)，進行微調(diào)（來自Prover），以讓模型一開始就靠譜一點；2）進行面向推理的強化學(xué)習(xí)（和R1-Zero一樣），其中引入語言一致性目標；3）進行SFT，其中推理數(shù)據(jù)來自當(dāng)前階段的R1數(shù)據(jù)（但還是經(jīng)過了過濾和處理），非推理數(shù)據(jù)來自V3模型的數(shù)據(jù)集，并且部分數(shù)據(jù)額外附加了CoT；4）最后再進行一次面向人類偏好的強化學(xué)習(xí)，目標為有用性（針對摘要部分內(nèi)容），無害性（針對全部回答內(nèi)容）

整個過程非常有意思，SFT→RL→SFT→RL，和常見的SFT→RL很不一樣。

④ 使用R1的800KSFT數(shù)據(jù)對市面上的開源模型進行了SFT，結(jié)果發(fā)現(xiàn)性能上極度增強

⑤ 并且他們一度嘗試將他們這套RL方法用在開源模型上，試圖看看效果怎么樣，結(jié)果發(fā)現(xiàn)兩個有趣的現(xiàn)象：1）對開源模型先SFT，再RL，性能還能再強，但論文中沒有提供結(jié)果，只是提了一嘴；2）對開源模型完全復(fù)用R1-Zero的模式，效果還不如就用R1的800K數(shù)據(jù)蒸餾，他們覺得這可能和基礎(chǔ)模型的智力水平有關(guān)——讓一個人自由學(xué)習(xí)VS填鴨學(xué)習(xí)，對于天才和學(xué)渣的效果是完全不一樣的。

⑥ 最后他們坦誠地公開了兩個失敗方向：1）OpenAI提出的PRM（過程獎勵）很難搞，反正他們搞不定；2）基于MCTS（蒙特卡洛樹搜索）的強化學(xué)習(xí)也不現(xiàn)實（這個方法來自Prover1.5）

02 一些有趣的發(fā)現(xiàn)

到這里，我們走完了DeepSeek 在647天內(nèi)所塑造的登神長階。

其實日期后面的文字簡述是我最后才補上的。在寫的時候我突然想到了一個網(wǎng)文圈的陳年老梗：“第1000章天下無敵”→“第1001章天上來敵”。

到1月20日R1發(fā)布，是DeepSeek在我這篇文章中登神長階的結(jié)束，但絕不是他們證神之路的終點，希望他們會越來越好。

然后，讓我分享一些沒那么有價值，但很有趣的發(fā)現(xiàn)。也舒緩一下大家被技術(shù)術(shù)語、概念轟炸的大腦皮層。

新年祝福，可憐的運營同學(xué)

24年2月8日，DeepSeek發(fā)布了新春祝福，閱讀量5K，IP在四川，運營同學(xué)疑似回四川過年了。

25年1月27日，DeepSeek發(fā)布了新春祝福，閱讀量10W，IP在北京運營同學(xué)疑似陪著整個團隊一起加了個跨年班。

梁文峰在公司做啥

我整理了DeepSeek14篇論文（含一篇2D轉(zhuǎn)3D的）的作者名單

除了DeepSeek-67B，V2，R1這三篇全員大集合的論文外

他只出現(xiàn)在兩個地方：MoE論文和Coder系列論文

我不認為DeepSeek是一家需要給老板讓渡署名權(quán)的公司，梁如果出現(xiàn)，一定是在其中有所貢獻

所以梁文峰看起來比較喜歡Coder這個領(lǐng)域方向，我等AI編程小白有福了，就等DeepSeek搞一個碾壓3.5又便宜的Coder-V3出來！

小米千萬年薪挖走的羅福莉

通過作者名單檢索

羅福莉出現(xiàn)在：MoE，Coder序列，Prover-1.5這些論文中，看起來她擅長代碼、數(shù)學(xué)這些推理領(lǐng)域的工作

值得說明的是，盡管12月30日傳出雷軍挖角羅福莉的新聞，但在1月20日發(fā)布的R1論文中，仍有她的署名。

其實現(xiàn)在圈子里很多朋友有一種擔(dān)心——木秀于林風(fēng)必摧之：DeepSeek會不會像OpenAI一樣，人才紛紛出走，跳槽，挖角，然后創(chuàng)造力逐步下降呢？

但我想，如果一個組織，可以用647天，憑借完全的創(chuàng)造力和熱情創(chuàng)造這么偉大的作品。那么更重要的可能不是里面的每個個體，而是這個組織本身。

附上DeepSeek公眾號的簡介：“致力于探索AGI的本質(zhì)，不做中庸的事，帶著好奇心，用最長期的眼光去回答最大的問題”。

03 我對未來的想法

我自己會有一份完整的未來思考，不會公開，我不希望自己陷入宏觀敘事的喋喋不休中。

我只在這里提出兩個較為底層和堅固的想法

技術(shù)的潛力還很大

這647天里，DeepSeek做了非常多的技術(shù)創(chuàng)新，但受限于人力，他們?nèi)匀挥泻芏嗟胤經(jīng)]有探索到，或涉獵不深，這意味著技術(shù)仍然存在廣闊的挖掘潛力和向上空間。甚至哪怕LLM真的有一天停滯了，技術(shù)力也會流向圖像、視頻、音頻、多模態(tài)、3D等領(lǐng)域相對更弱關(guān)注的領(lǐng)域，直到填平所有洼地。

而這只是DeepSeek，還不包括如OpenAI、Claude、Google等同級別的公司，以及其余廠商、學(xué)術(shù)人員、創(chuàng)業(yè)者能涌現(xiàn)出來的智慧。

中國可能發(fā)生一些好的變化

如DeepSeek這樣的團隊很少，但也可能再出現(xiàn)第二個，第三個——尤其在硅谷更是如此，永遠相信隨機性。但更重要的是，中國市場在感受到這種“硬核創(chuàng)新”所帶來的巨額回報后，一定在各個環(huán)節(jié)都產(chǎn)生一些正向影響。就如同黑神話對單機游戲的改變，哪吒2對電影的改變一樣。——對了，請讓清華大學(xué)104頁DeepSeek入門PPT這種內(nèi)容少一點（非常不客氣的指名道姓，我不在乎，Thx）。

總結(jié)起來就兩句話：看多中國，看多AI，結(jié)束。

對了，其實有個有趣的彩蛋，我沒放到文章里來，各位如果像我一樣從頭開始看著13篇論文，不妨看看每篇論文結(jié)束部分的“Conclusion, Limitation, and Future Work”，看看DeepSeek對未來的工作規(guī)劃，是否總是在逐步實現(xiàn)。

另外一些則藏得比較深，他們有時候會偷偷放棄過去的一些方法，不告訴任何人（指寫到論文里）。

對我來說，這些內(nèi)容算是這三天里為數(shù)不多的腦皮層舒緩時間。

04 最后，說明一下附屬材料

DeepSeek的13 篇論文

在飛書Wiki左側(cè)目錄里可以看到，就在這篇文章的下級菜單里

這13篇論文情況如下：

① 中文-英文翻譯對照，部分機翻得太離譜的我會親自校正，但如果不影響我閱讀，我就沒額外處理，所以翻譯質(zhì)量可能不會太好。

② 另外正文中對公式的推導(dǎo)，由于飛書粘貼過來會變得很扁平，例如2的2次方，可能變成22，但由于大部分公式我是不關(guān)注的，所以沒有全部處理。

③ 論文末尾有大量的附錄，以及引用論文鏈接。這些內(nèi)容對我來說信效比較低，所以刪掉了，如果要看，可以通過文章開頭的論文原始地址去看原文。

④ 比這篇文章更全面，細致的亮點總結(jié)，但由于非公開發(fā)表，所以基本上沒潤色過，可能會有些不通順。

⑤ 包含我閱讀時的個人注釋，以紅底標注，紅字說明，但由于我的學(xué)識所限，難免有理解錯誤的地方。并且我是從第一篇開始往后看，所以你越往后看會發(fā)現(xiàn)注釋越少，因為已出現(xiàn)過的技術(shù)我通常不會再注釋。

思維導(dǎo)圖、人員清單、各個廠商的時間線

這些是我寫作中用到的輔助材料

① 思維導(dǎo)圖源文件在這篇文章的飛書版本上，拉到文末就可以看見，在這里因為同步不了所以只放了一張圖。

② 人員清單我不會公開，這是出于對DeepSeek的尊重。雖然在事實上，競對公司的人員穿透是一個很普遍的做法，我相信國內(nèi)乃至國外的諸多競爭對手已經(jīng)把DeepSeek的全員名單都拉出來了，甚至?xí)任易龅酶钊?。但能少暴露一點是一點。在這里順便祝DeepSeek的競對友商挖角全部失敗~

③ 另外我還整理了一份包括OpenAI、DeepSeek、Claude、智譜、minimax等大模型廠商的產(chǎn)品發(fā)布時間線，也放在飛書Wiki上。

上述內(nèi)容除DeepSeek人員清單外，獲取方式和論文一樣。

本文由@馬丁的面包屑原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App