萬字長文:DeepSeek 647天鑄就的登神長階

0 評論 353 瀏覽 1 收藏 44 分鐘

這篇文章深入剖析了DeepSeek在大語言模型(LLM)領(lǐng)域的發(fā)展歷程,詳細回顧了其從2023年4月踏上AGI征程到2024年1月發(fā)布震驚世界的R1模型的647天。文章以時間為線索,梳理了DeepSeek在技術(shù)創(chuàng)新、模型迭代與公司文化等方面的諸多細節(jié),展現(xiàn)了其如何通過一系列堅實的技術(shù)突破和戰(zhàn)略決策逐步構(gòu)建起強大的技術(shù)壁壘,并最終實現(xiàn)登頂。

過完元宵節(jié)從老家回到深圳,我用三天時間,讀完了Deepseek在LLM領(lǐng)域的13篇論文,從里面發(fā)現(xiàn)了一些細節(jié),分享給你們。

首先,震驚世界的R1,不是一日鑄就的,里面用到了很多過去項目中獨創(chuàng)的技術(shù)突破。

其中一些突破在逐步驗證后,反復(fù)迭代升級,最終成為了R1的牢固基石,例如他們當(dāng)前所用的MoE框架,經(jīng)歷了四次升級。又比如GRPO,最開始其實是在一個數(shù)學(xué)模型,DeepSeek-Math-7B上首次提出的。

當(dāng)然也有一些技術(shù)選擇或技術(shù)突破,他們在后續(xù)工作應(yīng)用時失敗了,或者放棄了。例如令牌丟棄策略,例如他們提出的RMaxTS(蒙特卡洛樹變體)。

所有13篇論文組成了我眼中的“登神長階”,這里面每個臺階都是極其堅固和富有創(chuàng)意的。我相信這條登神之路,遠遠未到終點。

其次,從論文的非技術(shù)部分我還發(fā)現(xiàn)了一些有趣的地方。可以用來佐證外界所傳言的DeepSeek獨特公司文化。

最后,關(guān)于內(nèi)容的專業(yè)性和友好性問題。我會盡力做不失精確的科普。但由于以下限制:

1)部分技術(shù)內(nèi)容需要大量前置知識,展開說明篇幅會爆炸;

2)我自身不可避免帶有知識詛咒;

3)我個人的技術(shù)理解偏差。所以只能說盡可能保證精確和科普友好。

如果有看不懂的概念,建議使用這個prompt問問DeepSeek-R1:

接下來我的內(nèi)容將按時間線組織,以論文為核心主線,但也會少量穿插一些重要事件(特別是開頭)。

論文中出現(xiàn)的技術(shù)創(chuàng)新點,我會盡可能用通俗科普的方式解釋清楚。但我不希望這篇內(nèi)容過長,所以如果需要查看完整的亮點和科普內(nèi)容,請移步這13篇論文的翻譯&注釋文檔。

01 DeepSeek的647天

23年4月14日,開始

DeepSeek前身幻方量化在公眾號發(fā)布文章幻方新征程,宣布將以研究組織的形式投入AGI征程

文章引文——“務(wù)必要瘋狂地擁抱雄心,同時要瘋狂地真誠”

文章閱讀量8387,剔除其過去舊用戶日均的3000閱讀,可以說除了AI核心圈的人士,幾乎無人知曉。

這一天離ChatGPT發(fā)布135天,離DeepSeek-R1發(fā)布647天。

23年5月24日,官宣

暗涌采訪了DeepSeek梁文峰,在公眾號發(fā)布《瘋狂的幻方:一家隱形AI巨頭的大模型之路》

網(wǎng)絡(luò)上關(guān)于這篇文章的解讀非常多,我就不重復(fù)闡述了,感興趣的可以看看原文

大家可以分享一下最喜歡哪句話。我喜歡的可能和多數(shù)人不太一樣,是下面這句

“我們希望更多人,哪怕一個小 app都可以低成本去用上大模型,而不是技術(shù)只掌握在一部分人和公司手中,形成壟斷”

這篇文章標志著DeepSeek的籌備接近完成,梁文峰開始認真招人了。

相近的時間線上,ChatGPT IOS版在5月18日發(fā)布,迅速登上TOP1。

這一天距離R1發(fā)布607天。

23年7月17日,公司成立

DeepSeek注冊成立,全稱杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司。

很多人可能是第一次看到這個公司的全稱。是的,DeepSeek是DeepSeek,AI六小龍是AI六小龍,他們是不一樣的公司。

這一天距離R1發(fā)布553天。

23年10月25日,第一篇論文

DeepSeek發(fā)布論文:DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior,支持從圖像生成3D模型。這篇論文中的7位作者后來有6位出現(xiàn)在了DeepSeek Visual系列模型中。

這也是唯一我沒有深入閱讀的DeepSeek論文,因為看起來他只和圖像有關(guān),與LLM沒有太大關(guān)系。我也不清楚為什么這個方向是DeepSeek的第一篇論文。

這也是DeepSeek在X上注冊后發(fā)布的第一條公告信息Introducing #DreamCraft3D

這一天距離R1發(fā)布453天。

但接下來,真正的狂飆開始了!

你將看到DeepSeek是如何一步步打磨他們的技術(shù)棧,并創(chuàng)造出R1這樣的驚艷產(chǎn)品。

下面是我梳理思路用的思維導(dǎo)圖,每個灰色的小塊是一篇論文,綠色塊則是獨創(chuàng)的技術(shù)點,虛線是技術(shù)點在不同論文(模型)之間的引用。

當(dāng)然,別害怕,這個圖只是讓你建立一個模糊概念,接下來我們還是按時間線講。

23年11月2日,狂飆開始:Coder-V1

DeepSeek公眾號注冊,發(fā)布首篇文章:可能是最強的開源代碼大模型!深度求索發(fā)布 DeepSeek Coder,閱讀量4.3W

24年1月25日,發(fā)布論文:DeepSeek-Coder: When the Large Language Model Meets Programming — The Rise of Code Intelligence

這篇論文嘗試在儲存庫級別組織預(yù)訓(xùn)練數(shù)據(jù)。即我不是簡單讓大模型學(xué)習(xí)單一的代碼文件,而是要讓大模型認識到代碼之間的組織關(guān)系。例如一個代碼項目中,某個代碼文件是需要調(diào)用另一個代碼文件的,又或者Readme、接口文檔這類描述整體邏輯的文檔。

補充技術(shù)原創(chuàng)判定規(guī)則:我并非專業(yè)的算法人員,所以我很難判斷某個方法是否DeepSeek首創(chuàng)。我的判斷標準為——如DeepSeek在論文中附加了其他論文引用,則為非原創(chuàng);如DeepSeek大幅描述,且無相關(guān)引用,則為原創(chuàng)。

補充時間線判定規(guī)則:當(dāng)DeepSeek公開發(fā)布一個項目,然后公開論文,以項目為時間線,因為論文的發(fā)布可能具有滯后性。但若無相關(guān)項目,則以論文為第一時間線判定節(jié)點。

這一天距離R1發(fā)布445天。

23年11月29日,DeepSeek-67B(V1)

DeepSeek發(fā)布第一個通用大模型 DeepSeek-67B。

24年1月5日,7天后,DeepSeek發(fā)布對應(yīng)論文,也是LLM系列第一篇:DeepSeek LLM Scaling Open-Source Language Models with Longtermism。

這篇論文中,有如下亮點:

① 使用GQA(Grouped-Query Attention)取代傳統(tǒng)的MHA(Multi-Head Attention)。注意力機制是Transferfomer中一個重要模塊,很難快速解釋清楚。如果不懂的朋友,你搞清楚一點即可:GQA相對MHA,在成本上會更低,但是效果會下降——為此他們增加了模型深度,以緩解模型效果的下降,但效果還是不如MHA。

② 他們使用了多步學(xué)習(xí)率調(diào)度器來取代余弦學(xué)習(xí)率調(diào)度器。學(xué)習(xí)率可以近似理解為模型以多快的速度學(xué)習(xí)數(shù)據(jù),通常在剛開始訓(xùn)練的時候可以讓他猛猛學(xué),隨著時間推移就必須逐步降低。他們設(shè)定的多步學(xué)習(xí)率是前80%進程中固定最大值,80%~90%為31.6%,90%~100%為10%。這樣做的好處是,如果你想搞N個模型做實驗,那么前80%是可以復(fù)用的,你只需要針對后20%進行實驗,從而把每次實驗成本從100%壓低到20%。

③ 在GQA和多步學(xué)習(xí)率調(diào)度器這種方案組合下,他們的實驗成本非常低。因此他們做了大量實驗來驗證一個事情:到底Scaling Law的公式到底是什么?(Scaling laws:模型的性能與計算量、參數(shù)量、數(shù)據(jù)規(guī)模存在關(guān)聯(lián),越大越好)

④ 首先他們重新定義了C=6ND公式,這是過去流傳甚廣的計算資源計算公式。N是參數(shù)規(guī)模,D是數(shù)據(jù)規(guī)模,C是計算資源。但他們發(fā)現(xiàn)這個公式是不精確的,在小參數(shù)模型的情況下,偏差率最高能達到50%。于是他們用M(FLOPs/token) 來取代6N,以實現(xiàn)更精確的計算資源估算。

⑤ 然后他們做了一堆實驗,推導(dǎo)出超參數(shù)的Scaling laws公式,當(dāng)計算資源C確定時,可以推導(dǎo)出對應(yīng)Batch Size和學(xué)習(xí)率。附圖如下:

⑥ 他們還做了一堆實驗,推導(dǎo)出最佳的模型和數(shù)據(jù)分配策略,即計算資源確定,模型大小和數(shù)據(jù)大小的關(guān)系。

回到論文的標題:DeepSeek LLM Scaling Open-Source Language Models with Longtermism?;陂L期主義的開源大語言模型。

當(dāng)我全部讀完整篇內(nèi)容的時候,我才知道DeepSeek眼中的長期主義是什么——“這個事情我可能要做很久,不著急,我把我的基礎(chǔ)打好,把最簡潔,最基礎(chǔ),最底層的公式、定理推導(dǎo)好,驗證好,一步步做就是了”。

事實上,在后續(xù)的12篇論文里他們也是這么做的,一點點用實驗和實踐,趟出了通向AGI的道路。

這一天離R1發(fā)布418天。

24年1月11日,MoE系列第一篇

DeepSeek發(fā)布了第2篇論文:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models。這也是他們關(guān)于MoE架構(gòu)的第一篇論文。

這篇論文的亮點是:

① 精細化專家分割:把專家的數(shù)量從傳統(tǒng)如GShard等MoE方法再次進一步細分。專家越細分,每個專家的專業(yè)化程度就會越高,模型能力越強。

② 共享專家:有一些知識可能是高頻出現(xiàn)的,為了避免專業(yè)專家也學(xué)到這些知識,他們特地隔離出來一些專家作為共享專家。

通俗來講,可以理解共享專家就是醫(yī)院前臺,全能但無用,精細化分割后的專家就是??漆t(yī)生,專業(yè)但垂直。

另外為了避免有朋友被我誤導(dǎo),從而以為MoE里的專家就是數(shù)學(xué)專家、代碼專家。事實上并非如此,LLM里的專家,更多是Token層面的,他們的專業(yè)知識是人類難以理解的。

例如下圖,每個顏色就是一個專家。圖片來自論文Mixtral of Experts

另外MoE架構(gòu)允許模型僅使用部分參數(shù)就能激活完整能力——例如R1模型,他的參數(shù)是671B,但每次推理的時候只需要激活37B的參數(shù),僅為5.5%的參數(shù)規(guī)模,這就讓訓(xùn)練和推理的成本驟降。

② 但是MoE會遇到兩個問題:不同的專家之間訓(xùn)練可能會失衡,就是有的專家老是沒被訓(xùn)練到,最后變成弱智。如果專家在不同設(shè)備(GPU)上這種情況就更嚴重了。甚至保證為了訓(xùn)練充分,計算過程會瘋狂跨設(shè)備通信,拼命找專家塞知識,哪怕送知識的路都塞死了(通信問題)也不停下,這就會導(dǎo)致性能浪費,成本升高。

為此他們設(shè)置了專家因子、設(shè)備因子來避免這個情況的發(fā)生。

這篇論文后來被用在DeepSeek-V2和DeepSeek-Coder-V2兩個模型上,并有了一些改進,后面會說到。

這一天離R1發(fā)布375天。

24年2月5日,進入數(shù)學(xué)領(lǐng)域

Deep發(fā)布了第4篇論文:DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models,在這篇論文中首次出現(xiàn)了GRPO(Group Relative Policy Optimization,組相對策略優(yōu)化)用以替代PPO。如果你不知道PPO,那么換一個名字——OpenAI的RLHF就是PPO方法。

這篇論文有如下亮點:

① 提出了GRPO。傳統(tǒng)的強化學(xué)習(xí)(PPO),假設(shè)你要訓(xùn)練一個67B的模型,需要在訓(xùn)練中維護3~4個67B的模型,分別是:1) 被訓(xùn)練的模型;2)一個不變的模型,用來與訓(xùn)練模型做參考,避免訓(xùn)歪了;3)獎勵模型,用以對被訓(xùn)練模型的輸出打分,用以訓(xùn)練。這個部分可以用規(guī)則,也可以用模型;4)價值模型,用以評估被訓(xùn)練模型的結(jié)果,給出價值判斷。

其中價值模型的訓(xùn)練非常困難和麻煩,并且他占用了大量的內(nèi)存和計算負擔(dān),所以DeepSeek干脆把他干掉了。DeepSeek認為,價值模型本質(zhì)上就是給模型訓(xùn)練提供一個參考基線而已,那么我讓模型回答很多次,把多個回答的平均值當(dāng)成基線也可以啊。在這里GRPO的邏輯就是“鼓勵與平均基線不同,格外突出”的回答。

如果你覺得上面的東西很難理解,你就記住:GRPO讓模型訓(xùn)練的困難下降,并且成本降低。

注意,從GQA、MoE、到現(xiàn)在的GRPO,這已經(jīng)是DeepSeek在降低成本上提出的第三項嘗試,這種嘗試后面會越來越多

② 此外,他們發(fā)現(xiàn)在強化學(xué)習(xí)的過程中,不斷實時生成的數(shù)據(jù)比固定不變的數(shù)據(jù)訓(xùn)練效果更好(在線采樣VS離線采樣),為此,后來他們在DeepSeek-V2中,實現(xiàn)了在線強化學(xué)習(xí)框架。

值得一提的是,這個Math模型非常厲害,以至于全球第一屆AI奧數(shù)競賽,TOP4團隊全用的這個作為基礎(chǔ)模型。

這一天離R1發(fā)布350天。

24年2月8日,無人問津的新年祝福

DeepSeek在公眾號上基于DeepSeek-67B生成了新春祝福:辭舊迎新,揚帆起航|DeepSeek送來AI新年賀詞,閱讀量僅有5K。

有趣的是,發(fā)布的IP來自四川,看來DeepSeek的運營同學(xué)可能來自四川。

這一天離R1發(fā)布347天。

24年3月8日,視覺模型第一篇

DeepSeek發(fā)布了第5篇論文:DeepSeek-VL: Towards Real-World Vision-Language Understanding,這是他們視覺模型系列的第一個版本。

DeepSeek的視覺模型系列論文共兩篇,但和V2、V3、R1至少在論文技術(shù)點上看不到太多的關(guān)聯(lián)性。

為了減少閱讀這篇內(nèi)容的負擔(dān),在這里不對這篇論文進行亮點陳列和科普,感興趣的朋友可以在文末找到我全部13篇論文的中-英雙語+批注解釋版本,那里會更詳細。

24年5月6日,V2發(fā)布,價格屠夫

DeepSeek發(fā)布了DeepSeek-V2-236B(激活參數(shù)21B),性能上超過所有開源模型,并極度逼近閉源模型如GPT-4-1106-preview

而在價格上,更是讓西方驚嘆,經(jīng)典的中式價格屠夫又來了。

隨后,在5月7日,他們發(fā)布了第6篇論文:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model,這篇論文中的亮點我列出來的有14個,全部寫出來各位腦漿可能都要沸騰了,我只挑一些重要、有代表性的說一下。

本篇論文亮點如下:

① 提出了MLA(Multi-head Latent Attention)取代DeepSeek-67B中使用的GQA。而GQA一開始就是處于降低成本目的取代的傳統(tǒng)的MHA(Multi-head Attention)。注意到?jīng)]有,MLA比MHA的差別只在于多了一個latent。他的區(qū)別就是把KV緩存,進行了低秩壓縮成為潛向量(latent空間)。你可能覺得好難理解,沒關(guān)系,看下面這張圖:

左側(cè)是原本的KV緩存,右側(cè)是低秩壓縮后的KV緩存,數(shù)據(jù)變得非常小,但是精髓的語義全部保留。

在完成壓縮后,MLA的成本和原本的GQA相當(dāng)。但GQA原本就是成本低,性能差,而MLA成本和GQA一樣,性能卻比GQA乃至傳統(tǒng)的MHA更強!

② 相較1月11日發(fā)布的MoE論文,他們做了一項改進:在Token選擇MoE 專家的時候,先計算一下這個Token對每個專家的親和力,然后只選擇其中的部分專家。就是說你去醫(yī)院,要會診的時候,傳統(tǒng)MOE給你安排8個專家,現(xiàn)在通過計算你的病情,只找3個專家就行了——這又進一步降低了成本。

③ 然后他們在MoE上還做了一個改進。前面不是提到怕專家訓(xùn)練失衡,導(dǎo)致有的專家變得弱智嗎?為此加了專家因子和設(shè)備因子做平衡,這次他們多加了一個通信因子——就是避免因為設(shè)備間通信的原因,導(dǎo)致專家訓(xùn)練不夠或成本上升。

④ 就算他們加了這么多控制因素,專家畢竟在多個設(shè)備上,還是很容易出問題。他們又設(shè)置了一個Token丟棄策略,根據(jù)Token和專家的親和分來判斷:如果設(shè)備爆了,那么親和分低的Token就不訓(xùn)練了丟掉。——顯然,這是為成本而做出的性能妥協(xié),這肯定會導(dǎo)致模型能力下降。怎么辦呢?放心,他們在3個月后近乎完全解決了這個問題。

⑤ 前面Math那篇論文提到過,他們確認了實時獲得RL數(shù)據(jù)比離線的效果更好,為此花費大量精力做了一個RL框架(原話:we invest tremendous efforts哈哈哈,是多痛苦才在論文里這樣寫)

這一天離R1發(fā)布259天。

此外,補充一點,5月15日,DeepSeek通過大模型備案,全面對國內(nèi)開放。

24年5月23日,進入定理證明領(lǐng)域

DeepSeek發(fā)布第7篇論文:DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data,這是關(guān)于定理證明(Theorem Proving)的。

Prover系列是我看得最頭痛的論文,因為他解決的問題是“數(shù)學(xué)定理證明”,DeepSeek的工作暫時集中在高中、大學(xué)范疇,還不涉及特別高深的數(shù)學(xué)難題——但他們的大學(xué)是清北,我的大學(xué)是二本,我們眼中的大學(xué)數(shù)學(xué)可能不是一個東西……

為方便大家理解,要先對“數(shù)學(xué)定理證明”做一個科普

如下圖左側(cè),這是我們高中時需要進行的證明題,大家可能還有一些印象。要讓計算機計算1+1=?是簡單的,這只是一個計算題。但是要讓計算機完成加法交換律,證明A+B=B+A,卻需要一套專門提供給計算機使用的語言。這就是“形式數(shù)學(xué)語言”(如下圖右側(cè))。

數(shù)學(xué)定理證明領(lǐng)域是大模型推理難度非常高的領(lǐng)域,在這個方向的積累會極大程度有助于大模型的推理能力提升。事實上,我也確實看到很多Prover系列的技術(shù)思路被復(fù)用在V3/R1上。

本文亮點如下:

① 通過LLM將自然語言表達的數(shù)學(xué)問題,轉(zhuǎn)為計算機可識別的“形式數(shù)學(xué)語言”

② 為加快訓(xùn)練效率,讓大模型同時進行定理的證明和反證,這樣有一條路走通,另一條路就不用走了

③ 通過Self-instruct的方式,用自己合成的數(shù)據(jù)來訓(xùn)練自己?!@個方法后來用在了R1當(dāng)中

④ 通過高級模型蒸餾一些高質(zhì)量的數(shù)據(jù),作為冷啟動數(shù)據(jù)。——這個方法后來用在了R1當(dāng)中

這一天離R1發(fā)布242天。

24年6月17日,Coder-V2,不幸撞車

DeepSeek發(fā)布DeepSeek-Coder-V2-236B(激活參數(shù)21B),在DeepSeek-V2-Base的基礎(chǔ)上訓(xùn)練而成。論文:DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

本文亮點:

① 是首個開源的100B以上的代碼模型

② 之前建立的代碼/數(shù)學(xué)數(shù)據(jù)收集管道,由于V2模型進化,導(dǎo)致精度變高,數(shù)據(jù)的質(zhì)量更高了——現(xiàn)在V3版本出現(xiàn)了,數(shù)據(jù)精度可能會進一步提升,值得期待。

模型在性能上超越了所有開源模型,并極度逼近GPT-4——而且成本依舊是爆炸性的低。

非常可惜的是,僅僅過了4天,6月21日,Claude 3.5 Sonet發(fā)布,代碼領(lǐng)域的神登基了——直到今天,它仍未隕落??陀^地說,V3和R1在jason輸出,代碼格式等方面仍然稍弱Claude3.5一籌。

這一天離R1發(fā)布217天。

24年8月15日,Prover1.5

DeepSeek發(fā)布Prover系列第二個模型,DeepSeek-Prover-1.5-7B:Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search

本文亮點:

① 為定理證明引入CoT數(shù)據(jù)+lean狀態(tài)數(shù)據(jù)。即整個輸入包括:數(shù)學(xué)問題+自然語言描述的解題思路(CoT)+當(dāng)前解題步驟中Lean的狀態(tài)反饋(Lean是專用于形式化數(shù)學(xué)定理證明的工具)

② 提出RMaxTS(蒙特卡洛樹搜索的一種變體)。因為整個證明過程是一步步推敲的,類似下圍棋一樣,一步步下,所以可以用搜索算法來判斷證明的下一步。他們的核心設(shè)計在于:1)為搜索附加了一個“內(nèi)在獎勵”,用于鼓勵模型去探索未知節(jié)點。2)隨著探索推進,大部分節(jié)點都是失敗結(jié)果,這會導(dǎo)致獎勵很稀疏(大量失敗,少量正確),為此他們引入DUCB(discounted upper confidence bounds),即越往后發(fā)現(xiàn)的正向獎勵越高

這篇論文中的CoT數(shù)據(jù)的構(gòu)造思路最后用在了R1模型上面。R1還嘗試使用了RMaxTS,這很符合OpenAI之前論文中提及的過程獎勵——即判斷模型每一步的價值,而不是判斷最終結(jié)果。

這一天離R1發(fā)布158天。

24年8月28日,MoE系列第二篇

DeepSeek發(fā)布MoE系列第二篇論文:Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts,在這篇論文中,他們升級了MoE負載均衡的控制方法(就是怎么讓每個專家充分訓(xùn)練,又避免成本上升)

本文亮點:

① 回憶一下上個MoE版本可以稱為“有損負載均衡控制”,他們的方法是通過專家因子,設(shè)備因子,通信因子三個超參數(shù)來控制負載均衡。但實際使用中,并不能完全解決問題,為此他們還引入了Token丟棄策略,在一些專家實在學(xué)不過來的時候,丟掉一些不適配的Token?!梢韵胂筮@種MoE方案必定是會損害性能的

② 在這個版本中,他們引入了一個模型來控制負載均衡。模型會觀察每個訓(xùn)練批次中專家的“勞累情況”,如果某個專家太累,后續(xù)就少派學(xué)習(xí)任務(wù),如果太閑,就多派點學(xué)習(xí)任務(wù)。

③ 實驗表明,這種方法在訓(xùn)練成本上實現(xiàn)了極大的提升,同時對模型的性能(能力)也導(dǎo)致了輕微的提升。

這個MoE方案是當(dāng)前他們最終的MoE方案了,最后用在了V3和R1中

這一天離R1發(fā)布145天。

24年12月13日,視覺模型第二篇

DeepSeek發(fā)布了視覺模型的第二篇論文:DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding,這是一個MoE架構(gòu)的模型,DeepSeek-VL2-27B(激活4.1B)

同樣的,由于視覺模型系列,看起來似乎未與V3、R1有太大關(guān)聯(lián),我們不在這里展開說明論文亮點。

這一天離R1發(fā)布38天。

24年12月26日,V3發(fā)布,登神在即

DeepSeek發(fā)布了DeepSeek-V3-671B(激活37B)

一天后,12月27日,發(fā)布論文DeepSeek-V3 Technical Report

本文亮點:

① 前面提到的最新MoE方案,GRPO,MLA,Prover中的CoT實踐,Self-instruct全部都用上了

② 實現(xiàn)了MTP(Multi-Token Prediction)方法,即讓模型同時預(yù)測下一個+下下一個Token。這個方法將提升模型訓(xùn)練的效果,同時降低訓(xùn)練成本和推理成本,并且他是可拆卸的。原理科普有點長,我不想再敲一遍,把注釋截圖過來

③ 在開放性問題上,他們使用基于模型的獎勵。重點是在獎勵模型的訓(xùn)練中,他們并不是讓模型學(xué)習(xí)“如果xxx,就是好的”,而是“如果xxx,那么因為xxx,所以他是好的”——即引入了獎勵的CoT思考過程。

④ 基于R1-lite的推理數(shù)據(jù)進行自身的二次微調(diào)優(yōu)化,從而提升表現(xiàn)推理表現(xiàn)。需要注意的是,V3并不是使用R1數(shù)據(jù)進行微調(diào),而是R1-lite,真正的R1實際上是在12月26日V3發(fā)布后,用了幾周時間訓(xùn)練出來的。

⑤ 實現(xiàn)FP8混合精度訓(xùn)練。對于FP8,你可以近似把他看成小數(shù)點位,即FP8允許計算、儲存8位小數(shù)點,F(xiàn)P32則允許32位,很顯然,F(xiàn)P8計算性能更低,但精度也更低。——補充,以上僅為方便理解,實際上例如FP32支持的不是32位小數(shù),而是1個符號位+8個指數(shù)位+23個小數(shù)位。

所以DeepSeek做的是FP8“混合”精度訓(xùn)練,而不是FP8訓(xùn)練,即在實踐中,他們將有的操作放在FP32環(huán)境進行,有的放在FP8進行,甚至先在FP8,發(fā)現(xiàn)算不過來然后放過去FP32。

這里再補充一個知識,我們經(jīng)常聽到模型量化,或者說A模型的FP4版本,這其實就是說把模型的參數(shù)從FP8的精度降到FP4的精度。這樣模型的計算成本會極度降低,從而節(jié)約成本。

⑥ 除此以外還有大量的Infra優(yōu)化細節(jié),例如通過一套Dualpipe管線,將計算和通信完全重疊,定制的PTX以自動調(diào)整通信塊大小,反向傳播期間重算部分工作以節(jié)約內(nèi)存,利用CPU存放EMA等等

整篇論文最大的特點就是大量的Infra優(yōu)化細節(jié),再疊加前面MoE、MLA、GRPO等形成了成本的進一步驟降。

還記得前面那篇暗涌對梁文峰的采訪嗎,再重復(fù)一遍我最喜歡的那句話:我們希望更多人,哪怕一個小 app都可以低成本去用上大模型,而不是技術(shù)只掌握在一部分人和公司手中,形成壟斷。

如果社會的未來注定走向近賽博朋克,那反抗軍的火苗也未嘗不能燒遍曠野。

這一天離R1發(fā)布25天,留給DeepSeeker們加班訓(xùn)練R1的時間不多了!

24年1月15日,席卷全球

DeepSeek APP上架,席卷全球應(yīng)用商店榜單

這一天離R1發(fā)布5天

24年1月20日,登神

DeepSeek-R1發(fā)布,當(dāng)時的盛況可能很多人還歷歷在目,這股浪潮一直席卷到今天。

2天后,1月22日,DeepSeek發(fā)布R1論文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

附帶說一句,1月23日,是英偉達股價最高點,而后在1月24日開啟了暴跌之路(可能老外們花了一天讀論文吧)

本文亮點:

① 前文已提過的MoE、GRPO、MLA等等不再提及和描述

② R1-Zero,完全通過強化學(xué)習(xí)來實現(xiàn)模型的能力挖掘。但需要澄清:R1-Zero只在推理任務(wù)領(lǐng)域進行了優(yōu)化學(xué)習(xí),即代碼、數(shù)學(xué)等常見的推理領(lǐng)域,這符合DeepSeek一直以來在Math、Prover、Coder等系列的嘗試,也符合他們通常先做面向推理的強化學(xué)習(xí)對齊,再做面向人類偏好的強化學(xué)習(xí)對齊習(xí)慣。

③ 完全公開了能力上匹敵OpenAI-o1級別模型的訓(xùn)練流程:1)先對R1-Zero的數(shù)據(jù)進行篩選&人為標注,去掉了過長、語言重復(fù)等嚴重的問題,獲取高質(zhì)量的種子數(shù)據(jù),進行微調(diào)(來自Prover),以讓模型一開始就靠譜一點;2)進行面向推理的強化學(xué)習(xí)(和R1-Zero一樣),其中引入語言一致性目標;3)進行SFT,其中推理數(shù)據(jù)來自當(dāng)前階段的R1數(shù)據(jù)(但還是經(jīng)過了過濾和處理),非推理數(shù)據(jù)來自V3模型的數(shù)據(jù)集,并且部分數(shù)據(jù)額外附加了CoT;4)最后再進行一次面向人類偏好的強化學(xué)習(xí),目標為有用性(針對摘要部分內(nèi)容),無害性(針對全部回答內(nèi)容)

整個過程非常有意思,SFT→RL→SFT→RL,和常見的SFT→RL很不一樣。

④ 使用R1的800KSFT數(shù)據(jù)對市面上的開源模型進行了SFT,結(jié)果發(fā)現(xiàn)性能上極度增強

⑤ 并且他們一度嘗試將他們這套RL方法用在開源模型上,試圖看看效果怎么樣,結(jié)果發(fā)現(xiàn)兩個有趣的現(xiàn)象:1)對開源模型先SFT,再RL,性能還能再強,但論文中沒有提供結(jié)果,只是提了一嘴;2)對開源模型完全復(fù)用R1-Zero的模式,效果還不如就用R1的800K數(shù)據(jù)蒸餾,他們覺得這可能和基礎(chǔ)模型的智力水平有關(guān)——讓一個人自由學(xué)習(xí)VS填鴨學(xué)習(xí),對于天才和學(xué)渣的效果是完全不一樣的。

⑥ 最后他們坦誠地公開了兩個失敗方向:1)OpenAI提出的PRM(過程獎勵)很難搞,反正他們搞不定;2)基于MCTS(蒙特卡洛樹搜索)的強化學(xué)習(xí)也不現(xiàn)實(這個方法來自Prover1.5)


02 一些有趣的發(fā)現(xiàn)

到這里,我們走完了DeepSeek 在647天內(nèi)所塑造的登神長階。

其實日期后面的文字簡述是我最后才補上的。在寫的時候我突然想到了一個網(wǎng)文圈的陳年老梗:“第1000章 天下無敵”→“第1001章 天上來敵”。

到1月20日R1發(fā)布,是DeepSeek在我這篇文章中登神長階的結(jié)束,但絕不是他們證神之路的終點,希望他們會越來越好。

然后,讓我分享一些沒那么有價值,但很有趣的發(fā)現(xiàn)。也舒緩一下大家被技術(shù)術(shù)語、概念轟炸的大腦皮層。

新年祝福,可憐的運營同學(xué)

24年2月8日,DeepSeek發(fā)布了新春祝福,閱讀量5K,IP在四川,運營同學(xué)疑似回四川過年了。

25年1月27日,DeepSeek發(fā)布了新春祝福,閱讀量10W,IP在北京運營同學(xué)疑似陪著整個團隊一起加了個跨年班。

梁文峰在公司做啥

我整理了DeepSeek14篇論文(含一篇2D轉(zhuǎn)3D的)的作者名單

除了DeepSeek-67B,V2,R1這三篇全員大集合的論文外

他只出現(xiàn)在兩個地方:MoE論文和Coder系列論文

我不認為DeepSeek是一家需要給老板讓渡署名權(quán)的公司,梁如果出現(xiàn),一定是在其中有所貢獻

所以梁文峰看起來比較喜歡Coder這個領(lǐng)域方向,我等AI編程小白有福了,就等DeepSeek搞一個碾壓3.5又便宜的Coder-V3出來!

小米千萬年薪挖走的羅福莉

通過作者名單檢索

羅福莉出現(xiàn)在:MoE,Coder序列,Prover-1.5這些論文中,看起來她擅長代碼、數(shù)學(xué)這些推理領(lǐng)域的工作

值得說明的是,盡管12月30日傳出雷軍挖角羅福莉的新聞,但在1月20日發(fā)布的R1論文中,仍有她的署名。

其實現(xiàn)在圈子里很多朋友有一種擔(dān)心——木秀于林風(fēng)必摧之:DeepSeek會不會像OpenAI一樣,人才紛紛出走,跳槽,挖角,然后創(chuàng)造力逐步下降呢?

但我想,如果一個組織,可以用647天,憑借完全的創(chuàng)造力和熱情創(chuàng)造這么偉大的作品。那么更重要的可能不是里面的每個個體,而是這個組織本身。

附上DeepSeek公眾號的簡介:“致力于探索AGI的本質(zhì),不做中庸的事,帶著好奇心,用最長期的眼光去回答最大的問題”。

03 我對未來的想法

我自己會有一份完整的未來思考,不會公開,我不希望自己陷入宏觀敘事的喋喋不休中。

我只在這里提出兩個較為底層和堅固的想法

技術(shù)的潛力還很大

這647天里,DeepSeek做了非常多的技術(shù)創(chuàng)新,但受限于人力,他們?nèi)匀挥泻芏嗟胤經(jīng)]有探索到,或涉獵不深,這意味著技術(shù)仍然存在廣闊的挖掘潛力和向上空間。甚至哪怕LLM真的有一天停滯了,技術(shù)力也會流向圖像、視頻、音頻、多模態(tài)、3D等領(lǐng)域相對更弱關(guān)注的領(lǐng)域,直到填平所有洼地。

而這只是DeepSeek,還不包括如OpenAI、Claude、Google等同級別的公司,以及其余廠商、學(xué)術(shù)人員、創(chuàng)業(yè)者能涌現(xiàn)出來的智慧。

中國可能發(fā)生一些好的變化

如DeepSeek這樣的團隊很少,但也可能再出現(xiàn)第二個,第三個——尤其在硅谷更是如此,永遠相信隨機性。但更重要的是,中國市場在感受到這種“硬核創(chuàng)新”所帶來的巨額回報后,一定在各個環(huán)節(jié)都產(chǎn)生一些正向影響。就如同黑神話對單機游戲的改變,哪吒2對電影的改變一樣。——對了,請讓清華大學(xué)104頁DeepSeek入門PPT這種內(nèi)容少一點(非常不客氣的指名道姓,我不在乎,Thx)。

總結(jié)起來就兩句話:看多中國,看多AI,結(jié)束。

對了,其實有個有趣的彩蛋,我沒放到文章里來,各位如果像我一樣從頭開始看著13篇論文,不妨看看每篇論文結(jié)束部分的“Conclusion, Limitation, and Future Work”,看看DeepSeek對未來的工作規(guī)劃,是否總是在逐步實現(xiàn)。

另外一些則藏得比較深,他們有時候會偷偷放棄過去的一些方法,不告訴任何人(指寫到論文里)。

對我來說,這些內(nèi)容算是這三天里為數(shù)不多的腦皮層舒緩時間。

04 最后,說明一下附屬材料

DeepSeek的13 篇論文

在飛書Wiki左側(cè)目錄里可以看到,就在這篇文章的下級菜單里

這13篇論文情況如下:

① 中文-英文翻譯對照,部分機翻得太離譜的我會親自校正,但如果不影響我閱讀,我就沒額外處理,所以翻譯質(zhì)量可能不會太好。

② 另外正文中對公式的推導(dǎo),由于飛書粘貼過來會變得很扁平,例如2的2次方,可能變成22,但由于大部分公式我是不關(guān)注的,所以沒有全部處理。

③ 論文末尾有大量的附錄,以及引用論文鏈接。這些內(nèi)容對我來說信效比較低,所以刪掉了,如果要看,可以通過文章開頭的論文原始地址去看原文。

④ 比這篇文章更全面,細致的亮點總結(jié),但由于非公開發(fā)表,所以基本上沒潤色過,可能會有些不通順。

⑤ 包含我閱讀時的個人注釋,以紅底標注,紅字說明,但由于我的學(xué)識所限,難免有理解錯誤的地方。并且我是從第一篇開始往后看,所以你越往后看會發(fā)現(xiàn)注釋越少,因為已出現(xiàn)過的技術(shù)我通常不會再注釋。

思維導(dǎo)圖、人員清單、各個廠商的時間線

這些是我寫作中用到的輔助材料

① 思維導(dǎo)圖源文件在這篇文章的飛書版本上,拉到文末就可以看見,在這里因為同步不了所以只放了一張圖。

② 人員清單我不會公開,這是出于對DeepSeek的尊重。雖然在事實上,競對公司的人員穿透是一個很普遍的做法,我相信國內(nèi)乃至國外的諸多競爭對手已經(jīng)把DeepSeek的全員名單都拉出來了,甚至?xí)任易龅酶钊?。但能少暴露一點是一點。在這里順便祝DeepSeek的競對友商挖角全部失敗~

③ 另外我還整理了一份包括OpenAI、DeepSeek、Claude、智譜、minimax等大模型廠商的產(chǎn)品發(fā)布時間線,也放在飛書Wiki上。

上述內(nèi)容除DeepSeek人員清單外,獲取方式和論文一樣。

本文由@馬丁的面包屑 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!