86 條 DeepSeek 的關(guān)鍵思考

0 評(píng)論 772 瀏覽 1 收藏 35 分鐘

DeepSeek作為全球AI領(lǐng)域的新興力量,憑借其開源精神和技術(shù)突破引發(fā)了廣泛關(guān)注。本文通過對(duì)DeepSeek的技術(shù)細(xì)節(jié)、商業(yè)模式以及其對(duì)AI行業(yè)的影響進(jìn)行深入探討,整理了86條關(guān)鍵思考,旨在為讀者提供對(duì)DeepSeek全面而深入的理解。

DeepSeek 以始料未及的速度引發(fā)了全球AI社區(qū)的狂熱:R-1 的討論還沒降溫,今天凌晨, DeepSeek 又發(fā)布了開源多模態(tài)模型 Janus-Pro。

前段時(shí)間,拾象組織了一場聚焦于 DeepSeek的「Best Ideas 閉門討論會(huì)」,在長達(dá) 3 個(gè)小時(shí)的討論中,我們和頂尖AI 研究員、AI 開發(fā)者和投資人一起圍繞 DeepSeek的技術(shù)細(xì)節(jié)、組織以及其出圈后對(duì) AI 商業(yè)模式、二級(jí)市場的短中長期影響等進(jìn)行了非常細(xì)致的探討。

DeepSeek-R1 是開源精神的代表,因此,「Best Ideas 閉門討論會(huì)」的成員們也決定學(xué)習(xí) DeepSeek,將閉門會(huì)的集體思考開源,也為市場提供一篇關(guān)于 DeepSeek 的高質(zhì)量內(nèi)容。拾象團(tuán)隊(duì)對(duì)討論內(nèi)容進(jìn)行了細(xì)致整理,最終壓縮成 86 條關(guān)鍵思考,希望能帶來一些啟發(fā)與共鳴。

a16z 的 Marc Andreessen 評(píng)價(jià) DeepSeek 是對(duì)世界的一份深遠(yuǎn)饋贈(zèng),我們也希望把這篇內(nèi)容作為新年禮物送給一直關(guān)注「海外獨(dú)角獸」、支持拾象的朋友們,希望在新一年繼續(xù)和各位 AI 冒險(xiǎn)家們一起探索智能邊界。

一個(gè)腦洞:如果有機(jī)會(huì)當(dāng)面交流,你最想提問 DeepSeek CEO 梁文鋒的問題是什么?面對(duì)如此洶涌的影響力和流量,你最想為 DeepSeek 提出的建議是什么?請(qǐng)寫下你的答案,答案精彩者有機(jī)會(huì)受邀參與下一次閉門會(huì)討論。

(注:本次討論屬于拾象 AI 社群內(nèi)的技術(shù)交流,不代表任何具體個(gè)人及機(jī)構(gòu)的觀點(diǎn)立場。)

01. 神秘的DeepSeek

“DeepSeek 最重要的事是 push 智能”

1. 創(chuàng)始人兼CEO梁文鋒是 DeepSeek 最核心的人,和 Sam Altman 不是一類人,他是很懂技術(shù)的。

2.  DeepSeek 好口碑的原因在于 MoE 架構(gòu),復(fù)現(xiàn) o1 等做得早,但能不能做到最好,空間還很大。后面新的挑戰(zhàn)在于資源有限,只能把有限的資源放在最亮眼的地方。這個(gè)團(tuán)隊(duì)的 research 能力、團(tuán)隊(duì)文化還是很好的,如果再給 10萬、20 萬張卡,可能能做出更好的事情。

3. DeekSeek 從 preview 到正式發(fā)布這段時(shí)間,長上下文能力提升很快。DeepSeek 的 long context 10K 用非常常規(guī)的方法就能夠做到。

4. Scale.ai 的 CEO 說 DeepSeek 有 5 萬張卡,實(shí)際肯定沒這么多,從公開信息來看 DeepSeek 是有 1 萬張老的A100卡,可能有 3 千張禁令之前的 H800。DeepSeek 很注重合規(guī),沒有采購任何不合規(guī)的GPU,所以卡應(yīng)該很少。美國用 GPU 的方式太粗放了。

5. DeepSeek 的精力都放在了做智能本身,而不是單純用 AI 服務(wù)人,可能也是成功的關(guān)鍵因素。

6. 某種意義上來說,量化可以說是 DeepSeek 的商業(yè)模式。幻方(梁文鋒創(chuàng)立的另一家量化投資公司)是上一輪 machine learning(機(jī)器學(xué)習(xí)) 的產(chǎn)物。DeepSeek 最重要的事就是 push 智能。錢和商業(yè)化的優(yōu)先級(jí)都不高。中國需要有幾個(gè)領(lǐng)先的 AI labs 來探索能 beat OpenAI 的東西,智能要走的時(shí)間很長,今年又開始分化,肯定要有新東西出來。

7. 單從技術(shù)角度,DeepSeek 作為黃埔軍校對(duì)人才擴(kuò)散有很大作用。

8. 美國的 AI lab 商業(yè)模式也不好,AI 今天確實(shí)沒有什么好的商業(yè)模式,后面可能需要跑通。梁文鋒是有抱負(fù)的,DeepSeek 不在乎形態(tài),往 AGI 走就是了。

9. 讀完 DeepSeek 論文的感受是,很多都是節(jié)約硬件開銷的技術(shù),在比較大的幾個(gè) scaling 方向上,DeepSeek 的技巧可以把成本降下來。

10.  長期不會(huì)對(duì)算力有影響,但短期大家會(huì)想怎么把 AI 做得更加有效率一點(diǎn)。需求還是很強(qiáng)的,各家都是算力不夠用的狀態(tài)。

11.  談DeepSeek的組織:

1)做投資,都選擇最高級(jí)的人才組合,但看 DeepSeek 的模式(團(tuán)隊(duì)多是國內(nèi)高校畢業(yè)的聰明年輕人),覺得大家一起磨合好,能力也能慢慢變高級(jí)。挖走一個(gè)人是否能打破優(yōu)勢組合是一個(gè)問題,現(xiàn)在看對(duì)于 DeepSeek 的影響可能不是特別大。

2)市場上錢有很多,但 DeepSeek 核心是文化組織。文化好不好的衡量標(biāo)準(zhǔn)在于是否有足夠的錢和長期性,有比較重要的商業(yè)模式才能有長期性的文化,這一點(diǎn)上 DeepSeek 和字節(jié)比較像,比較本質(zhì),這兩家公司的商業(yè)模式都非常好。

12.  DeepSeek 為什么能追這么快?

Reasoning model(推理模型)的需求是更高質(zhì)量的數(shù)據(jù)和訓(xùn)練。如果是長文本、多模態(tài),從 0 開始追一個(gè)閉源模型會(huì)更困難,但純 reasoning 模型本身的架構(gòu)沒有大動(dòng),reasoning(推理)是一個(gè)更好追的方向。

02.探索者VS追趕者

“AI 類似階躍函數(shù),追趕者算力需求少 10 倍”

13.  AI 類似階躍函數(shù),現(xiàn)在做追趕者的算力需求少了 10 倍。追趕者的算力成本一直不太高,但探索者還是要訓(xùn)很多模型,大家對(duì)于新算法和架構(gòu)的探索不會(huì)停止。階躍函數(shù)背后其實(shí)是有很多人投入了很多,所以算力投入還是會(huì)一直往前,還會(huì)有很多人投在產(chǎn)品上。除了 reasoning 之外,還有很多方向也很費(fèi)卡。探索者花費(fèi)很多卡可能大家看不到,但沒有這么多花費(fèi),可能不會(huì)有下一個(gè)階躍。也有很多人不滿足架構(gòu)、RL 方法,會(huì)不斷往前推進(jìn)。

14.  在探索方向的時(shí)候,花 1 萬張卡的效果不一定比 1 千張卡好,但可能會(huì)有一個(gè)門檻,即如果只有 100 張卡,那大概率做不出來,因?yàn)榈淮畏桨傅臅r(shí)間太長。

15. 物理學(xué)進(jìn)步的推動(dòng)者,分為學(xué)校里的研究者和產(chǎn)業(yè)界的實(shí)驗(yàn)室,前者需要探索多個(gè)方向,不要求回報(bào),后者更關(guān)注效率提升。

16.  探者和追趕者角度,小公司卡很少,就需要考慮效率,而大公司考慮的是怎么更快的得到模型,很多在 2 千卡集群上能提高效率的方法在萬卡是不 work 的,大家會(huì)更考慮穩(wěn)定性。

17.  CUDA 生態(tài)優(yōu)勢在算子的多和全,而華為等國內(nèi)公司突破的時(shí)候是找了一些常用的算子,有后發(fā)優(yōu)勢,假如擁有 10 萬張卡,在決定資源投入的時(shí)候,做領(lǐng)先者的成本很高,做追趕者效率更高,該如何抉擇。國內(nèi)下一個(gè)追趕的方向是什么,比如多模態(tài),因?yàn)楹M?GPT-5 一直遲遲沒有出來。

03.技術(shù)細(xì)節(jié) 1:SFT

“在推理層面不需要做 SFT 了”

18. DeepSeek 帶來的最大的震撼不是開源或者低成本,而是不需要做 SFT了。(注:SFT:Supervised Fine-Tuning,有監(jiān)督微調(diào),一種重要的模型優(yōu)化技術(shù),它通過在預(yù)訓(xùn)練模型的基礎(chǔ)上,使用標(biāo)注好的數(shù)據(jù)進(jìn)行進(jìn)一步訓(xùn)練,以提升模型在特定任務(wù)或領(lǐng)域上的性能。)但只是在推理層面,reasoning 以外的任務(wù)可能還是需要做 SFT。圍繞這個(gè)點(diǎn)很值得討論的是,是不是由此提出了一個(gè)新的范式或架構(gòu),使得訓(xùn)練模型對(duì)數(shù)據(jù)的利用效率更高了?或者模型表現(xiàn)的迭代速度會(huì)更快?

19. DeepSeek-R1 一定程度上說明用 SFT 做蒸餾有很大好處。DeepSeek-R1 并不是完全不做 SFT,其實(shí)在第一步和第三步都做了 SFT,最后一步 alignment(對(duì)齊)再用了 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))。

20. R1 本質(zhì)是 SFT 訓(xùn)練出來的,比較特殊的是數(shù)據(jù)是用 RLHF 訓(xùn)練出來的模型和少量 SFT 生成的,說明不需要用特別復(fù)雜的方法,只要有足夠好的方法,只需要用 SFT 蒸餾就行。

21. GRPO 的本質(zhì)在于 base model(基礎(chǔ)模型)得足夠聰明,一個(gè) prompt 生成用了 16 個(gè) generation,得嘗試幾次才能大概率有正確的答案。不錯(cuò)的 base model 加上可以 verify,是 R1 提供的思路,math 和 coding 很合適是因?yàn)檫@兩類任務(wù)比較容易 verify,但理論上可以在其他場景任務(wù)上做類似的過程,最終實(shí)現(xiàn)一個(gè)通用的 RL 模型。

22. R1-Zero 沒有用 SFT 就出現(xiàn)了 CoT 的過程,CoT 會(huì)越來越長,這個(gè)涌現(xiàn)過程很有意義,SFT 更像是一個(gè)輔助手段,模型沒有 SFT 也能產(chǎn)生,有了 SFT 能很快生成。

23. 這件事說明現(xiàn)在很多小模型廠商可以用 SFT 去蒸餾大模型,并且效果會(huì)很好,但也沒有在 R1 的過程中完全被拋棄。

24. 一個(gè) LLM 集合無限長的 CoT 理論上可以看成一臺(tái)圖靈機(jī),理論上通過無限長的 CoT 可以解決極復(fù)雜的計(jì)算問題(computational problem),但 CoT 本質(zhì)上只是中間搜索結(jié)果,用一種優(yōu)化的方式去不停 sample potential output,可能會(huì)輸出正確結(jié)果,然后讓模型往更可信的方向去推。本質(zhì)上是模型為了得到這樣的結(jié)果,必須要做一些 computation,CoT 是 computation 中間必須經(jīng)過的中間輸出,最終結(jié)果可以說是涌現(xiàn),也可以說是它作為計(jì)算機(jī)的本質(zhì)。

25. DeepSeek 的論文里面雖然沒有提到長上下文,但體感上 R1-preview 和 R1 之間模型的 context window 提升了很多,猜測是做了一些 Long2Short CoT 的提升,包括在第三階段的 SFT 用的 CoT 最終在 generation 的時(shí)候也被去掉,最后發(fā)布的版本可能是用了更加 clean 的 CoT 數(shù)據(jù)做 SFT。

26. SFT 的數(shù)據(jù)種類有幾種:一個(gè)是冷啟動(dòng)的數(shù)據(jù),更像是給模型一個(gè)很好的策略,給一個(gè)比較好的初始化,這樣能做的探索更好,RL 中有一個(gè)優(yōu)化目標(biāo)是和原策略更接近;另一種數(shù)據(jù)是做了 RL 之后,生成很多 data,再加上別的數(shù)據(jù),再在 base model SFT,本質(zhì)上每個(gè) domain 有自己的 data processing pipeline 之類的,這個(gè)數(shù)據(jù)的能力是從 base model 來的,蒸餾是無損的,把多個(gè) domain 放到一起可能會(huì)有泛化。

27. 不確定 R1 這個(gè)過程的數(shù)據(jù)效率怎么樣。猜測 OpenAI 針對(duì)數(shù)據(jù)效率也做了類似的事情,比如 fine tuning。R1 第三階段沒有用 RL 做出來的模型作為 base 去訓(xùn)練,而是去生成了數(shù)據(jù),再去 SFT 得到 R1,數(shù)據(jù)包含 600K 的 reasoning data 和 200K non-reasoning data。第二階段的模型可能在 example 的 domain 之外但仍然需要某種 reasoning 的場景下,可能也能展示解題能力,從而得到 reasoning data。而 non reasoning data 是 V3 SFT data 的一部分,是讓 V3 腦補(bǔ)出了一個(gè) CoT。800K 的數(shù)據(jù)還是挺小的,挺有效率的。

04.技術(shù)細(xì)節(jié)2:數(shù)據(jù)

“ DeepSeek 在數(shù)據(jù)標(biāo)注上非常重視”

28. Scale.AI 不一定會(huì)失敗,現(xiàn)在需要在各種 domain 上做 RL,比較常用的是 math 和 coding,還是需要 expert 來標(biāo)注,但數(shù)據(jù)標(biāo)注可能會(huì)更復(fù)雜,但市場會(huì)存在。

29. 在 training 上,多模態(tài)數(shù)據(jù)幾乎看不出效果,或者說成本太高了,今天還沒有任何證據(jù)說有用,未來機(jī)會(huì)可能比較大。

30. DeepSeek 在數(shù)據(jù)標(biāo)注上非常重視,聽說梁文鋒自己也會(huì)打標(biāo)簽,在 AI 上除了算法和技巧,數(shù)據(jù)的精確度也很關(guān)鍵,特斯拉的標(biāo)注成本幾乎是中國自動(dòng)駕駛的 20 倍,中國自動(dòng)駕駛的數(shù)據(jù)經(jīng)歷了大而全、精細(xì)化到最終發(fā)現(xiàn)要找開車經(jīng)驗(yàn)和能力特別豐富的人,這個(gè)是特斯拉一開始就在做的事。特斯拉的機(jī)器人的動(dòng)作是找的小腦非常健康的人做的標(biāo)注,絲滑程度很好,而中國找的人的絲滑程度很差。所以 DeepSeek 在數(shù)據(jù)標(biāo)注上的投入是模型效率好的關(guān)鍵之一。

05.技術(shù)細(xì)節(jié)3:蒸餾

“蒸餾壞處是模型 diversity 下降”

31. 如果不去了解模型訓(xùn)練中最大的技術(shù)痛點(diǎn),而選擇用蒸餾的技術(shù)去避免了解,那么在下一代技術(shù)提出的時(shí)候,就可能會(huì)掉進(jìn)坑里。

32. 大模型和小模型能力是不匹配的,從大模型往小模型進(jìn)行蒸餾是真的蒸餾,teacher to student,如果從完全不會(huì)中文的模型蒸餾各種中文數(shù)據(jù),性能可能會(huì)下跌。但實(shí)際上蒸餾小模型確實(shí)有很明顯的性能提升,R1 蒸餾出來后的模型再做 RL 會(huì)增長很多,因?yàn)槭怯煤湍P筒黄ヅ涞臄?shù)據(jù)做出來的。

33. 蒸餾的壞處是模型 diversity 下降,影響模型上限,無法超越最強(qiáng)的模型。但短期看,蒸餾也是一條路線。

34. 用蒸餾會(huì)有一些 hack,早期一般在 instruction 調(diào)過的模型做 RL,這個(gè)階段模型會(huì)呈現(xiàn)出的特征是:先去生成沒有用的想法,然后最后突然答對(duì),原因在于很多 RL hack 做得非常隱晦,模型可能在預(yù)訓(xùn)練的時(shí)候背了很多問題,所以明面上是在思考,其實(shí)只是在靠近背的題。這就是蒸餾的隱患。如果不做標(biāo)注就蒸餾,那現(xiàn)在做 具有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Verifiable Rewards, RLVR)的時(shí)候,就會(huì)導(dǎo)致模型會(huì)用更簡單的方式解決,而不是去思考這個(gè)問題 OpenAI 也沒有解決。可能是這一代技術(shù)的缺陷。

35. 長期來說,通過走捷徑的方式,而沒有自己通過愿景去想怎么做技術(shù)方案,而是直接復(fù)現(xiàn),中間可能會(huì)有不知道的坑。比如在這一代技術(shù) long context 沒有質(zhì)變的前提下,解決問題的上限可能會(huì)被限制。R1-zero 可能是一個(gè)正確的方向,從頭就做 R1-zero 或不通過類 o1 的數(shù)據(jù)啟動(dòng)可能更好。

36. 其他模型用蒸餾也能得到較好的結(jié)果,未來在模型生態(tài)里面可能就會(huì)有老師、學(xué)生的角色區(qū)分,有能力當(dāng)一名好學(xué)生也是一種可以的商業(yè)模式。

37. 在蒸餾和技術(shù)路線上,R1 帶來的震撼不如 AlphaGo,但在商業(yè)上,出圈能力比 AlphaGo 要好很多。

38. 蒸餾分兩個(gè)階段,如果只是蒸餾 o1 或者 R1,而沒有建立自己的體系和 verifiable reward,會(huì)導(dǎo)致大家越來越依賴蒸餾,但通用領(lǐng)域是不可能蒸餾的,因?yàn)?reward 無法得到,以及在蒸餾過程中特殊的 CoT 怎么得到。而且第一階段的蒸餾都有痕跡,用 OpenAI 蒸餾的模型可能遺留了 OpenAI 大量的退火痕跡,為什么 zero 能夠在純 RL 階段上獲得這樣的能力,和基礎(chǔ)模型在退完火之后具有反思能力是有直接關(guān)系。

39. 不太相信純互聯(lián)網(wǎng)的數(shù)據(jù)而不經(jīng)過退火的模型能做到這樣的行為,因?yàn)榛ヂ?lián)網(wǎng)上幾乎沒有高質(zhì)量數(shù)據(jù)。

40. 目前可能只有幾個(gè) top labs 在探索到底需要多少退火階段的數(shù)據(jù)和數(shù)據(jù)配比。蒸餾與否都是 RL 算法的一種,SFT 是行為模仿,是無限的強(qiáng)化學(xué)習(xí),但只做 SFT 的上限很低,而且會(huì)損害多樣性。

41. 一級(jí)市場上的創(chuàng)業(yè)公司看見 DeepSeek 還是很激動(dòng)的,如果后續(xù) DeepSeek 還能繼續(xù)迭代,對(duì)于不是大的上市公司來說,使用 AI 上就會(huì)有非常大的靈活性,DeepSeek 還蒸餾了幾個(gè)小版本可以在手機(jī)上用起來,如果這個(gè)方向被證明,對(duì)于很多 AI 應(yīng)用會(huì)提高天花板。

42. 蒸餾很重要的是確定目標(biāo)是什么,OpenAI 是沒有數(shù)據(jù)蒸餾的,要超過 OpenAI 是肯定不能做蒸餾。

43. 未來可能模型需要像人類一樣學(xué)會(huì)跳步回答,在固定 context 長度下,能否提高模型能力表現(xiàn)上限。

06.技術(shù)細(xì)節(jié)4:Process Reward

“過程監(jiān)督上限是人,結(jié)果監(jiān)督才是模型上限”

44. Process Reward (過程獎(jiǎng)勵(lì))不一定不行,但 Process Reward 可能容易被 reward hack(獎(jiǎng)勵(lì)劫持),也就是模型沒學(xué)到什么,但能把 reward 做得很高。如果解決數(shù)學(xué)問題,用模型生成 1000 個(gè) generation,可能就是沒有 1 個(gè)能靠近正確答案,那用類似 RLVR 的方式是沒有辦法訓(xùn)練到任何東西的,如果這時(shí)候有個(gè)還可以的 process reward,可能能接近正確方向,過程分也是有幫助的。要看解決問題有多難、過程 reward 有多可靠等。

45. 過程分在 PRM 估算中,如果和真實(shí)有偏差就很好 hack。過程監(jiān)督理論上是可能的,問題在于 process 的力度,以及基于 process 力度怎么給到 reward,現(xiàn)在結(jié)果監(jiān)督也是用抽取出來的答案去做匹配,各家也沒有很成熟的讓模型打分而不 hack 的方案,模型自己迭代是最容易 hack 的。標(biāo)過程也不難,可以枚舉的,只是大家沒有做,可能是一個(gè)有前途的方向。

46. 過程監(jiān)督上限是人,人很多是想不到的。結(jié)果監(jiān)督才是模型的上限。

47. AlphaZero 比較有效的原因在于棋局終局的時(shí)候是可以做輸贏判斷的,而且整個(gè) reward 是可以根據(jù)勝率計(jì)算,但是 LLM 不知道最后不停生成能不能給出答案,有點(diǎn)類似遺傳算法,上限可能更高,但也有可能 hack 不到。

48. AlphaGo 到 AlphaZero 的一個(gè)優(yōu)勢是圍棋的規(guī)則是固定的,現(xiàn)在模型從 math 和 coding 開始就是因?yàn)楸容^容易驗(yàn)證,驗(yàn)證的方法是不是足夠好會(huì)影響最后 RL 的質(zhì)量。規(guī)則得足夠完善,不然模型會(huì)去 hack,模型能滿足規(guī)則,但生成的結(jié)果不是想要的。

07.其他公司為何沒用DeepSeek方法?

“大廠的模型得低調(diào)”

49. OpenAI 和 Anthropic 之前沒有做 DeepSeek 的方向是一個(gè)公司聚焦方向的問題,OpenAI 和 Anthropic 可能覺得把現(xiàn)有算力投入其他地方會(huì)更有價(jià)值。

50. 相比大廠,DeepSeek 可能因?yàn)闆]有在多模態(tài)上做事,而是集中在語言,所以能做出成果。大廠的模型能力不弱,但得低調(diào),不能發(fā)太多?,F(xiàn)在多模態(tài)不是很關(guān)鍵,智能來源主要是語言,對(duì)于提升智能沒有幫助。(拾象注:就在 1 月 28 日凌晨,DeepSeek 發(fā)布了開源模型 Janus-Pro)

08.2025技術(shù)的分化與押注

“除 Transformer 能不能找別的架構(gòu)”

51. 模型在 25 年會(huì)發(fā)生分化。最誘人的愿景是不斷推進(jìn)智能的邊界,可能有很多突破的路徑,方法可能會(huì)發(fā)生變化,比如合成數(shù)據(jù)、別的架構(gòu)。

52. 25 年首先關(guān)注新的架構(gòu),除了 Transformer 之外能不能找別的,現(xiàn)在已經(jīng)有了一些探索,可以降低成本,在降低成本的同時(shí)也可以探索智能的邊界;其次,RL 的全部潛力還沒有發(fā)揮出來;產(chǎn)品上,大家關(guān)心 agent,還沒有被大規(guī)模應(yīng)用。

53. 25 年多模態(tài)可能會(huì)出現(xiàn)能挑戰(zhàn) ChatGPT 形態(tài)的產(chǎn)品。

54. R1 和 V3 帶來的低成本、高效果,說明這是一個(gè)方向,和另一個(gè)擴(kuò)硬件、漲參數(shù)的方向是不沖突的,國內(nèi)是受到限制只能走前者。

55. 第一,DeepSeek 是從 base model 逼出來的,還是遵循 Scaling Law,第二,從蒸餾角度,DeepSeek 蒸餾還是先大后小,對(duì)于越做越大的閉源模型是好事,第三,對(duì)技術(shù)發(fā)展中,還沒有出現(xiàn)反規(guī)模指標(biāo),如果出現(xiàn),那對(duì)于 Scaling Law 可能是一個(gè)比較大的打擊,而且開源模型的所有東西都可以在閉源模型做一遍,同時(shí)還可以降低成本,對(duì)于閉源模型也是利好。

56. 據(jù)了解,Meta 目前還在復(fù)現(xiàn) DeepSeek 的過程中,但目前還沒有特別影響 infra 或者長期 roadmap(路線圖) 的地方出現(xiàn)。長期來說除了探索邊界之外,也要考慮成本,只有成本更低,才能有更多的玩法。

09.開發(fā)者是否會(huì)遷移到 DeepSeek?

“目前還沒有”

57. 開發(fā)者是否會(huì)從閉源模型遷移至 DeepSeek?目前看還沒出現(xiàn)大批遷移,因?yàn)轭I(lǐng)先模型的 coding 指令遵循能力是比較有利的,但不確定這一優(yōu)勢在未來是否會(huì)被攻克。

58. 開發(fā)者角度來說,Claude-3.5-Sonnet 圍繞 coding 做了很多任務(wù),對(duì)于做 agent 非常有利,但 DeepSeek 之類模型暫時(shí)沒有提供,但 DeepSeek 帶來的空間很大。

59. 對(duì)于大模型應(yīng)用者,DeepSeek V2 就已經(jīng)滿足了所有需求,R1 速度提高了,沒有帶來特別大的額外價(jià)值,但開啟深度思考的時(shí)候,以前能答對(duì)的題目現(xiàn)在反而錯(cuò)了。

60. 應(yīng)用者選擇模型的時(shí)候會(huì)用工程方法把問題簡化,25 年可能是一個(gè)應(yīng)用年,各行各業(yè)會(huì)使用現(xiàn)有的能力做,可能慢慢會(huì)到一個(gè)瓶頸了,因?yàn)槿粘?赡苡貌坏侥敲绰斆鞯哪P汀?/p>

61. 現(xiàn)在 RL 是解決了有標(biāo)準(zhǔn)答案的問題,并沒有比 AlphaZero 做更多突破,甚至更簡單,蒸餾解決了標(biāo)準(zhǔn)答案的問題,有標(biāo)準(zhǔn)答案后用 RL 的方法去訓(xùn)練時(shí)可以得到很好的效果,這是為什么現(xiàn)在蒸餾或者 RL 能很快突破的原因。

62. 人類對(duì)智能的需求是遠(yuǎn)遠(yuǎn)被低估的,比如癌癥問題、SpaceX 上的隔熱材料都還沒有被解決。現(xiàn)有的任務(wù)是自動(dòng)化的問題,還有很多問題,對(duì)未來增量的爆發(fā)非常樂觀,智能是不能停下來的。

10.OpenAI Stargate 的 $500B 敘事,與算力需求變化

63. DeepSeek 的出現(xiàn)讓大家開始質(zhì)疑英偉達(dá)(NVIDIA)和 OpenAI 最新的 500B 敘事。訓(xùn)練資源問題目前還沒有清晰判斷,OpenAI 的 500B 敘事是給自己加救命稻草。

64. 對(duì)于 OpenAI 500B 基礎(chǔ)設(shè)施投入的事情是存疑的,因?yàn)?OpenAI 是商業(yè)公司,如果涉及舉債,那可能是有風(fēng)險(xiǎn)的。

65. 500B 是一個(gè)很夸張的數(shù)字,可能會(huì)分 4、5 年去執(zhí)行。因?yàn)?leading 的角色是軟銀和 OpenAI,前者是資金,后者是技術(shù),軟銀現(xiàn)在賬上的資金沒有辦法支持 500B,而是用手上的資產(chǎn)去做抵押,而 OpenAI 本身資金也不是很充沛,其他更多是技術(shù)參與方,而不是資金提供方,因此要完整實(shí)現(xiàn) 500B 是有挑戰(zhàn)。

66. OpenAI 500B 的算力是有道理的,在探索階段,試錯(cuò)成本很高,人力和投資成本都很高,但因?yàn)槁肪€是不明確的,從 o1 到 R1 可能也不容易,但至少知道最后是怎么樣的一個(gè)結(jié)果,中間的特征詞也可以觀察到,可以一開始就對(duì)著別人的最終形態(tài)去做,比較有方向感。而如果是在前線探索下一代,是最費(fèi)資源的,而追趕者不需要承擔(dān)探索,但永遠(yuǎn)只是追趕。如果 Google、Anthropic 在探索的領(lǐng)域做成功了,可能就會(huì)成為最前沿的那家公司。

67. Anthropic 未來有可能把所有的 inference 都換成 TPU 或者 AWS Chip。

68. 國內(nèi)公司原來受困于算力,現(xiàn)在證明了潛在的技術(shù)空間是非常大的。對(duì)于更加 efficient 的模型,可能不需要特別大的卡,可以提供相對(duì)定制化的芯片,可以在 AMD、ASIC 芯片上提供適配,從投資角度,英偉達(dá)壁壘非常高,但 ASIC 也會(huì)有更大的機(jī)會(huì)。

69. DeepSeek 的事情和算力沒有太大關(guān)系,更多讓美國覺得中國比較厲害,比較有效率,英偉達(dá)的軟肋不在 DeepSeek,只要 AI 還在發(fā)展,英偉達(dá)就能發(fā)展,英偉達(dá)的優(yōu)勢在生態(tài),這是靠時(shí)間積累的。技術(shù)在快速發(fā)展的時(shí)候,生態(tài)就很重要,真正危機(jī)在于技術(shù)成熟后,類似電力,變成標(biāo)準(zhǔn)品,大家會(huì)關(guān)注做產(chǎn)品,就會(huì)有很多 ASIC 芯片出來做特定場景的優(yōu)化。

11.對(duì)二級(jí)市場的影響

“短期情緒有壓力,長期敘事繼續(xù)”

70. DeepSeek 短期對(duì)美國 AI 圈沖擊大,短期上對(duì)股價(jià)有影響:pretrain 需求增速放緩,post-train 和 inference scaling 還沒有足夠快地 scale up,在相關(guān)公司的敘事上會(huì)有一個(gè) gap,對(duì)于短期交易確實(shí)會(huì)有影響;

71. DeepSeek 更多是 FP8,美國是 FP16,DeepSeek 所有都是基于有限算力工程能力的提升,對(duì)于算力高效的使用是最大亮點(diǎn)。上周五 DeepSeek 在北美有巨大的發(fā)酵,扎克伯格對(duì) Meta 資本支出給了更高的預(yù)期,但英偉達(dá)和臺(tái)積電都是跌,只有博通是漲的。

72. DeepSeek 在短期情緒上對(duì)股價(jià)、估值有壓力,對(duì)二級(jí)的算力相關(guān)公司,甚至能源公司有壓力,但長期敘事會(huì)繼續(xù)。

73. 二級(jí)從業(yè)者會(huì)擔(dān)心英偉達(dá)從 H 卡到 B 卡的轉(zhuǎn)換上會(huì)有一些 air pocket,再加上 DeepSeek 的壓力,短期會(huì)有股價(jià)承壓,但可能是長期看更好的機(jī)會(huì)。

74. 短期受影響是 DeepSeek 在訓(xùn)練上的低成本投入的情緒體現(xiàn),比如英偉達(dá)的股價(jià)就很直接,但 AI 是一個(gè)增量市場,潛力很大,長期來看,AI 才剛開始,如果 CUDA 還是大家喜歡的選擇,那硬件增長空間還是很大的。

12.開源 VS 閉源

“如果能力差不多,對(duì)閉源是挑戰(zhàn)”

75. DeepSeek 之所以受關(guān)注,更多是開源和閉源路線之爭。

76. 有可能會(huì)導(dǎo)致 OpenAI 等把好的模型藏在后面,目前看領(lǐng)先的模型都沒發(fā)布。但 DeepSeek 拿出來之后,其他 AI 公司好的模型可能也藏不住了。

77. DeepSeek 成本上做了很多優(yōu)化,Amazon 等還沒有看到因此做出的改變,還是按照既定的計(jì)劃做,目前是一個(gè)共存的狀態(tài)。開源和閉源模型并不矛盾,高校和小 lab 應(yīng)該會(huì)優(yōu)先選擇 DeepSeek,不會(huì)對(duì)云廠商有競爭,因?yàn)樵茝S商對(duì)開源、閉源都是支持的,生態(tài)不會(huì)改變,目前也是共存狀態(tài)。DeepSeek 在 tool use 等上面還沒有像 Anthropic 這么成熟,后者已經(jīng)花了很多時(shí)間在 AI 安全上,DeepSeek 如果長期希望得到歐美市場的認(rèn)可,是需要考慮的。

78. 開源對(duì)整個(gè)市場的 margin 是有控制的,如果開源能做到閉源的 95%,那如果閉源太貴,那完全就可以用開源來做,如果開源和閉源能力差不多,那對(duì)閉源是一個(gè)很大的挑戰(zhàn)。

13.DeepSeek 出圈的影響

“比技術(shù)更重要的是愿景”

79. DeepSeek 的出圈讓外界意識(shí)到了中國的 AI 很強(qiáng)。以前外界認(rèn)為中國的 AI 進(jìn)展落后美國兩年,但 DeepSeek 表明其實(shí)差距在 3-9 個(gè)月,甚至某些方面更強(qiáng)。

80. 歷史上中國被美國封鎖的東西,如果能被突破的話最終都會(huì)很卷,AI 可能也是,DeepSeek 能跑出來就是一個(gè)證明。

81. DeepSeek 不是突然爆發(fā)的,這次 R1 結(jié)果很漂亮,觸及到了美國從上到下的核心圈。

82. DeepSeek 是站在巨人的肩膀上,但探索前沿需要的時(shí)間和人力成本還是要高很多,R1 并不代表以后的訓(xùn)練成本會(huì)同時(shí)降低。

83. AI 探索者一定是需要更多算力的,中國作為追趕者可以發(fā)揮在工程能力上的優(yōu)勢。中國的大模型團(tuán)隊(duì)怎么用較少的算力做出成果,從而有一定的抵御能力、甚至做得更好,可能是未來中美 AI 格局的推演。

84. 中國今天還是在復(fù)現(xiàn)技術(shù)方案,reasoning 是 OpenAI 在 o1 提出的,所以接下來各個(gè) AI labs 之間的差距在于誰能提出下一個(gè) reasoning。無限長度的 reasoning 可能是一個(gè)愿景。

85. 不同 AI labs 的模型之間的核心差別在于 AI labs 本身的下一個(gè)愿景是什么,而不是技術(shù)。

86. 畢竟,比技術(shù)更重要的是愿景。

本文由人人都是產(chǎn)品經(jīng)理作者【海外獨(dú)角獸】,微信公眾號(hào):【海外獨(dú)角獸】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!