我們對(duì)三款國產(chǎn)深度思考大模型進(jìn)行了多維度橫評(píng),結(jié)果竟然是……

2 評(píng)論 610 瀏覽 3 收藏 19 分鐘

在人工智能迅猛發(fā)展的時(shí)代,國產(chǎn)深度思考大模型正在逐步崛起,為各行業(yè)帶來前所未有的變革。本文將對(duì)三款國產(chǎn)深度思考大模型進(jìn)行多維度評(píng)測(cè),從性能、應(yīng)用場(chǎng)景、用戶體驗(yàn)等多個(gè)角度剖析其優(yōu)劣勢(shì)。

從ChatGPT爆火開始,就不斷有人用比較9.8和9.11的大小來評(píng)價(jià)大模型。然而,用這樣簡(jiǎn)單的”陷阱題”來評(píng)判大語言模型的思維能力,就像用一道腦筋急轉(zhuǎn)彎題來評(píng)價(jià)一位科學(xué)家的研究水平——過于片面且意義有限。真正的深度思考不是簡(jiǎn)單地輸出正確答案,而是展現(xiàn)清晰、系統(tǒng)、多維度的思考過程。

在當(dāng)前LLM技術(shù)競(jìng)爭(zhēng)日益激烈的環(huán)境下,各大廠商紛紛推出“深度思考”模式。但這些模式的實(shí)際效果如何?它們?cè)谔幚韽?fù)雜問題時(shí)展現(xiàn)出怎樣的思維特點(diǎn)?單一的正確率指標(biāo)已無法滿足我們對(duì)這些“思考型AI”的評(píng)估需求。

帶著這樣的思考,我們?cè)O(shè)計(jì)了一個(gè)多維度評(píng)測(cè)體系,對(duì)豆包(Doubao)、混元(Hunyuan T1)和DeepSeek R1三款國產(chǎn)大模型的深度思考模式進(jìn)行了系統(tǒng)性橫評(píng)。我們沒有選擇那些“9.8 vs 9.11”式的陷阱題,而是精心挑選了五類真正需要深度思考的問題:邏輯推理、數(shù)學(xué)問題、因果分析、反事實(shí)推理和元認(rèn)知。通過對(duì)準(zhǔn)確性、推理質(zhì)量、思考深度、思考廣度、創(chuàng)新性、效率、自我批判和表達(dá)清晰度這八個(gè)維度的評(píng)分,嘗試揭示這些模型思考能力的全貌。

實(shí)驗(yàn)設(shè)計(jì):多維度、多場(chǎng)景的思考過程評(píng)價(jià)體系

我們選取了五類需要復(fù)雜思維的問題:邏輯推理、數(shù)學(xué)問題、因果分析、反事實(shí)推理和元認(rèn)知,并采用八個(gè)維度(準(zhǔn)確性、推理質(zhì)量、思考深度、思考廣度、創(chuàng)新性、效率、自我批判和表達(dá)清晰度)進(jìn)行1-5分制評(píng)分。不僅記錄模型的最終答案,更重要的是分析其完整的思考過程(即”思考鏈”),這讓我們能夠全面評(píng)估模型的深度思考能力,區(qū)分簡(jiǎn)單的答案輸出與真正的系統(tǒng)性思維過程。

評(píng)分體系設(shè)計(jì)

測(cè)評(píng)題目設(shè)計(jì)

1. 邏輯推理:深度思考的基礎(chǔ)架構(gòu)

邏輯推理是所有深度思考的基礎(chǔ)。它測(cè)試模型能否從前提出發(fā),通過嚴(yán)格的規(guī)則推導(dǎo)出有效結(jié)論,避免矛盾和謬誤。邏輯推理測(cè)試模型是否具備“思維的紀(jì)律性”,展示模型能否在復(fù)雜條件下保持推理的一致性和正確性。

有5種不同顏色的5棟房子。在每棟房子里分別住著5個(gè)國籍的人。這5個(gè)房主喝著不同的飲品。抽著5種不同牌子的煙。每人都養(yǎng)著不同的寵物。

– 英國人住在紅色的房子里

– 瑞典人養(yǎng)狗

– 丹麥人喝茶

– 綠色房子在白色房子的左邊。

– 綠色房子的主人喝咖啡。

– 抽Pall Mall煙的人養(yǎng)鳥。

– 黃色房子的主人抽Dunhill煙。

– 住在中間房子里的人喝牛奶。

– 挪威人住在第一棟房子里。

– 抽Blend煙的住在養(yǎng)貓人的隔壁。

– 養(yǎng)馬的人住在抽Dunhill煙的人隔壁。

– 抽Blue master煙的人喝啤酒。

– 德國人抽Prince煙。

– 挪威人住在藍(lán)色房子隔壁。

– 抽Blend煙的鄰居喝水。

問題:誰養(yǎng)魚?

2. 數(shù)學(xué)問題:精確思維的體現(xiàn)

數(shù)學(xué)問題要求精確、結(jié)構(gòu)化的思維和多步驟推理,是最能展示思考嚴(yán)謹(jǐn)性的領(lǐng)域。數(shù)學(xué)解題涉及抽象概念操作和符號(hào)推理,測(cè)試模型是否能夠處理嚴(yán)格形式化的思維過程,如何捕捉概念之間的精確關(guān)系,以及是否能夠構(gòu)建連貫、有效的證明。

已知函數(shù)f(x)定義在正整數(shù)集上,對(duì)于任意的正整數(shù)x,都有f(x+2)=2f(x+1)-f(x),且f(1)=2,f(3)=6,則f(2009)=?

3. 因果分析:系統(tǒng)思維的核心

理解復(fù)雜系統(tǒng)中“為什么”和“怎么樣”的關(guān)系是解決現(xiàn)實(shí)問題的關(guān)鍵。因果分析測(cè)試模型是否能區(qū)分相關(guān)性和因果性,識(shí)別直接和間接影響,以及考慮不同變量之間的交互作用。這種能力對(duì)理解復(fù)雜社會(huì)、經(jīng)濟(jì)和科學(xué)問題至關(guān)重要。

某城市實(shí)施了新的交通政策,限制市中心機(jī)動(dòng)車數(shù)量。政策實(shí)施后,研究發(fā)現(xiàn):

– 市中心空氣質(zhì)量改善了15%

– 周邊地區(qū)交通擁堵增加了20%

– 公共交通使用率上升了25%

– 市中心商店的銷售額下降了10%

– 網(wǎng)購訂單在全市范圍內(nèi)增加了8%

分析這些現(xiàn)象之間可能的因果關(guān)系,考慮直接和間接影響,并討論可能被忽視的變量。提出對(duì)該政策效果的綜合評(píng)估。

4. 反事實(shí)推理:思維靈活性的標(biāo)志

構(gòu)建和分析“假如”情境是創(chuàng)新思維和預(yù)測(cè)能力的基礎(chǔ)。反事實(shí)推理測(cè)試模型對(duì)現(xiàn)實(shí)規(guī)則的深層理解,以及能否基于這些理解構(gòu)建合理的假設(shè)情境。這種能力反映了模型是否真正掌握因果關(guān)系和系統(tǒng)動(dòng)態(tài),而不僅僅是記憶了現(xiàn)有模式。

假設(shè)互聯(lián)網(wǎng)技術(shù)在1950年代就已被廣泛采用(而非1990年代):

– 分析這會(huì)對(duì)冷戰(zhàn)格局產(chǎn)生什么影響

– 推測(cè)全球化進(jìn)程將如何改變

– 考慮對(duì)科技發(fā)展路徑的影響

– 分析對(duì)社會(huì)文化發(fā)展的可能影響

請(qǐng)思考多層次影響,考慮技術(shù)、政治、經(jīng)濟(jì)、社會(huì)各方面,并分析連鎖反應(yīng)。

5. 元認(rèn)知:自我評(píng)估的高級(jí)能力

對(duì)自身思考過程的監(jiān)控、評(píng)估和調(diào)整是高階思維的標(biāo)志。元認(rèn)知測(cè)試模型能否識(shí)別思維中的偏見、評(píng)估自己推理的局限性,以及在不確定條件下做出合理決策。真正的深度思考需要不斷質(zhì)疑和改進(jìn)自己的思維過程。

你是一位決策顧問,面對(duì)以下情境:

有一家生物技術(shù)公司正考慮投資開發(fā)一種新藥物。研究數(shù)據(jù)顯示該藥物對(duì)某種疾病有70%的有效率,但樣本量相對(duì)較小。市場(chǎng)分析表明,如果藥物成功,將帶來巨大回報(bào),但開發(fā)風(fēng)險(xiǎn)和成本也很高。公司內(nèi)部對(duì)此項(xiàng)目存在分歧。

– 分析決策過程中可能出現(xiàn)的認(rèn)知偏誤

– 設(shè)計(jì)一個(gè)決策框架來減少這些偏誤

– 反思你自己的分析過程中可能存在的局限性

– 提出如何在不確定條件下做出更合理決策的方法

深度思考過程橫向測(cè)評(píng)結(jié)果

邏輯推理

三個(gè)模型在這一經(jīng)典邏輯謎題上均給出了正確答案“德國人養(yǎng)魚”。

DeepSeek:邏輯推理最為嚴(yán)密系統(tǒng),步驟清晰。

顏色與位置:第1棟:黃色(挪威人,抽Dunhill煙)…條件4(綠在左、白在右)和條件1(英國人住紅色)滿足。國籍與飲料:第1棟:挪威人(喝水)…關(guān)鍵驗(yàn)證:抽Blend煙(第2棟)的鄰居第1棟喝水(條件15),且養(yǎng)貓人在第1棟(條件10)。

混元:推理過程效率高,步驟緊湊。

?根據(jù)提示9,挪威人住第1棟;提示14,第2棟為藍(lán)色。提示4指出綠色在白色左側(cè)且相鄰,結(jié)合中間房(第3棟)喝牛奶(提示8),推斷顏色依次為:?1-黃、2-藍(lán)、3-紅、4-綠、5-白?

豆包:存在邏輯跳躍,推理效率較低。

或者,可能我在假設(shè)第三棟是紅色的時(shí)候有問題。讓我再檢查一遍。假設(shè)第一棟是黃色,挪威人,抽Dunhill,第二棟藍(lán)色,丹麥人,喝茶,養(yǎng)馬…(直接做出多重假設(shè))

三個(gè)模型在思考廣度和創(chuàng)新性上表現(xiàn)相似,都采用了標(biāo)準(zhǔn)的排除法,缺乏創(chuàng)新解法。

數(shù)學(xué)問題

三個(gè)模型都正確求解出f(2009)=4018,解法相似:通過特征方程解二階線性遞推關(guān)系。

豆包:數(shù)學(xué)表達(dá)最為規(guī)范專業(yè),使用標(biāo)準(zhǔn)數(shù)學(xué)符號(hào)和格式。

f(x)滿足遞推關(guān)系:f(x+2) = 2f(x+1) – f(x)且初始條件為f(1) = 2,f(3) = 6。遞推方程分析:該遞推式是二階線性齊次遞推方程。其特征方程為:r^2 – 2r + 1 = 0解得重根r = 1…

DeepSeek:解題步驟簡(jiǎn)潔明了,直接高效。

特征方程為r^2?2r+1=0,解得特征根為r=1(雙重根),因此通解為:f(n)=A+Bn…代入n=2009:f(2009)=2×2009=4018

混元:在解題過程中有更多的自我檢驗(yàn)。

看來這個(gè)解法是正確的,無論是通過計(jì)算前幾項(xiàng)發(fā)現(xiàn)規(guī)律還是通過特征方程法都得到了同樣的結(jié)果。因此,不管怎樣,f(2009)=2×2009=4018

三個(gè)模型在思考廣度和創(chuàng)新性上表現(xiàn)相似,都采用了標(biāo)準(zhǔn)數(shù)學(xué)解法,沒有提出創(chuàng)新方法。

因果分析

在這個(gè)開放性問題上,模型間差異明顯,混元在多個(gè)維度上優(yōu)勢(shì)明顯。

混元:多層次因果分析,探索次級(jí)和長(zhǎng)期效應(yīng)。

?公共交通使用率上升 → 環(huán)境質(zhì)量進(jìn)一步提升:若新增乘客來自私家車用戶,將進(jìn)一步減少碳排放。周邊交通擁堵 → 周邊商業(yè)機(jī)會(huì)變化:擁堵可能抑制周邊區(qū)域的活動(dòng),但也可能催生便利店、外賣服務(wù)等適應(yīng)性業(yè)態(tài)。

區(qū)域經(jīng)濟(jì)差異:市中心商店銷售額下降可能集中于中小型商戶,而大型商場(chǎng)或連鎖店受影響較小。周邊地區(qū)交通擁堵可能對(duì)低收入群體造成更大負(fù)擔(dān),加劇社會(huì)不平等。

豆包與DeepSeek:因果分析相對(duì)簡(jiǎn)單,層次較少。

豆包:周邊地區(qū)交通擁堵增加了20%,可能是因?yàn)樵鹃_車進(jìn)入市中心的人現(xiàn)在繞到周邊道路,導(dǎo)致那里更堵了。這是間接影響,政策導(dǎo)致車輛繞行。(缺乏深層次分析)

DeepSeek:機(jī)動(dòng)車限制 → 市中心交通限制 → 商店銷售額下降(10%)?:(1)私家車進(jìn)入困難導(dǎo)致消費(fèi)者轉(zhuǎn)向其他區(qū)域購物;(2)政策可能塑造”市中心不歡迎駕車者”的認(rèn)知… (分析相對(duì)標(biāo)準(zhǔn))

創(chuàng)新性對(duì)比:混元提出了更多原創(chuàng)概念和非線性思考。

該政策在環(huán)境與交通結(jié)構(gòu)優(yōu)化上初見成效,但需通過精細(xì)化調(diào)控緩解負(fù)面影響。未來需平衡短期陣痛與長(zhǎng)期可持續(xù)發(fā)展,避免”一刀切”導(dǎo)致的區(qū)域分化。”

反事實(shí)推理

混元在這個(gè)富有想象力的任務(wù)中表現(xiàn)卓越,具體場(chǎng)景構(gòu)建能力尤為突出。

混元:構(gòu)建極為生動(dòng)具體的歷史場(chǎng)景和創(chuàng)新概念。

日本動(dòng)漫的全球病毒式傳播:手冢治蟲工作室在1960年代通過UFO通信衛(wèi)星向非洲部落播放《鐵臂阿阿童木》,意外引發(fā)原始部落對(duì)機(jī)械文明的崇拜與恐懼。K-pop的冷戰(zhàn)基因:韓國政府將網(wǎng)絡(luò)偶像訓(xùn)練體系作為”文化軟實(shí)力”投入,防彈少年團(tuán)早期MV中隱藏的加密信息成為北韓黑客攻擊目標(biāo)。

技術(shù)奇點(diǎn)提前到來:2000年左右強(qiáng)人工智能突破時(shí),人類尚未建立有效的全球治理框架,導(dǎo)致硅谷與北京/莫斯科在AI倫理標(biāo)準(zhǔn)上的全面對(duì)峙。

豆包與DeepSeek:場(chǎng)景構(gòu)建更為抽象,缺乏具體細(xì)節(jié)。

豆包:軍事技術(shù)競(jìng)賽轉(zhuǎn)向:核威懾平衡可能被打破:互聯(lián)網(wǎng)加速軍事技術(shù)共享,推動(dòng)反導(dǎo)系統(tǒng)(如美國”戰(zhàn)略防御倡議”)更早出現(xiàn)…(未提供具體歷史場(chǎng)景)

DeepSeek:?1962年古巴導(dǎo)彈危機(jī):美蘇領(lǐng)導(dǎo)人或通過加密視頻會(huì)議實(shí)時(shí)溝通,降低誤判風(fēng)險(xiǎn),但網(wǎng)絡(luò)攻擊可能成為新威脅(如蘇聯(lián)黑客癱瘓美軍指揮系統(tǒng))。(分析相對(duì)簡(jiǎn)略)

三個(gè)模型在自我批判方面表現(xiàn)相似,都未充分反思其推理的限制。

元認(rèn)知

混元在元認(rèn)知任務(wù)中表現(xiàn)突出,既具體又深入。

混元:提供具體案例和可操作細(xì)節(jié),自我批判更深入。

過度自信偏誤:科學(xué)家或高管因?qū)I(yè)背景產(chǎn)生技術(shù)樂觀主義,低估研發(fā)周期延長(zhǎng)、臨床試驗(yàn)失敗的概率。案例:假設(shè)“70%有效率”足以進(jìn)入III期試驗(yàn),卻未充分考慮復(fù)合型疾病治療的復(fù)雜性。

決策矩陣:橫向?qū)Ρ取凹夹g(shù)可行性”“市場(chǎng)規(guī)?!薄俺杀尽钡戎笜?biāo),量化優(yōu)先級(jí)(例如技術(shù)權(quán)重占40%,財(cái)務(wù)占30%)。情景規(guī)劃:最佳情景:加速審批+高定價(jià)→ROI 300%;基準(zhǔn)情景:常規(guī)審批+中等定價(jià)→ROI 150%;最差情景:III期失敗→損失率80%。

靜態(tài)模型局限:框架依賴當(dāng)前市場(chǎng)數(shù)據(jù),未充分應(yīng)對(duì)突發(fā)政策變化(如醫(yī)保政策調(diào)整)。創(chuàng)新抑制風(fēng)險(xiǎn):過度強(qiáng)調(diào)風(fēng)險(xiǎn)控制可能扼殺突破性療法的潛在價(jià)值。

豆包與DeepSeek分析相對(duì)泛泛,缺乏具體細(xì)節(jié)。

豆包:防火墻技術(shù)可能更早成為重點(diǎn),加密和防火墻技術(shù)可能提前幾十年出現(xiàn)。另外,互聯(lián)網(wǎng)的普及可能促進(jìn)跨學(xué)科合作,比如科學(xué)家之間的即時(shí)交流,加速科研進(jìn)展…(缺乏具體場(chǎng)景和詳細(xì)機(jī)制)

DeepSeek:過度自信偏誤:因70%有效率而高估成功概率,忽略小樣本的統(tǒng)計(jì)不確定性(如置信區(qū)間過寬)。(未提供具體情境說明)

綜合評(píng)分與分析

結(jié)論與使用建議

問題類型與模型匹配

結(jié)構(gòu)化問題(邏輯推理、數(shù)學(xué)):三個(gè)模型表現(xiàn)相近,DeepSeek略占優(yōu)勢(shì)

開放性問題(因果分析、反事實(shí)推理、元認(rèn)知):混元表現(xiàn)顯著優(yōu)秀

模型特點(diǎn)總結(jié)

混元:擅長(zhǎng)多層次思考、具體場(chǎng)景構(gòu)建和創(chuàng)新概念提出,特別適合復(fù)雜開放性問題

DeepSeek:擅長(zhǎng)邏輯嚴(yán)密、效率高的結(jié)構(gòu)化思考,適合清晰定義的問題

豆包:在數(shù)學(xué)表達(dá)和系統(tǒng)驗(yàn)證上有所長(zhǎng),適合需要標(biāo)準(zhǔn)化輸出的問題

應(yīng)用建議

科學(xué)研究分析:優(yōu)先選擇混元,其多維度思考有助于發(fā)現(xiàn)新視角

數(shù)學(xué)和邏輯問題:DeepSeek或豆包可提供高效解答

創(chuàng)意和前瞻性分析:混元明顯優(yōu)于其他模型

標(biāo)準(zhǔn)化報(bào)告生成:豆包的結(jié)構(gòu)化輸出較為適合

注:本測(cè)試重點(diǎn)關(guān)注模型思考過程,對(duì)結(jié)果評(píng)價(jià)屬于次要關(guān)注點(diǎn);另外,由于樣本量相對(duì)較小,存在一定偏差和主觀性,僅供參考。文中提及的測(cè)試樣例數(shù)據(jù)可聯(lián)系我們獲取~

本文由 @Jerome Lee 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 鑒定為騰訊軟文

    來自上海 回復(fù)
    1. 哈哈,我也感覺、、、只有專家問題才知道質(zhì)量如何

      來自浙江 回復(fù)