豆包文科成績超了一本線,為什么理科不行?
在這場(chǎng)“高考大摸底”中,國產(chǎn)大模型豆包的表現(xiàn)尤為引人注目,其文科成績甚至超過了一本線,引發(fā)了人們對(duì)于AI在處理語言和邏輯方面優(yōu)勢(shì)的討論。然而,與此同時(shí),大模型在理科成績上的不足也引起了人們的思考。本文將深入分析豆包大模型在文科和理科成績上的表現(xiàn),探討其背后的技術(shù)原理和發(fā)展趨勢(shì)。
什么?好多大模型的文科成績超一本線,還是最卷的河南省???
△ 圖源:極客公園
沒錯(cuò),最近就有這么一項(xiàng)大模型“高考大摸底”評(píng)測(cè)走紅了。
河南高考文科今年的一本線是521分,根據(jù)這項(xiàng)評(píng)測(cè),共計(jì)四個(gè)大模型大于或等于這個(gè)分?jǐn)?shù),其中頭兩名最值得關(guān)注:
GPT-4o:562分
字節(jié)豆包:542.5分
……
從結(jié)果中來看,GPT-4o的表現(xiàn)依舊是處于領(lǐng)先狀態(tài),而在國產(chǎn)大模型這邊,比較亮眼的成績便屬于豆包了。
并且在語文和歷史等科目的成績甚至還超越了GPT-4o。
這也讓不少網(wǎng)友紛紛感慨:
AI文科成績這么好,看來在處理語言和邏輯上還是很有優(yōu)勢(shì)的。
不過有一說一,畢竟國產(chǎn)大模型的競(jìng)爭是如此之激烈,這份評(píng)測(cè)的排名真的靠譜嗎?發(fā)布僅數(shù)月的豆包,真具備此等實(shí)力嗎?以及這數(shù)學(xué)……又是怎么一回事兒?
一、先看評(píng)測(cè)榜單
要回答上述的問題,我們不妨先來查一查豆包在最新的權(quán)威評(píng)測(cè)榜單中的表現(xiàn)是否一致。
首先有請(qǐng)由智源研究院發(fā)布的FlagEval(天秤)。
它的評(píng)測(cè)方式是這樣的:
- 對(duì)于開源模型, FlagEval會(huì)綜合概率選擇和自由生成兩種方式來評(píng)測(cè),對(duì)于閉源模型, FlagEval只采用自由生成的方式來評(píng)測(cè),兩種評(píng)測(cè)方式區(qū)別參照。
- 主觀評(píng)測(cè)時(shí)部分閉源模型對(duì)極小部分題目有拒絕回答的情形,這部分題目并沒有計(jì)入能力分?jǐn)?shù)的計(jì)算。
在“客觀評(píng)測(cè)”這個(gè)維度上,榜單成績?nèi)缦拢?/p>
不難看出,這一維度下的FlagEval中,前四名的成績是與“高考大摸底”的名次一致。
大模型依舊分別來自O(shè)penAI、字節(jié)跳動(dòng)、百度和百川智能。
并且豆包在“知識(shí)運(yùn)用”和“數(shù)學(xué)能力”兩個(gè)維度上成績還高于第一名的GPT-4。
若是將評(píng)測(cè)方式調(diào)節(jié)至“主觀評(píng)測(cè)”,那么結(jié)果是這樣的:
此時(shí),百度的大模型躍居到了第一名,而字節(jié)的豆包依舊是穩(wěn)居第二的成績。
由此可見,不論是主觀還是客觀維度上,前幾位的名次都是與“高考大摸底”的成績是比較接近的。
接下來,我們?cè)賮碛姓?qǐng)另一個(gè)權(quán)威測(cè)評(píng)——OpenCompass(司南)。
在最新的5月榜單中,豆包的成績也是僅次于OpenA家的大模型。
同樣的,在細(xì)分的“語言”和“推理”兩個(gè)維度中,豆包還是超越了GPT-4o和GPT-4 Turbo。
但與專業(yè)評(píng)測(cè)冷冰冰的分?jǐn)?shù)相比,人們都對(duì)高考有著更深刻的體驗(yàn)和記憶。
那么接下來我們就通過豆包回答高考題,來看看大模型在應(yīng)對(duì)人類考試時(shí)的具體表現(xiàn)。
二、再看實(shí)際效果
既然目前許多試卷的題目都已經(jīng)流出,我們不妨親測(cè)一下豆包的實(shí)力。
例如讓它先寫一篇新課標(biāo)I卷語文的作文題目:
隨著互聯(lián)網(wǎng)的普及、人工智能的應(yīng)用,越來越多的問題能很快得到答案。那么,我們的問題是否會(huì)越來越少?
以上材料引發(fā)了你怎樣的聯(lián)想和思考?請(qǐng)寫一篇文章。
要求:選準(zhǔn)角度,確定立意,明確文體,自擬標(biāo)題;不要套作,不得抄襲;不得泄露個(gè)人信息;不少于800字。
△ 結(jié)果由豆包PC端對(duì)話生成
從豆包的作答上來看,是已經(jīng)擺脫了AI寫作文經(jīng)常犯的“首先-其次-以及-最后”這種模板式的寫法,也擅長引經(jīng)據(jù)典來做論證。
但畢竟每個(gè)人對(duì)于文筆的審美標(biāo)準(zhǔn)不同,因此豆包高考作文寫得如何,評(píng)價(jià)就交給你們了(歡迎在留言區(qū)討論)。
值得一提的是,在量子位向豆包團(tuán)隊(duì)詢問后得知,原來豆包PC端對(duì)話和手機(jī)端“拍題答疑”是兩種截然不同的招式——
前者走的是LLM鏈路,后者走的則是RAG鏈路(若是用豆包手機(jī)端“拍題答疑”功能,高考數(shù)理化成績也能接近滿分)。
加上在這次“高考大摸底”評(píng)測(cè)出爐之后,很多網(wǎng)友們都將關(guān)注的重點(diǎn)聚焦到了數(shù)學(xué)成績上:
AI也怕數(shù)學(xué)。
因此,接下來的實(shí)際效果測(cè)試,我們就將以“LLM鏈路+數(shù)學(xué)”的方式來展開。
先拿這次的選擇題來小試牛刀一下:
當(dāng)我們把題目在PC端“喂”豆包之后,它的作答如下:
因此,豆包給出的答案是:
A、C、D、D、B、B、A、A
這里我們?cè)賮硪肱琶谝贿x手GPT-4o的作答:
A、D、B、D、C、A、C、B
而根據(jù)網(wǎng)上目前多個(gè)信源得到的標(biāo)準(zhǔn)答案是:A、C、D、A、B、B、C、B。
對(duì)比來看,豆包對(duì)5道,GPT-4o答對(duì)4道。
而對(duì)于更多的數(shù)學(xué)題的作答,其實(shí)復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室在高考試卷曝光后第一時(shí)間做了更加全面的測(cè)試(所有大模型只能依靠LLM推理答題,不能通過RAG檢索答案):
△ 圖源:復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室
由此可見,大模型并不能完全hold住高考數(shù)學(xué)題目,并且不同人生成答案的結(jié)果也會(huì)出現(xiàn)偏差。
并且量子位在反復(fù)測(cè)試后發(fā)現(xiàn),豆包對(duì)話答題時(shí)有一定隨機(jī)性,多輪測(cè)試時(shí)的結(jié)果并不完全一樣。上文只取樣其中一輪的結(jié)果。
這也正如廣大網(wǎng)友所反饋的那般——大模型文科強(qiáng)、理科弱。
對(duì)此,技術(shù)圈也已經(jīng)有一些討論和解釋:
大語言模型的基本原理是“文字接龍”,通過預(yù)測(cè)下一個(gè)token來生成內(nèi)容,每次預(yù)測(cè)都有隨機(jī)性和概率分布。
當(dāng)大語言模型學(xué)習(xí)了海量知識(shí)數(shù)據(jù),天然就適應(yīng)考驗(yàn)記憶能力和語言運(yùn)用的文科考試。
但理科考試主要考驗(yàn)推理和計(jì)算,比如一道數(shù)學(xué)題包含5步推理和5步計(jì)算,假設(shè)大語言模型每一步預(yù)測(cè)準(zhǔn)確的概率都有90%,綜合下來的準(zhǔn)確率就只有35%。
另一方面,理科語料比較稀缺。大模型的訓(xùn)練數(shù)據(jù)中,文科語料要遠(yuǎn)遠(yuǎn)大于理科語料。這也是大模型更擅長文科的一個(gè)原因。
大模型都在努力提升智能水平,主要目標(biāo)就是提高推理和計(jì)算能力。目前學(xué)界對(duì)此存在爭議,有觀點(diǎn)認(rèn)為,“預(yù)測(cè)下一個(gè)token”本身就包含了推理,計(jì)算也是一種推理。
只要Scaling Law生效,大模型性能持續(xù)提升,推理和計(jì)算能力就能夠提升;但也有反對(duì)者(如Yann LeCun)認(rèn)為,大語言模型缺乏真正的規(guī)劃推理能力,其涌現(xiàn)能力實(shí)際上是上下文學(xué)習(xí)的結(jié)果,主要體現(xiàn)在簡單任務(wù)和事先知道答案的情境中。大語言模型未來是否能夠真正實(shí)現(xiàn)AGI,目前還沒有定論。
那是不是大模型就不適合用戶來解數(shù)學(xué)題了呢?
也并不全是。
正如剛才所說,如果用豆包手機(jī)端的“拍題答疑”,也就是RAG鏈路的方式,那么結(jié)果的“打開方式”就截然不同了。
我們可以先用豆包APP對(duì)著題目拍照,讓它先進(jìn)行識(shí)別:
結(jié)果就是——全對(duì)!
至于更多類型題目大模型們的表現(xiàn)會(huì)如何,友友們可以拿著感興趣的題目自行測(cè)試一番了。
三、如何評(píng)價(jià)?
從“高考大摸底”和智源FlagEval、上海AI Lab OpenCompass等評(píng)測(cè)上可以看到,豆包大模型已經(jīng)穩(wěn)穩(wěn)進(jìn)入國產(chǎn)第一梯隊(duì)。
但隨即而來的一個(gè)問題便是,過去一年多異常低調(diào)的豆包,是如何在短短一個(gè)月內(nèi)就開始爆發(fā)的?
其實(shí)早在發(fā)布之際,豆包與其它大模型廠商截然不同的路徑就已經(jīng)有所體現(xiàn),歸結(jié)其背后的邏輯就是:
只有最大的使用量,才能打磨出最好的大模型。
據(jù)了解,豆包大模型在5月15日正式發(fā)布時(shí),其每天平均處理的token數(shù)量高達(dá)1200億,相當(dāng)于1800億的漢字;每天生成圖片的數(shù)量為3000萬張。
不僅如此,豆包大模型家族還會(huì)在包括抖音、今日頭條等在內(nèi)的50多個(gè)場(chǎng)景中進(jìn)行實(shí)踐和驗(yàn)證。
因此,我們可以把豆包在大模型性能上的路數(shù),視為用“左手使用量,右手多場(chǎng)景”的方式反復(fù)打磨而來。
一言蔽之,大模型好不好,用一下就知道了。
并且基于豆包大模型打造的同名產(chǎn)品豆包APP,已成為國內(nèi)最受歡迎的AIGC類應(yīng)用。
這一點(diǎn)上,從量子位智庫所匯總的智能助手“APP下載總量”和“APP月新增下載總量”便可一目了然——
豆包,均拿下第一。
不僅如此,在前不久國產(chǎn)大模型To B市場(chǎng)打響價(jià)格戰(zhàn)之際,火山引擎也是相當(dāng)“壕氣”讓大模型進(jìn)入“厘時(shí)代”,1元=1250000tokens。
因此,現(xiàn)在要如何評(píng)價(jià)字節(jié)跳動(dòng)的大模型和應(yīng)用,或許就是:
- 多:場(chǎng)景多,數(shù)據(jù)多
- 好:各路評(píng)測(cè)都能hold住
- ?。菏菦_在價(jià)格戰(zhàn)頭部的選手
但也正如我們剛才所述,現(xiàn)在的大模型還有很大的“進(jìn)化”空間。
因此對(duì)于國產(chǎn)大模型在未來的發(fā)展,我們還需保持持續(xù)的關(guān)注;但毋庸置疑的一點(diǎn)是,字節(jié)的大模型和豆包,定然是最值得期待的其中一個(gè)。
參考鏈接:
[1]https://mp.weixin.qq.com/s/2IueZaiCuyVp97DT-bP4Ow
[2]https://flageval.baai.ac.cn/#/leaderboard/nlp-capability?kind=CHAT
[3]https://rank.opencompass.org.cn/leaderboard-llm/?m=24-05
[4]https://mp.weixin.qq.com/s/KYEsTA-qU72pXWnr7-iB4A
作者:金磊 發(fā)自 凹非寺
本文由人人都是產(chǎn)品經(jīng)理作者【量子位】,微信公眾號(hào):【量子位】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!