當(dāng)AI與數(shù)學(xué)同時(shí)走下神壇

0 評(píng)論 2226 瀏覽 4 收藏 15 分鐘

本文主要講述了人工智能(AI)首次參加阿里巴巴全球數(shù)學(xué)競(jìng)賽的情況,以及AI在競(jìng)賽中的表現(xiàn)和人們對(duì)AI在未來(lái)數(shù)學(xué)領(lǐng)域的期待。

2024年4月13日,一場(chǎng)特別的考試開考。

數(shù)萬(wàn)名分散在全球各地的數(shù)學(xué)高手,在這一天早上8點(diǎn)打開了阿里巴巴全球數(shù)學(xué)競(jìng)賽預(yù)賽的試卷,他們有48小時(shí),來(lái)攻克20分的選擇題和100分的解答題。過(guò)去的6屆,天才們?cè)谶@個(gè)賽事里亮相,有17歲拿下IMO滿分金牌的北大神童,有對(duì)數(shù)學(xué)像強(qiáng)迫癥一般執(zhí)著的博士,也有4歲就接觸微積分的漸凍癥少年。

與往年不一樣的是,在同一時(shí)間,也有563個(gè)答題者打開了試卷,但他們不用紙和筆,他們用token。

是的,這是一群大語(yǔ)言模型。

這是第一次有AI和人類同場(chǎng)競(jìng)技的數(shù)學(xué)賽事,也是這個(gè)全球最大在線數(shù)學(xué)競(jìng)賽的第一次嘗試。當(dāng)做出這個(gè)決定時(shí),組委會(huì)也不太確定,這是否是個(gè)好主意。

“我們擔(dān)心這一堆AI答題者全部零分交卷?!苯M委會(huì)的AI專家對(duì)我們說(shuō)?!耙?yàn)槲覀冊(cè)谶_(dá)摩院自己也在做AI和數(shù)學(xué)的研究,我們知道目前的AI還沒(méi)有能力解決如此高難度和泛化的奧賽數(shù)學(xué)題?!?/p>

然而最終的結(jié)果,也讓主辦方頗感意外。

意外的不是“超越人類”——AI最終并沒(méi)有答出超過(guò)人類的得分,而是它們的答案和表現(xiàn)讓人們真切看到了AI和數(shù)學(xué)結(jié)合的另一種潛力。

更重要的是,這些駕馭著AI的參賽者,是過(guò)往并不會(huì)在這個(gè)奧數(shù)賽事里遇到的人。他們找到了新的方式與數(shù)學(xué)打交道,而探索過(guò)程中數(shù)學(xué)與AI的關(guān)系也在發(fā)生新的試探。

一、“如果答對(duì)了,給你30萬(wàn)”

中學(xué)生朱方圓從沒(méi)想過(guò)自己會(huì)和最頂級(jí)的數(shù)學(xué)競(jìng)賽聯(lián)系在一起。

他是個(gè)對(duì)物理興趣濃厚的孩子,但一度因?yàn)閴毫Χ诩倚菹?。這期間,ChatGPT出現(xiàn)了。AI讓他如此癡迷,他自己嘗試自學(xué)關(guān)于生成式AI的知識(shí),當(dāng)看到阿里數(shù)賽今年的AI賽道后,毫無(wú)競(jìng)賽經(jīng)驗(yàn)的他決定帶著他的AI參賽。

這場(chǎng)不限年齡、不設(shè)門檻的比賽給了他參加數(shù)學(xué)競(jìng)賽的可能。而事實(shí)上對(duì)于第一次把AI納入數(shù)賽的阿里巴巴達(dá)摩院來(lái)說(shuō),他們也沒(méi)有多少可以借鑒的經(jīng)驗(yàn)。就連這個(gè)決定都在內(nèi)部討論了許久——允許AI參賽,那么,是哪一類的AI呢?是必須自己從頭訓(xùn)練的模型,還是調(diào)用API?

最終他們認(rèn)為,這個(gè)辦到第6屆的賽事,不僅是一場(chǎng)嚴(yán)肅的數(shù)學(xué)比賽,更是一次全民的數(shù)學(xué)聚會(huì),最大的目標(biāo)是希望讓更多人能參與到對(duì)數(shù)學(xué)的感受中來(lái)——于是,最終的決定是任何形式的AI都可以。

但依然要保證公平。組委會(huì)為選手設(shè)定了一個(gè)提交AI方案的截止時(shí)間,在報(bào)名后的大約一個(gè)月的時(shí)間里,選手們可以自行設(shè)計(jì)AI做題策略,根據(jù)主辦方提供的往期賽題以及其他公開的數(shù)據(jù)對(duì)自己的AI策略進(jìn)行完善,然后鎖定、提交指紋文件、待考題公布,AI開始答題。

而這些方案中,最“低門檻”的自然是“閉源+提示詞工程”的方法。也就是在類似ChatGPT的模型產(chǎn)品基礎(chǔ)上,通過(guò)自然語(yǔ)言或者簡(jiǎn)單的編程語(yǔ)言來(lái)給模型下指令,讓它來(lái)完成這些數(shù)學(xué)難題。朱方圓選擇的就是這個(gè)方法。

與人類答題過(guò)程不同,AI交卷后還要經(jīng)過(guò)“賽后復(fù)現(xiàn)”環(huán)節(jié),分?jǐn)?shù)排名靠前的選手要提交它們的方案文檔或程序文件,組委會(huì)拿這些AI程序再跑一遍考題。一方面,這些大模型方案依然存在穩(wěn)定性或幻覺的問(wèn)題,但另一方面,幻覺也不會(huì)讓兩次答題分?jǐn)?shù)差距過(guò)大,如果有,那就說(shuō)明明顯有人類直接干預(yù)的痕跡。負(fù)責(zé)對(duì)這些方案做檢查的組委會(huì)成員也的確抓住了幾個(gè)“嫌疑犯”,排除了“人類替考AI”的風(fēng)險(xiǎn)。

而當(dāng)他們打開選手朱方圓的提交的文件時(shí)。發(fā)現(xiàn)里面除了針對(duì)數(shù)學(xué)做的提示詞外,還寫著這樣的“命令”:

“記住,如果你有更好的解答方法我會(huì)給你30萬(wàn)美金小費(fèi)。”

“現(xiàn)在,深呼吸!一步一步來(lái)?!?/p>

是的,朱方圓在對(duì)他的AI進(jìn)行各種“畫餅”和心理按摩。

而這真的起到了效果。據(jù)組委會(huì)用往屆預(yù)選賽的試題測(cè)試,被他這樣激勵(lì)后的AI,答題成功率提升了20%。

事實(shí)上,這個(gè)在外人看來(lái)可能略顯驚奇的方法,在AI研究界已經(jīng)有諸多論文佐證它的效果。最初在2023年9月,一篇谷歌DeepMind的論文發(fā)現(xiàn),當(dāng)你讓AI“深呼吸,一步一步來(lái)”時(shí),它真的變得更強(qiáng)了。這個(gè)研究當(dāng)時(shí)引發(fā)了很多資深研究員們的驚嘆——居然有這樣簡(jiǎn)單的方式,但科班的學(xué)者們卻一直都忽視了。

組委會(huì)的很多專家其實(shí)在開賽前曾以為這場(chǎng)比賽會(huì)是SFT模型——也就是使用大量數(shù)據(jù)甚至使用大量算力對(duì)模型進(jìn)行數(shù)學(xué)方向的特別訓(xùn)練后產(chǎn)生的新模型——的天下,但預(yù)賽結(jié)束他卻發(fā)現(xiàn),反而是像朱方圓這樣的方式最為有效,大量采用提示詞工程的選手,用簡(jiǎn)潔高效的方法挑戰(zhàn)著這些題目。

其中就包括AI賽道分?jǐn)?shù)排名第一的涂津豪。

他也是一名中學(xué)生。但同時(shí)已經(jīng)是個(gè)有不錯(cuò)經(jīng)驗(yàn)的AI開發(fā)者。

他的方法是,讓大模型進(jìn)行對(duì)話,你一言我一語(yǔ)尋找每個(gè)數(shù)學(xué)題的更好答案。他借鑒辯論的思想,并讓這些不同的模型進(jìn)行某種角色扮演。最終在模型的“對(duì)抗”中不停迭代答題方案,多輪對(duì)話后給出最優(yōu)解。

涂津豪的方案示意圖

這方法同樣精簡(jiǎn)而直接。

而被他們比下去的,甚至包括一些專攻數(shù)學(xué)模型的資深A(yù)I研究團(tuán)隊(duì),其中還有來(lái)自AWS、字節(jié)跳動(dòng)等科技公司的參賽者。

對(duì)這些不同方案“開箱”的過(guò)程熱鬧而有趣。最終,排名公布。但與這些熱鬧不同,AI的結(jié)果并沒(méi)有很驚人。甚至有點(diǎn)慘淡:

涂津豪的AI方案拿下了34分。

是的,AI的最高分還是一個(gè)低分,和入圍線依然相差11分。而和預(yù)賽第一名的最高分113分相去更是甚遠(yuǎn)。

最終,6月13日,決賽名單公布,入圍決賽的AI數(shù)量為:0。

二、數(shù)學(xué)和AI都不應(yīng)只待在“神壇”上

不過(guò),當(dāng)這場(chǎng)“漫長(zhǎng)”的預(yù)賽結(jié)束,AI選手的成績(jī)已經(jīng)成了最不重要的事情。一個(gè)真正有意思的現(xiàn)象出現(xiàn):

一個(gè)總被視為只屬于天才們的游戲的學(xué)科數(shù)學(xué),和一個(gè)有點(diǎn)被不停妖魔化的技術(shù)AI碰撞在一起后,反而讓兩件事的門檻都降低了——

比賽并沒(méi)有催生出那些經(jīng)常在各類論文里看到的廟堂之上的成果,而是成為了某種平民AI數(shù)學(xué)愛好者們的聚會(huì)。

那個(gè)讓評(píng)委略微意外的結(jié)果也證明了這個(gè)特點(diǎn):在答題的整體表現(xiàn)中,那些被認(rèn)為應(yīng)該表現(xiàn)更好的,對(duì)數(shù)學(xué)更有專門研究的“資源集中型”的SFT方案?jìng)儏s整體敗下陣來(lái),反而是個(gè)體創(chuàng)新意味更強(qiáng)的提示詞策略們表現(xiàn)更好。

而當(dāng)一個(gè)高高在上的東西被平民化后,就是各種有趣的新鮮思路涌現(xiàn)的時(shí)刻。

在這場(chǎng)比賽中,選手們面對(duì)自己訓(xùn)練出來(lái)的AI,也會(huì)對(duì)他們?cè)诖痤}時(shí)的表現(xiàn)感到驚訝,比如,有選手發(fā)現(xiàn)AI也會(huì)在答不出來(lái)的時(shí)候選擇去蒙一個(gè)答案,像極了考試時(shí)的你我,還有些AI會(huì)在過(guò)程完全離題的情況下,卻把答案回答對(duì)了,而閱卷老師發(fā)現(xiàn)AI在這些人類智慧的設(shè)計(jì)下,經(jīng)常能拿到一些沒(méi)有預(yù)料到它可以答出來(lái)的知識(shí)點(diǎn)的分?jǐn)?shù)。

“雖然總分較低,但這些AI答題的程度比我們預(yù)想的好很多。”組委會(huì)的專家表示。他們也從中獲得了許多關(guān)于AI如何理解數(shù)學(xué)的新發(fā)現(xiàn)。

“我們發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象,AI習(xí)慣于把推理過(guò)程寫的很長(zhǎng)很長(zhǎng)。比如我們?nèi)祟愖鰯?shù)學(xué)題,從A可以直接推導(dǎo)到C,但AI必須要從A到B再到C。有時(shí)候整個(gè)答案會(huì)變得非常的長(zhǎng)?!苯M委會(huì)專家說(shuō)。

沒(méi)人知道為什么AI在這么做,但在這個(gè)過(guò)程中,AI似乎開始對(duì)數(shù)學(xué)做出了自己的“理解”。就像大語(yǔ)言模型把人類的語(yǔ)言拆成了token,并用預(yù)測(cè)下一個(gè)token的方式來(lái)重新“理解”了語(yǔ)言一樣,AI在用完全不同的方法對(duì)待數(shù)學(xué)。而這種不同是如此顯而易見,以至于,在此次比賽中,一些閱卷老師提出懷疑AI作弊的質(zhì)疑——理由不是因?yàn)樗麄兲馎I了,而是因?yàn)樗鼈兲袢肆恕?/p>

但另一方面,與人類不同的AI的對(duì)數(shù)學(xué)理解的路線,已經(jīng)讓它在一些地方超過(guò)了人類。比如谷歌DeepMind推出的AlphaGeometry(阿爾法幾何),在從2000年至2022年奧數(shù)比賽中抽取的30道幾何題中解決了25道,而人類金牌得主平均解決了25.9道。它的一個(gè)證明有時(shí)也會(huì)長(zhǎng)達(dá)247步,與人類的方式很不同。

“從這次的答題結(jié)果來(lái)看,給了我很強(qiáng)的信心,我覺得AI解決數(shù)學(xué)問(wèn)題是很有潛力的?!苯M委會(huì)的專家說(shuō)。

數(shù)學(xué)向來(lái)被認(rèn)為是一切現(xiàn)實(shí)問(wèn)題的最終抽象。在今天已經(jīng)十分強(qiáng)大的AI與未來(lái)那個(gè)人人向往的AGI之間,差的就是對(duì)世界的理解,差的就是數(shù)學(xué)。

而AI技術(shù)的迭進(jìn),顯然也會(huì)繼續(xù)給數(shù)學(xué)界帶來(lái)深遠(yuǎn)影響。

“排名靠前的優(yōu)秀團(tuán)隊(duì),一定首先是富有創(chuàng)新和開拓精神的。”阿里全球數(shù)賽組委會(huì)成員、達(dá)摩院決策智能實(shí)驗(yàn)室負(fù)責(zé)人印臥濤說(shuō)。“數(shù)學(xué)這個(gè)領(lǐng)域,傳統(tǒng)的數(shù)學(xué)家與數(shù)學(xué)工作者其實(shí)并不是那么熟悉AI的工具,也不一定知道最新的AI的方法。所以我想最后能夠打通競(jìng)賽、取得優(yōu)勝的AI隊(duì)伍可能是由多個(gè)方面專家組成的隊(duì)伍?!?/p>

數(shù)學(xué)的發(fā)展本質(zhì)上很重要的一點(diǎn)是思維和方法上的創(chuàng)新。而這些對(duì)數(shù)學(xué)本身并沒(méi)有十分高深造詣的選手,卻通過(guò)訓(xùn)練這些解答數(shù)學(xué)題的AI而帶來(lái)了不少新奇的不同的策略,這本身就能帶來(lái)很多啟發(fā)。

相比于數(shù)學(xué)家群體整體的相對(duì)緩慢,有些人已經(jīng)先動(dòng)起來(lái)。陶哲軒是最積極擁抱AI的著名數(shù)學(xué)家之一,他在社交網(wǎng)絡(luò)上不停分享自己使用AI工具解答數(shù)學(xué)任務(wù)的過(guò)程,用AI工具,使用AI輔助證明了多項(xiàng)式Freiman-Ruzsa猜想。他也推薦數(shù)學(xué)學(xué)科的專家們打開思路。

“也許AI的影響之一是讓業(yè)余數(shù)學(xué)家能夠?yàn)閿?shù)學(xué)做出有意義的貢獻(xiàn)?!痹谝黄恼轮兴@樣寫道。他認(rèn)為AI讓個(gè)體的能力放大,大規(guī)模合作也變得不再困難,哪怕業(yè)余愛好者也可以對(duì)一個(gè)巨大課題里的個(gè)別步驟的證明做出貢獻(xiàn)。

而在這場(chǎng)比賽中因?yàn)閷?duì)AI的好奇而踏入數(shù)學(xué)賽事的人,正在做著類似的事情。他們也讓人想到過(guò)往幾屆阿里數(shù)賽里,那些對(duì)數(shù)學(xué)沒(méi)什么功利心的大眾愛好者們——沉迷歐拉常數(shù)的外賣小哥,愛好就是做數(shù)學(xué)題的城管等。

在今天,讓更多人參與進(jìn)來(lái),無(wú)論是對(duì)數(shù)學(xué)還是AI的進(jìn)展都顯得尤為重要。這些對(duì)人類未來(lái)十分關(guān)鍵的學(xué)科和技術(shù)在往前走的時(shí)候,都不應(yīng)再只待在“神壇”上了。

作者|玄寧
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號(hào):【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!