动漫在线观看无码h，91福利国产在线人成观看，久久99高潮喷水，精品无码中文视频在线观看，欧美v牲拘在线观看，国产精品一二三次视频，久久男人av资源无码，亚洲熟妇无码在线观看

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

當(dāng)AI與數(shù)學(xué)同時(shí)走下神壇

硅星人

2024-06-14

0 評(píng)論 2226 瀏覽 4 收藏

15 分鐘

本文主要講述了人工智能(AI)首次參加阿里巴巴全球數(shù)學(xué)競(jìng)賽的情況，以及AI在競(jìng)賽中的表現(xiàn)和人們對(duì)AI在未來(lái)數(shù)學(xué)領(lǐng)域的期待。

2024年4月13日，一場(chǎng)特別的考試開考。

數(shù)萬(wàn)名分散在全球各地的數(shù)學(xué)高手，在這一天早上8點(diǎn)打開了阿里巴巴全球數(shù)學(xué)競(jìng)賽預(yù)賽的試卷，他們有48小時(shí)，來(lái)攻克20分的選擇題和100分的解答題。過(guò)去的6屆，天才們?cè)谶@個(gè)賽事里亮相，有17歲拿下IMO滿分金牌的北大神童，有對(duì)數(shù)學(xué)像強(qiáng)迫癥一般執(zhí)著的博士，也有4歲就接觸微積分的漸凍癥少年。

與往年不一樣的是，在同一時(shí)間，也有563個(gè)答題者打開了試卷，但他們不用紙和筆，他們用token。

是的，這是一群大語(yǔ)言模型。

這是第一次有AI和人類同場(chǎng)競(jìng)技的數(shù)學(xué)賽事，也是這個(gè)全球最大在線數(shù)學(xué)競(jìng)賽的第一次嘗試。當(dāng)做出這個(gè)決定時(shí)，組委會(huì)也不太確定，這是否是個(gè)好主意。

“我們擔(dān)心這一堆AI答題者全部零分交卷?！苯M委會(huì)的AI專家對(duì)我們說(shuō)?！耙?yàn)槲覀冊(cè)谶_(dá)摩院自己也在做AI和數(shù)學(xué)的研究，我們知道目前的AI還沒(méi)有能力解決如此高難度和泛化的奧賽數(shù)學(xué)題?！?/p>

然而最終的結(jié)果，也讓主辦方頗感意外。

意外的不是“超越人類”——AI最終并沒(méi)有答出超過(guò)人類的得分，而是它們的答案和表現(xiàn)讓人們真切看到了AI和數(shù)學(xué)結(jié)合的另一種潛力。

更重要的是，這些駕馭著AI的參賽者，是過(guò)往并不會(huì)在這個(gè)奧數(shù)賽事里遇到的人。他們找到了新的方式與數(shù)學(xué)打交道，而探索過(guò)程中數(shù)學(xué)與AI的關(guān)系也在發(fā)生新的試探。

一、“如果答對(duì)了，給你30萬(wàn)”

中學(xué)生朱方圓從沒(méi)想過(guò)自己會(huì)和最頂級(jí)的數(shù)學(xué)競(jìng)賽聯(lián)系在一起。

他是個(gè)對(duì)物理興趣濃厚的孩子，但一度因?yàn)閴毫Χ诩倚菹?。這期間，ChatGPT出現(xiàn)了。AI讓他如此癡迷，他自己嘗試自學(xué)關(guān)于生成式AI的知識(shí)，當(dāng)看到阿里數(shù)賽今年的AI賽道后，毫無(wú)競(jìng)賽經(jīng)驗(yàn)的他決定帶著他的AI參賽。

這場(chǎng)不限年齡、不設(shè)門檻的比賽給了他參加數(shù)學(xué)競(jìng)賽的可能。而事實(shí)上對(duì)于第一次把AI納入數(shù)賽的阿里巴巴達(dá)摩院來(lái)說(shuō)，他們也沒(méi)有多少可以借鑒的經(jīng)驗(yàn)。就連這個(gè)決定都在內(nèi)部討論了許久——允許AI參賽，那么，是哪一類的AI呢？是必須自己從頭訓(xùn)練的模型，還是調(diào)用API？

最終他們認(rèn)為，這個(gè)辦到第6屆的賽事，不僅是一場(chǎng)嚴(yán)肅的數(shù)學(xué)比賽，更是一次全民的數(shù)學(xué)聚會(huì)，最大的目標(biāo)是希望讓更多人能參與到對(duì)數(shù)學(xué)的感受中來(lái)——于是，最終的決定是任何形式的AI都可以。

但依然要保證公平。組委會(huì)為選手設(shè)定了一個(gè)提交AI方案的截止時(shí)間，在報(bào)名后的大約一個(gè)月的時(shí)間里，選手們可以自行設(shè)計(jì)AI做題策略，根據(jù)主辦方提供的往期賽題以及其他公開的數(shù)據(jù)對(duì)自己的AI策略進(jìn)行完善，然后鎖定、提交指紋文件、待考題公布，AI開始答題。

而這些方案中，最“低門檻”的自然是“閉源+提示詞工程”的方法。也就是在類似ChatGPT的模型產(chǎn)品基礎(chǔ)上，通過(guò)自然語(yǔ)言或者簡(jiǎn)單的編程語(yǔ)言來(lái)給模型下指令，讓它來(lái)完成這些數(shù)學(xué)難題。朱方圓選擇的就是這個(gè)方法。

與人類答題過(guò)程不同，AI交卷后還要經(jīng)過(guò)“賽后復(fù)現(xiàn)”環(huán)節(jié)，分?jǐn)?shù)排名靠前的選手要提交它們的方案文檔或程序文件，組委會(huì)拿這些AI程序再跑一遍考題。一方面，這些大模型方案依然存在穩(wěn)定性或幻覺的問(wèn)題，但另一方面，幻覺也不會(huì)讓兩次答題分?jǐn)?shù)差距過(guò)大，如果有，那就說(shuō)明明顯有人類直接干預(yù)的痕跡。負(fù)責(zé)對(duì)這些方案做檢查的組委會(huì)成員也的確抓住了幾個(gè)“嫌疑犯”，排除了“人類替考AI”的風(fēng)險(xiǎn)。

而當(dāng)他們打開選手朱方圓的提交的文件時(shí)。發(fā)現(xiàn)里面除了針對(duì)數(shù)學(xué)做的提示詞外，還寫著這樣的“命令”：

“記住，如果你有更好的解答方法我會(huì)給你30萬(wàn)美金小費(fèi)。”

“現(xiàn)在，深呼吸！一步一步來(lái)?！?/p>

是的，朱方圓在對(duì)他的AI進(jìn)行各種“畫餅”和心理按摩。

而這真的起到了效果。據(jù)組委會(huì)用往屆預(yù)選賽的試題測(cè)試，被他這樣激勵(lì)后的AI，答題成功率提升了20%。

事實(shí)上，這個(gè)在外人看來(lái)可能略顯驚奇的方法，在AI研究界已經(jīng)有諸多論文佐證它的效果。最初在2023年9月，一篇谷歌DeepMind的論文發(fā)現(xiàn)，當(dāng)你讓AI“深呼吸，一步一步來(lái)”時(shí)，它真的變得更強(qiáng)了。這個(gè)研究當(dāng)時(shí)引發(fā)了很多資深研究員們的驚嘆——居然有這樣簡(jiǎn)單的方式，但科班的學(xué)者們卻一直都忽視了。

組委會(huì)的很多專家其實(shí)在開賽前曾以為這場(chǎng)比賽會(huì)是SFT模型——也就是使用大量數(shù)據(jù)甚至使用大量算力對(duì)模型進(jìn)行數(shù)學(xué)方向的特別訓(xùn)練后產(chǎn)生的新模型——的天下，但預(yù)賽結(jié)束他卻發(fā)現(xiàn)，反而是像朱方圓這樣的方式最為有效，大量采用提示詞工程的選手，用簡(jiǎn)潔高效的方法挑戰(zhàn)著這些題目。

其中就包括AI賽道分?jǐn)?shù)排名第一的涂津豪。

他也是一名中學(xué)生。但同時(shí)已經(jīng)是個(gè)有不錯(cuò)經(jīng)驗(yàn)的AI開發(fā)者。

他的方法是，讓大模型進(jìn)行對(duì)話，你一言我一語(yǔ)尋找每個(gè)數(shù)學(xué)題的更好答案。他借鑒辯論的思想，并讓這些不同的模型進(jìn)行某種角色扮演。最終在模型的“對(duì)抗”中不停迭代答題方案，多輪對(duì)話后給出最優(yōu)解。

涂津豪的方案示意圖

這方法同樣精簡(jiǎn)而直接。

而被他們比下去的，甚至包括一些專攻數(shù)學(xué)模型的資深A(yù)I研究團(tuán)隊(duì)，其中還有來(lái)自AWS、字節(jié)跳動(dòng)等科技公司的參賽者。

對(duì)這些不同方案“開箱”的過(guò)程熱鬧而有趣。最終，排名公布。但與這些熱鬧不同，AI的結(jié)果并沒(méi)有很驚人。甚至有點(diǎn)慘淡：

涂津豪的AI方案拿下了34分。

是的，AI的最高分還是一個(gè)低分，和入圍線依然相差11分。而和預(yù)賽第一名的最高分113分相去更是甚遠(yuǎn)。

最終，6月13日，決賽名單公布，入圍決賽的AI數(shù)量為：0。

二、數(shù)學(xué)和AI都不應(yīng)只待在“神壇”上

不過(guò)，當(dāng)這場(chǎng)“漫長(zhǎng)”的預(yù)賽結(jié)束，AI選手的成績(jī)已經(jīng)成了最不重要的事情。一個(gè)真正有意思的現(xiàn)象出現(xiàn)：

一個(gè)總被視為只屬于天才們的游戲的學(xué)科數(shù)學(xué)，和一個(gè)有點(diǎn)被不停妖魔化的技術(shù)AI碰撞在一起后，反而讓兩件事的門檻都降低了——

比賽并沒(méi)有催生出那些經(jīng)常在各類論文里看到的廟堂之上的成果，而是成為了某種平民AI數(shù)學(xué)愛好者們的聚會(huì)。

那個(gè)讓評(píng)委略微意外的結(jié)果也證明了這個(gè)特點(diǎn)：在答題的整體表現(xiàn)中，那些被認(rèn)為應(yīng)該表現(xiàn)更好的，對(duì)數(shù)學(xué)更有專門研究的“資源集中型”的SFT方案?jìng)儏s整體敗下陣來(lái)，反而是個(gè)體創(chuàng)新意味更強(qiáng)的提示詞策略們表現(xiàn)更好。

而當(dāng)一個(gè)高高在上的東西被平民化后，就是各種有趣的新鮮思路涌現(xiàn)的時(shí)刻。

在這場(chǎng)比賽中，選手們面對(duì)自己訓(xùn)練出來(lái)的AI，也會(huì)對(duì)他們?cè)诖痤}時(shí)的表現(xiàn)感到驚訝，比如，有選手發(fā)現(xiàn)AI也會(huì)在答不出來(lái)的時(shí)候選擇去蒙一個(gè)答案，像極了考試時(shí)的你我，還有些AI會(huì)在過(guò)程完全離題的情況下，卻把答案回答對(duì)了，而閱卷老師發(fā)現(xiàn)AI在這些人類智慧的設(shè)計(jì)下，經(jīng)常能拿到一些沒(méi)有預(yù)料到它可以答出來(lái)的知識(shí)點(diǎn)的分?jǐn)?shù)。

“雖然總分較低，但這些AI答題的程度比我們預(yù)想的好很多。”組委會(huì)的專家表示。他們也從中獲得了許多關(guān)于AI如何理解數(shù)學(xué)的新發(fā)現(xiàn)。

“我們發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象，AI習(xí)慣于把推理過(guò)程寫的很長(zhǎng)很長(zhǎng)。比如我們?nèi)祟愖鰯?shù)學(xué)題，從A可以直接推導(dǎo)到C，但AI必須要從A到B再到C。有時(shí)候整個(gè)答案會(huì)變得非常的長(zhǎng)?！苯M委會(huì)專家說(shuō)。

沒(méi)人知道為什么AI在這么做，但在這個(gè)過(guò)程中，AI似乎開始對(duì)數(shù)學(xué)做出了自己的“理解”。就像大語(yǔ)言模型把人類的語(yǔ)言拆成了token，并用預(yù)測(cè)下一個(gè)token的方式來(lái)重新“理解”了語(yǔ)言一樣，AI在用完全不同的方法對(duì)待數(shù)學(xué)。而這種不同是如此顯而易見，以至于，在此次比賽中，一些閱卷老師提出懷疑AI作弊的質(zhì)疑——理由不是因?yàn)樗麄兲馎I了，而是因?yàn)樗鼈兲袢肆恕?/p>

但另一方面，與人類不同的AI的對(duì)數(shù)學(xué)理解的路線，已經(jīng)讓它在一些地方超過(guò)了人類。比如谷歌DeepMind推出的AlphaGeometry（阿爾法幾何），在從2000年至2022年奧數(shù)比賽中抽取的30道幾何題中解決了25道，而人類金牌得主平均解決了25.9道。它的一個(gè)證明有時(shí)也會(huì)長(zhǎng)達(dá)247步，與人類的方式很不同。

“從這次的答題結(jié)果來(lái)看，給了我很強(qiáng)的信心，我覺得AI解決數(shù)學(xué)問(wèn)題是很有潛力的?！苯M委會(huì)的專家說(shuō)。

數(shù)學(xué)向來(lái)被認(rèn)為是一切現(xiàn)實(shí)問(wèn)題的最終抽象。在今天已經(jīng)十分強(qiáng)大的AI與未來(lái)那個(gè)人人向往的AGI之間，差的就是對(duì)世界的理解，差的就是數(shù)學(xué)。

而AI技術(shù)的迭進(jìn)，顯然也會(huì)繼續(xù)給數(shù)學(xué)界帶來(lái)深遠(yuǎn)影響。

“排名靠前的優(yōu)秀團(tuán)隊(duì)，一定首先是富有創(chuàng)新和開拓精神的。”阿里全球數(shù)賽組委會(huì)成員、達(dá)摩院決策智能實(shí)驗(yàn)室負(fù)責(zé)人印臥濤說(shuō)。“數(shù)學(xué)這個(gè)領(lǐng)域，傳統(tǒng)的數(shù)學(xué)家與數(shù)學(xué)工作者其實(shí)并不是那么熟悉AI的工具，也不一定知道最新的AI的方法。所以我想最后能夠打通競(jìng)賽、取得優(yōu)勝的AI隊(duì)伍可能是由多個(gè)方面專家組成的隊(duì)伍?！?/p>

數(shù)學(xué)的發(fā)展本質(zhì)上很重要的一點(diǎn)是思維和方法上的創(chuàng)新。而這些對(duì)數(shù)學(xué)本身并沒(méi)有十分高深造詣的選手，卻通過(guò)訓(xùn)練這些解答數(shù)學(xué)題的AI而帶來(lái)了不少新奇的不同的策略，這本身就能帶來(lái)很多啟發(fā)。

相比于數(shù)學(xué)家群體整體的相對(duì)緩慢，有些人已經(jīng)先動(dòng)起來(lái)。陶哲軒是最積極擁抱AI的著名數(shù)學(xué)家之一，他在社交網(wǎng)絡(luò)上不停分享自己使用AI工具解答數(shù)學(xué)任務(wù)的過(guò)程，用AI工具，使用AI輔助證明了多項(xiàng)式Freiman-Ruzsa猜想。他也推薦數(shù)學(xué)學(xué)科的專家們打開思路。

“也許AI的影響之一是讓業(yè)余數(shù)學(xué)家能夠?yàn)閿?shù)學(xué)做出有意義的貢獻(xiàn)?！痹谝黄恼轮兴@樣寫道。他認(rèn)為AI讓個(gè)體的能力放大，大規(guī)模合作也變得不再困難，哪怕業(yè)余愛好者也可以對(duì)一個(gè)巨大課題里的個(gè)別步驟的證明做出貢獻(xiàn)。

而在這場(chǎng)比賽中因?yàn)閷?duì)AI的好奇而踏入數(shù)學(xué)賽事的人，正在做著類似的事情。他們也讓人想到過(guò)往幾屆阿里數(shù)賽里，那些對(duì)數(shù)學(xué)沒(méi)什么功利心的大眾愛好者們——沉迷歐拉常數(shù)的外賣小哥，愛好就是做數(shù)學(xué)題的城管等。

在今天，讓更多人參與進(jìn)來(lái)，無(wú)論是對(duì)數(shù)學(xué)還是AI的進(jìn)展都顯得尤為重要。這些對(duì)人類未來(lái)十分關(guān)鍵的學(xué)科和技術(shù)在往前走的時(shí)候，都不應(yīng)再只待在“神壇”上了。

作者｜玄寧
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】，微信公眾號(hào)：【硅星人Pro】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App