563支AI隊伍和姜萍答了同一份試卷：最高34分，無一入圍決賽

錢玉娟2024-06-15 19:50

經(jīng)濟觀察網(wǎng) 記者錢玉娟 6月13日，第六屆阿里巴巴全球數(shù)學(xué)競賽（下稱“阿里數(shù)賽”）公布決賽名單，17歲的江蘇漣水中等專業(yè)學(xué)校學(xué)生姜萍排名12位，成為全球30名里唯一的女選手。

連續(xù)多日的熱搜，讓公眾知道了這位天才少女，也讓更多人知道了阿里數(shù)賽。與往屆不同，今年的阿里數(shù)賽首次開放了AI大模型挑戰(zhàn)賽，共有563支由全球知名高校院所和企業(yè)組建的AI隊伍與姜萍解答了同一份試卷。

4月13日早上8點，阿里數(shù)賽開考，數(shù)萬名來自全球各地的數(shù)學(xué)愛好者，需要完成其中選擇題、解答題與證明題的考驗。但在6月13日公布的決賽名單中，801名晉級者里沒有一支AI隊伍入圍。

據(jù)賽事官方統(tǒng)計，參與競賽的AI隊伍的平均分為18分，已趕上人類選手的平均水平。但AI的最高分僅為34分，與人類選手最高分113分相比，差距甚遠(yuǎn)。

經(jīng)濟觀察網(wǎng)了解到，AI隊伍中的最高分由上海建平中學(xué)涂津豪個人推出的AI方案獲得。涂津豪通過借鑒自辯論思想，讓多個大模型進(jìn)行多輪的“自問自答自驗證”，從而尋求問題的最優(yōu)解，再讓AI從中選出唯一答案。

來自西南交通大學(xué)的特工宇宙團(tuán)隊和中國人民大學(xué)的SuperCarryMan團(tuán)隊均獲得27分，成為本屆阿里數(shù)賽AI挑戰(zhàn)賽的亞軍和季軍。這兩支AI隊伍均基于Multi-Agent（多個智能體組成）進(jìn)行方案設(shè)計，前者是讓多種大模型扮演不同角色進(jìn)行思路分析、解題、評價，并通過調(diào)用Python等輸出答案；后者則動態(tài)調(diào)整推理、邏輯驗證和解釋器等多個階段，并針對每個子問題選擇合適的參考案例，經(jīng)過多重驗證整合，最終給出答案。

在浙江大學(xué)計算機系統(tǒng)結(jié)構(gòu)實驗室從事大模型相關(guān)研究工作的陳天楚分析，現(xiàn)有LLM（大語言模型）的工作方法還是以固定的速率根據(jù)上下文預(yù)測下一個詞，一次性輸出結(jié)果。像數(shù)學(xué)競賽這種需要反復(fù)、多次試錯、思考的任務(wù)，LLM在完成復(fù)雜推理、嚴(yán)謹(jǐn)思考方面仍存在局限性。

陳天楚透露，目前雖然可以通過Prompt（輸入到文生圖模型的文字）工程方式，讓單個LLM自我質(zhì)問或多個LLM相互質(zhì)問，但這種方式對模型性能的增益還比較有限，無法替代經(jīng)過專業(yè)訓(xùn)練的人類。

公布AI挑戰(zhàn)賽成績的同時，賽事組委會給出的AI閱卷點評中，指出了AI的數(shù)學(xué)短板，諸如邏輯推理能力弱，證明題很難拿到完整得分點等。

在阿里數(shù)賽設(shè)立AI挑戰(zhàn)賽之初，某互聯(lián)網(wǎng)企業(yè)的一位技術(shù)總監(jiān)就對此十分關(guān)注，他認(rèn)為這是“百模大戰(zhàn)”后，對AI模型能力的一次考驗。雖然在規(guī)則清晰、計算密集型的問題上，AI模型的能力表現(xiàn)可以優(yōu)于人類，但在需要深層次邏輯推理以及高度創(chuàng)新思維的問題上，人類選手仍然占據(jù)絕對優(yōu)勢。

從第六屆阿里數(shù)賽決賽晉級名單看，AI大模型做題還難以超越人類，但上述技術(shù)總監(jiān)覺得，這場數(shù)學(xué)競賽的對決或?qū)⑼苿尤祟悓θ斯ぶ悄鼙举|(zhì)的理解再進(jìn)一步，甚至有望激發(fā)出新的數(shù)學(xué)理論和AI技術(shù)的發(fā)展。

今年，563支AI隊伍使用模型調(diào)優(yōu)、AI Agent（人工智能體）、提示詞工程等多種方式，試圖推動AI構(gòu)建更強大的數(shù)學(xué)能力。

阿里數(shù)賽始辦于2018年，由阿里巴巴公益、達(dá)摩院共同舉辦，每年來自全球的數(shù)學(xué)愛好者可以通過達(dá)摩院官網(wǎng)報名，競賽以不設(shè)報名門檻、全民參與著稱。一組數(shù)據(jù)顯示，阿里數(shù)賽至今已累計吸引了25萬人次參賽，成為全球規(guī)模最大的在線數(shù)學(xué)競賽。

版權(quán)聲明：以上內(nèi)容為《經(jīng)濟觀察報》社原創(chuàng)作品，版權(quán)歸《經(jīng)濟觀察報》社所有。未經(jīng)《經(jīng)濟觀察報》社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請致電：【010-60910566-1260】。