經(jīng)濟觀察網(wǎng) 記者 錢玉娟 6月13日,第六屆阿里巴巴全球數(shù)學(xué)競賽(下稱“阿里數(shù)賽”)公布決賽名單,17歲的江蘇漣水中等專業(yè)學(xué)校學(xué)生姜萍排名12位,成為全球30名里唯一的女選手。
連續(xù)多日的熱搜,讓公眾知道了這位天才少女,也讓更多人知道了阿里數(shù)賽。與往屆不同,今年的阿里數(shù)賽首次開放了AI大模型挑戰(zhàn)賽,共有563支由全球知名高校院所和企業(yè)組建的AI隊伍與姜萍解答了同一份試卷。
4月13日早上8點,阿里數(shù)賽開考,數(shù)萬名來自全球各地的數(shù)學(xué)愛好者,需要完成其中選擇題、解答題與證明題的考驗。但在6月13日公布的決賽名單中,801名晉級者里沒有一支AI隊伍入圍。
據(jù)賽事官方統(tǒng)計,參與競賽的AI隊伍的平均分為18分,已趕上人類選手的平均水平。但AI的最高分僅為34分,與人類選手最高分113分相比,差距甚遠(yuǎn)。
經(jīng)濟觀察網(wǎng)了解到,AI隊伍中的最高分由上海建平中學(xué)涂津豪個人推出的AI方案獲得。涂津豪通過借鑒自辯論思想,讓多個大模型進(jìn)行多輪的“自問自答自驗證”,從而尋求問題的最優(yōu)解,再讓AI從中選出唯一答案。
來自西南交通大學(xué)的特工宇宙團(tuán)隊和中國人民大學(xué)的SuperCarryMan團(tuán)隊均獲得27分,成為本屆阿里數(shù)賽AI挑戰(zhàn)賽的亞軍和季軍。這兩支AI隊伍均基于Multi-Agent(多個智能體組成)進(jìn)行方案設(shè)計,前者是讓多種大模型扮演不同角色進(jìn)行思路分析、解題、評價,并通過調(diào)用Python等輸出答案;后者則動態(tài)調(diào)整推理、邏輯驗證和解釋器等多個階段,并針對每個子問題選擇合適的參考案例,經(jīng)過多重驗證整合,最終給出答案。
在浙江大學(xué)計算機系統(tǒng)結(jié)構(gòu)實驗室從事大模型相關(guān)研究工作的陳天楚分析,現(xiàn)有LLM(大語言模型)的工作方法還是以固定的速率根據(jù)上下文預(yù)測下一個詞,一次性輸出結(jié)果。像數(shù)學(xué)競賽這種需要反復(fù)、多次試錯、思考的任務(wù),LLM在完成復(fù)雜推理、嚴(yán)謹(jǐn)思考方面仍存在局限性。
陳天楚透露,目前雖然可以通過Prompt(輸入到文生圖模型的文字)工程方式,讓單個LLM自我質(zhì)問或多個LLM相互質(zhì)問,但這種方式對模型性能的增益還比較有限,無法替代經(jīng)過專業(yè)訓(xùn)練的人類。
公布AI挑戰(zhàn)賽成績的同時,賽事組委會給出的AI閱卷點評中,指出了AI的數(shù)學(xué)短板,諸如邏輯推理能力弱,證明題很難拿到完整得分點等。
在阿里數(shù)賽設(shè)立AI挑戰(zhàn)賽之初,某互聯(lián)網(wǎng)企業(yè)的一位技術(shù)總監(jiān)就對此十分關(guān)注,他認(rèn)為這是“百模大戰(zhàn)”后,對AI模型能力的一次考驗。雖然在規(guī)則清晰、計算密集型的問題上,AI模型的能力表現(xiàn)可以優(yōu)于人類,但在需要深層次邏輯推理以及高度創(chuàng)新思維的問題上,人類選手仍然占據(jù)絕對優(yōu)勢。
從第六屆阿里數(shù)賽決賽晉級名單看,AI大模型做題還難以超越人類,但上述技術(shù)總監(jiān)覺得,這場數(shù)學(xué)競賽的對決或?qū)⑼苿尤祟悓θ斯ぶ悄鼙举|(zhì)的理解再進(jìn)一步,甚至有望激發(fā)出新的數(shù)學(xué)理論和AI技術(shù)的發(fā)展。
今年,563支AI隊伍使用模型調(diào)優(yōu)、AI Agent(人工智能體)、提示詞工程等多種方式,試圖推動AI構(gòu)建更強大的數(shù)學(xué)能力。
阿里數(shù)賽始辦于2018年,由阿里巴巴公益、達(dá)摩院共同舉辦,每年來自全球的數(shù)學(xué)愛好者可以通過達(dá)摩院官網(wǎng)報名,競賽以不設(shè)報名門檻、全民參與著稱。一組數(shù)據(jù)顯示,阿里數(shù)賽至今已累計吸引了25萬人次參賽,成為全球規(guī)模最大的在線數(shù)學(xué)競賽。