隨著各地高考出分,各家大模型回答高考題的能力也有了一個更加客觀的衡量標(biāo)準(zhǔn)。
根據(jù)極客公園使用高考新課標(biāo)Ⅰ卷的評測,GPT-4o以562分排名文科總分第一。國內(nèi)產(chǎn)品中,字節(jié)跳動旗下的豆包拔得頭籌,成績是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小應(yīng)”的521分。本次大模型高考評測與河南省考卷完全相同,而河南高考錄取分?jǐn)?shù)線顯示,文科本科一批錄取分?jǐn)?shù)線為521分,上述三款國產(chǎn)AI成功沖上一本線。
相比之下,大模型的理科成績要差很多,最高分還不到480分,多數(shù)大模型的理科總分在400分以下。
從具體的科目來看,英語是大模型表現(xiàn)最優(yōu)異的學(xué)科,九個大模型的平均分高達(dá)132分(滿分 150),大部分大模型都可以做到客觀題接近滿分。其次是語文,但不論中外大模型語文的得分都要略差于英語,得分較高的大模型分?jǐn)?shù)能夠達(dá)到120分。
在數(shù)學(xué)試卷中,9款大模型產(chǎn)品中,僅GPT-4o、文心一言4.0和豆包獲得60分以上成績(滿分150分)。重點(diǎn)考查實(shí)驗(yàn)探究能力的化學(xué)和物理試卷,各模型平均分更是只有34分和39分(滿分為100和110)。
而在另一個機(jī)構(gòu)司南評測體系對高考全國新課標(biāo)I卷“語數(shù)外”三個科目的評測也呈現(xiàn)類似的趨勢,7款參與評測的大模型英語和語文的成績較高,數(shù)學(xué)成績均不及格。
雖然不同評測機(jī)構(gòu)的標(biāo)準(zhǔn)有所差異,但一個非常明顯的趨勢是,大模型更擅長回答文科試題,而不太擅長回答數(shù)學(xué)、物理等理科題目。
在一些人的印象中,數(shù)學(xué)一直都是計算機(jī)的強(qiáng)項(xiàng),大模型在數(shù)學(xué)等理科試題上表現(xiàn)糟糕讓他們有些意外。但一位大模型技術(shù)專家告訴界面新聞,這可能是普通人對大模型最大的誤解,因?yàn)榇竽P秃陀嬎銠C(jī)完全是兩個不同的體系。
這位大模型技術(shù)專家表示,大模型理科表現(xiàn)不好,本質(zhì)上都來源于數(shù)學(xué)能力的欠缺。這個和大模型本身的next-token prediction(下一個詞預(yù)測)有關(guān)。
據(jù)界面新聞了解,在大語言模型中,next-token prediction是非常關(guān)鍵的一個環(huán)節(jié)。當(dāng)模型處理輸入的文本序列時,它會基于已有的信息和學(xué)習(xí)到的語言知識,對下一個最可能出現(xiàn)的詞(token)進(jìn)行預(yù)測。模型通過對大量文本數(shù)據(jù)的學(xué)習(xí),理解了不同詞之間的概率分布和關(guān)聯(lián)關(guān)系。在預(yù)測時,模型會計算每個可能的下一個詞出現(xiàn)的概率,并選擇概率較高的詞作為預(yù)測結(jié)果。
這種逐詞預(yù)測的方式使得模型能夠生成連貫的文本輸出。通過不斷地進(jìn)行下一個詞預(yù)測,模型可以生成一段完整的文本內(nèi)容。為了提高預(yù)測的準(zhǔn)確性,模型的訓(xùn)練過程會不斷調(diào)整參數(shù),以更好地捕捉語言的模式和規(guī)律。同時,模型也會考慮上下文信息,包括前面已經(jīng)生成的詞以及整個輸入文本的語義和語法結(jié)構(gòu),來更精準(zhǔn)地進(jìn)行下一個詞預(yù)測。這有助于生成更符合邏輯和語義的文本,增強(qiáng)語言模型的表現(xiàn)和生成能力。
當(dāng)大語言模型學(xué)習(xí)了海量知識數(shù)據(jù),天然就適應(yīng)考驗(yàn)記憶能力和語言運(yùn)用的文科考試。但理科考試主要考驗(yàn)推理和計算,比如一道數(shù)學(xué)題包含5步推理和5步計算,假設(shè)大語言模型每一步預(yù)測準(zhǔn)確的概率都有90%,綜合下來的準(zhǔn)確率就只有35%。
高考試題評測非常直觀地顯示出大模型的上述能力特點(diǎn)。如果是文科題目,回答是一段話,閱卷評分的時候其實(shí)主要看的還是整段話的意思是否符合要求,可能有一兩次不準(zhǔn)確,或者用了一些同義詞,都不影響評分。但如果是數(shù)學(xué)題目,假設(shè)模型前面輸出了32103,下一個token輸出一個2還是小數(shù)點(diǎn),都會對最終結(jié)果造成決定性的影響。
目前的大模型回答理科試題時只能正確推理步驟相對簡單的問題。比如,在高考新課標(biāo)Ⅰ卷的評測中,豆包大模型能準(zhǔn)確運(yùn)用求導(dǎo)公式和三角函數(shù)定理,但是面對較為復(fù)雜的推導(dǎo)和證明問題就很難繼續(xù)得分。而在物理試題中,有一道送分題是選擇位移隨時間變化的正確圖像,人類考生根據(jù)“時間不會倒流”可以排除所有錯誤選項(xiàng),但大模型則幾乎全軍覆沒。
理科語料比較稀缺也是大模型在理科答題能力上不如文科的重要原因之一。另一位大模型技術(shù)專家告訴界面新聞,理科語料稀缺的問題從普通人日常的感知中也能理解。在日常生活中,普通人接觸的語料較大比例是文字語料,數(shù)學(xué)、物理等數(shù)字、符號語料較少,而用于大模型訓(xùn)練的語料同樣是這種分布。
上述大模型技術(shù)專家表示,在普通人認(rèn)知中很厲害的計算軟件和大模型是完全不同的技術(shù)原理。計算軟件并不是基于概率預(yù)測下一個token,而是基于提前寫好的專家規(guī)則,專門用于計算某類數(shù)學(xué)問題。
看起來,要學(xué)會像人類一樣思考和解決問題,大模型還有很長的路要走。在上述大模型技術(shù)專家看來,即使在文本推理上,大模型目前也只是達(dá)到了勉強(qiáng)能用的水平,還有非常大的提升空間。比如,在研報、技術(shù)文檔分析等準(zhǔn)確度要求更高的場景下,大模型的能力還很難達(dá)到正常使用的水平。
目前,各家大模型都在努力提升智能水平,一方面在提升文本生成能力,另一個目標(biāo)就是提高推理和計算能力。
但學(xué)界對大模型的推理和計算能力還存在爭議。有觀點(diǎn)認(rèn)為,next-token prediction本身就包含了推理,計算也是一種推理。只要scaling law(規(guī)模法則)生效,大模型性能持續(xù)提升,推理和計算能力就能夠提升;但也有反對者認(rèn)為,大語言模型缺乏真正的規(guī)劃推理能力,其涌現(xiàn)能力實(shí)際上是上下文學(xué)習(xí)的結(jié)果,主要體現(xiàn)在簡單任務(wù)和事先知道答案的情境中。大語言模型未來是否能夠真正實(shí)現(xiàn)AGI?對于這個問題,目前還沒有定論。
轉(zhuǎn)載來源:界面新聞 作者:肖芳