閉卷開考全國一卷,AI大模型高考數(shù)學(xué)全部不及格?!
電子愛好者網(wǎng)報道(文章 / 周凱揚)目前的大模型不僅實現(xiàn)了商業(yè)化,還開辟了一條新的“賽博斗蟋蟀”跑道,用各種評價標準測試了大模型在英語、數(shù)學(xué)、推理和代碼方面的綜合成績。高考作為中國最權(quán)威的考試之一,是對學(xué)生綜合能力最具代表性的考驗。大模型這種特殊身份的考生,如果報名參加高考會取得什么樣的成績,也引起了網(wǎng)友的好奇。
大模型評估系統(tǒng)上海人工智能實驗室 OpenCompass 最近舉行了這樣一次測試,讓我 6 大型開源模型和 GPT-4o 參加一次特別的“高考”,但是這些大模型所取得的成績卻讓很多人大吃一驚。
全國一卷閉卷開考
這次大模型報名參加高考,OpenCompass 第一輪檢測采用全國新課程標準 I 作為試卷的來源,試卷覆蓋江蘇、浙江、河北、福建、山東、湖北、湖南、廣東等省份。為了方便測試,除了省略其他非統(tǒng)一學(xué)科外,英語也被省略了。 30 分聽,所以它的單科總分變成了 120 分。
為實現(xiàn)“閉卷”,在這些被測模型中,包含 Mistral 開源對話模式 Mixtral 8x22B、零一萬物的 Yi-1.5-34B 大模型,智譜 AI 的 GLM-4-9B、由上海人工智能實驗室推出 2-20BInternLM2-WQX 阿里巴巴的大語言模型和 Qwen2-57B 和 Qwen2-72B。
上述開源模型的開源時間都在本次高考之前,最新的發(fā)布日期是 InternLM InternLM22專門在高考前夕推出的文曲星系列模型-WQX。即使是這樣,它也是發(fā)布的 6 月 4 每天的時間也滿足了閉卷考試的前提。唯一的例外是商業(yè)閉源模型 GPT-4o,但是它的成績也只是作為評價的參考。
閱卷評分方面,OpenCompass 邀請了一批有閱卷經(jīng)驗的高中老師對主觀問題的答案進行評分,每份試卷至少由 3 教師批閱均分,甚至對分差較大的題目進行了二次審批。另外值得注意的是,為了保證閱卷者在主客觀題上產(chǎn)生“主觀臆斷”的觀念,OpenCompass 閱卷后才告訴閱卷者答案是由大模型產(chǎn)生的,并對結(jié)果進行整體分析。
AI 大模型高考語數(shù)外評分 / 上海人工智能實驗室
就總分而言,阿里巴巴的通義千問大模型 Qwen2-72B 排在第一位,其次是成績相似的。 GPT-4o 和 2-20BInternLM2-WQX。但是單從數(shù)學(xué)這門學(xué)科來看,所有的大模型都不合格,Mixtral 8x22B 甚至只有得到 21 分的成績。
語言能力仍然是 LLM 強項,但“考試”能力仍有提升空間。
許多大型模型都在這次“高考”中取得了良好的語文和英語成績,尤其是在英語試卷上,GPT-4o 更加用英語獲得了 111.5 得分高。在語文方面,國內(nèi)模型更具優(yōu)勢,尤其是在文言文閱讀、古詩閱讀、名句默寫等方面。
有趣的是,在語文作文中,各大模型也沒有拉開較大的差距。但根據(jù)上海人工智能實驗室的分析,大模型作文傾向于將“第一”、“第二”、“第二”等表達順序的詞放在段落的最前面。另外,目前大部分大模型還沒有提高一些“考試”題型。比如在語文考試中,大模型還不能完全理解閱讀理解中的一些自身、比喻、隱喻等概念。因此,在語言和文字的應(yīng)用問題上,比如補句,一般分數(shù)都不高。
但是在英語考試中,雖然各大模型整體表現(xiàn)不錯,但是有些模型并不適合非常規(guī)的問答題,比如完形填空、七選五,答案會出現(xiàn)錯位,所以得分率還是處于較低水平。
在英語續(xù)寫和作文的編寫中,大模型忽略了題目要求,一般都是超過字數(shù)限制而扣分,單段文字太長。在故事續(xù)寫的問題中,一些大模型也會有不切實際的聯(lián)想,比如 2-20BInternLM2-WQX 答案中,出租車司機撥打銀行內(nèi)線電話的離譜情節(jié)就出現(xiàn)了。
數(shù)學(xué)不及格,主觀問答成了最大的短板。
AI 各種題型的大模型數(shù)學(xué)評分 / 上海人工智能實驗室
與語言能力測試成績相比,AI 在數(shù)學(xué)能力評估中,大型模型所取得的成績并不令人滿意。最高分為 2-20BInternLM2-WQX 取得的 75 分數(shù),可以說在數(shù)學(xué)這門課上,絕大多數(shù)大模型都是潰不成軍。全國新課標 I 卷數(shù)學(xué)試卷中有兩個帶圖的問題。對于不支持多模式輸入的大模型,只能選擇輸入題目文字,然后放棄圖片,這也是丟分嚴重的原因之一。
Qwen2-72B 帶圖題的答案 / 上海人工智能實驗室
以上圖中帶圖題的答案為例,大模型只給出了一個答案框架,并沒有給出具體值的答案。GPT-4o 和 2-20BInternLM2-WQX 等待大模型雖然給出了具體的答案和解決問題的過程,但最終得到的卻是一個錯誤的答案。
之所以 2-20BInternLM2-WQX 能夠在數(shù)學(xué)考試中取得較高的成績,也得益于其團隊在數(shù)學(xué)模型上的積累。今年初 InternLM 數(shù)學(xué)模型書生已經(jīng)發(fā)布 · 浦語數(shù)學(xué)(InternLM2-Math)。書生 · 浦語數(shù)學(xué)也是第一個支持正式數(shù)學(xué)語言和解題過程評價的開源模型,不僅可以用于數(shù)學(xué)計算和解答,還可以用于數(shù)學(xué)基礎(chǔ)研究和教學(xué)。
即便如此,在數(shù)學(xué)考試的問答和討論問題上,大模型仍然取得了慘淡的成績。這是因為大模型的答案大多比較亂,常見的錯誤答案也很多,但答案是正確的。因此, 77 在滿分問答上,最高分 2-20BInternLM2-WQX 還只是得了病 26 分。
AI 大型考生是否不合格?
根據(jù)閱卷人的評論,AI 大模型還是比較“死板”的考生,尤其是論述題。以語文論述題為例,很多大模型在第一步就失敗了,所以答案無關(guān)緊要。在英語題目中,大模型的實力是毋庸置疑的,但在題型和作文中還是會有遺漏。
對于數(shù)學(xué)來說,它仍然是所有大模型的弱點。大模型更像是記住公式但不能使用的學(xué)生。大多數(shù)問題傾向于窮舉而不是推理。對于帶圖的三維幾何答案,大模型缺乏空間概念,導(dǎo)致答案過程和答案離譜。從這個角度來看,大模型的“考試”能力還是欠缺的,但是在快速迭代下,我相信這個障礙在未來會越來越少。
閱讀更多熱門文章
加關(guān)注 星標我們
把我們設(shè)為星標,不要錯過每一次更新!
喜歡就獎勵一個“在看”!
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




