亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

<span id="l43ln"><small id="l43ln"></small></span>

<span id="l43ln"></span>

<label id="l43ln"></label>

閉卷開考全國一卷，AI大模型高考數(shù)學(xué)全部不及格？！

2024-06-22

電子愛好者網(wǎng)報道(文章 / 周凱揚)目前的大模型不僅實現(xiàn)了商業(yè)化，還開辟了一條新的“賽博斗蟋蟀”跑道，用各種評價標準測試了大模型在英語、數(shù)學(xué)、推理和代碼方面的綜合成績。高考作為中國最權(quán)威的考試之一，是對學(xué)生綜合能力最具代表性的考驗。大模型這種特殊身份的考生，如果報名參加高考會取得什么樣的成績，也引起了網(wǎng)友的好奇。

大模型評估系統(tǒng)上海人工智能實驗室 OpenCompass 最近舉行了這樣一次測試，讓我 6 大型開源模型和 GPT-4o 參加一次特別的“高考”，但是這些大模型所取得的成績卻讓很多人大吃一驚。

全國一卷閉卷開考

這次大模型報名參加高考，OpenCompass 第一輪檢測采用全國新課程標準 I 作為試卷的來源，試卷覆蓋江蘇、浙江、河北、福建、山東、湖北、湖南、廣東等省份。為了方便測試，除了省略其他非統(tǒng)一學(xué)科外，英語也被省略了。 30 分聽，所以它的單科總分變成了 120 分。

為實現(xiàn)“閉卷”，在這些被測模型中，包含 Mistral 開源對話模式 Mixtral 8x22B、零一萬物的 Yi-1.5-34B 大模型，智譜 AI 的 GLM-4-9B、由上海人工智能實驗室推出 2-20BInternLM2-WQX 阿里巴巴的大語言模型和 Qwen2-57B 和 Qwen2-72B。

上述開源模型的開源時間都在本次高考之前，最新的發(fā)布日期是 InternLM InternLM22專門在高考前夕推出的文曲星系列模型-WQX。即使是這樣，它也是發(fā)布的 6 月 4 每天的時間也滿足了閉卷考試的前提。唯一的例外是商業(yè)閉源模型 GPT-4o，但是它的成績也只是作為評價的參考。

閱卷評分方面，OpenCompass 邀請了一批有閱卷經(jīng)驗的高中老師對主觀問題的答案進行評分，每份試卷至少由 3 教師批閱均分，甚至對分差較大的題目進行了二次審批。另外值得注意的是，為了保證閱卷者在主客觀題上產(chǎn)生“主觀臆斷”的觀念，OpenCompass 閱卷后才告訴閱卷者答案是由大模型產(chǎn)生的，并對結(jié)果進行整體分析。

AI 大模型高考語數(shù)外評分 / 上海人工智能實驗室

就總分而言，阿里巴巴的通義千問大模型 Qwen2-72B 排在第一位，其次是成績相似的。 GPT-4o 和 2-20BInternLM2-WQX。但是單從數(shù)學(xué)這門學(xué)科來看，所有的大模型都不合格，Mixtral 8x22B 甚至只有得到 21 分的成績。

語言能力仍然是 LLM 強項，但“考試”能力仍有提升空間。

許多大型模型都在這次“高考”中取得了良好的語文和英語成績，尤其是在英語試卷上，GPT-4o 更加用英語獲得了 111.5 得分高。在語文方面，國內(nèi)模型更具優(yōu)勢，尤其是在文言文閱讀、古詩閱讀、名句默寫等方面。

有趣的是，在語文作文中，各大模型也沒有拉開較大的差距。但根據(jù)上海人工智能實驗室的分析，大模型作文傾向于將“第一”、“第二”、“第二”等表達順序的詞放在段落的最前面。另外，目前大部分大模型還沒有提高一些“考試”題型。比如在語文考試中，大模型還不能完全理解閱讀理解中的一些自身、比喻、隱喻等概念。因此，在語言和文字的應(yīng)用問題上，比如補句，一般分數(shù)都不高。

但是在英語考試中，雖然各大模型整體表現(xiàn)不錯，但是有些模型并不適合非常規(guī)的問答題，比如完形填空、七選五，答案會出現(xiàn)錯位，所以得分率還是處于較低水平。

在英語續(xù)寫和作文的編寫中，大模型忽略了題目要求，一般都是超過字數(shù)限制而扣分，單段文字太長。在故事續(xù)寫的問題中，一些大模型也會有不切實際的聯(lián)想，比如 2-20BInternLM2-WQX 答案中，出租車司機撥打銀行內(nèi)線電話的離譜情節(jié)就出現(xiàn)了。

數(shù)學(xué)不及格，主觀問答成了最大的短板。

AI 各種題型的大模型數(shù)學(xué)評分 / 上海人工智能實驗室

與語言能力測試成績相比，AI 在數(shù)學(xué)能力評估中，大型模型所取得的成績并不令人滿意。最高分為 2-20BInternLM2-WQX 取得的 75 分數(shù)，可以說在數(shù)學(xué)這門課上，絕大多數(shù)大模型都是潰不成軍。全國新課標 I 卷數(shù)學(xué)試卷中有兩個帶圖的問題。對于不支持多模式輸入的大模型，只能選擇輸入題目文字，然后放棄圖片，這也是丟分嚴重的原因之一。

Qwen2-72B 帶圖題的答案 / 上海人工智能實驗室

以上圖中帶圖題的答案為例，大模型只給出了一個答案框架，并沒有給出具體值的答案。GPT-4o 和 2-20BInternLM2-WQX 等待大模型雖然給出了具體的答案和解決問題的過程，但最終得到的卻是一個錯誤的答案。

之所以 2-20BInternLM2-WQX 能夠在數(shù)學(xué)考試中取得較高的成績，也得益于其團隊在數(shù)學(xué)模型上的積累。今年初 InternLM 數(shù)學(xué)模型書生已經(jīng)發(fā)布 · 浦語數(shù)學(xué)(InternLM2-Math）。書生 · 浦語數(shù)學(xué)也是第一個支持正式數(shù)學(xué)語言和解題過程評價的開源模型，不僅可以用于數(shù)學(xué)計算和解答，還可以用于數(shù)學(xué)基礎(chǔ)研究和教學(xué)。

即便如此，在數(shù)學(xué)考試的問答和討論問題上，大模型仍然取得了慘淡的成績。這是因為大模型的答案大多比較亂，常見的錯誤答案也很多，但答案是正確的。因此， 77 在滿分問答上，最高分 2-20BInternLM2-WQX 還只是得了病 26 分。

AI 大型考生是否不合格？

根據(jù)閱卷人的評論，AI 大模型還是比較“死板”的考生，尤其是論述題。以語文論述題為例，很多大模型在第一步就失敗了，所以答案無關(guān)緊要。在英語題目中，大模型的實力是毋庸置疑的，但在題型和作文中還是會有遺漏。

對于數(shù)學(xué)來說，它仍然是所有大模型的弱點。大模型更像是記住公式但不能使用的學(xué)生。大多數(shù)問題傾向于窮舉而不是推理。對于帶圖的三維幾何答案，大模型缺乏空間概念，導(dǎo)致答案過程和答案離譜。從這個角度來看，大模型的“考試”能力還是欠缺的，但是在快速迭代下，我相信這個障礙在未來會越來越少。

閱讀更多熱門文章

加關(guān)注星標我們

把我們設(shè)為星標，不要錯過每一次更新！

喜歡就獎勵一個“在看”！

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

強調(diào)斯盧茨基非常重視足協(xié)杯。艾迪表示會盡最大努力打好比賽。

夏至到了，暴雨還沒有結(jié)束！一年中養(yǎng)生的關(guān)鍵是…

從燃油車到電動車，壓縮機也是“新能源”

自主研發(fā)的江波龍芯片，2D NAND Flash/主板芯片“以小養(yǎng)大”

推出武漢市公安出入境暑假延遲辦證周活動

<rt id="dhcja"></rt>