大型PK高考數學:DeepSeek文心豆包全部滿分,差生意外
為避免高考學生使用AI作弊,今年高考期間,騰訊混元、通義千問、Kimi、豆包等國內知名AI模型的圖片識別問答功能已經暫停。小雷對這些企業(yè)的做法有些懷疑。在小雷測試AI模型做高考題之前,大部分都表現不佳。暫停圖片識別問答服務似乎過于看重自己的AI模型能力。
截止稿件時,2025年全國高考一卷只公布了三套語文、英語、數學試卷,其中語文高考試題曝光后,很多媒體對AI模型進行了實際測量,編寫了作文。然而,每個人對作文的看法可能不同。小雷看到的幾篇評論基本都是截取AI模型寫的文章,沒有給出評價。文章的質量需要讀者來判斷。
慎重起見,小雷選擇了一門答案正確的數學科目,測試AI大模型的能力,選擇了DeepSeekk模型。、豆包,訊飛星火,文心一言,Kimi、通義千問,他們可以考上985。、211嗎?
六大模型PK,誰是AI界高考狀元?
首先說一下測試環(huán)境和話題??紤]到有些AI模型不支持手動開關聯網,所以所有的AI模型都使用了在線搜索,所有的深度思維功能都被打開了。
選定的數學題,包括一個單項選擇題,一個多項選擇題,一個填空題,一個簡答題,最后根據題目的分數來打分。
第一題(5分):
如果雙曲線C虛軸長為實軸長,√C離心率為7倍(正確答案:D)
A:√6B:2C:√7D:2√2
第一個問題是開胃菜,不難。參加測試的六款AI模型并沒有讓小雷失望。他們都計算出了正確的答案,并給出了詳細的推理過程。在測試中,所有的AI模型都得到了5分。(照片從左到右:DeepSeek、星火,豆包,訊飛,Kimi、文心一言,通義千問,下圖同樣)
雖然這個問題不難,但這六個AI模型的表現讓小雷大放異彩。在測試AI大模型的數學計算能力之前,AI大模型很難計算出稍微復雜一點的問題的正確答案。
只有一輪測試,DeepSeek、訊飛星火,豆包,文心一言,Kimi、通義千問六大AI模型證明了他們的能力,有被高考學生作弊的概率。暫停圖片識別問答功能絕不是為了蹭高考的熱度。
第2題(6分):
若cos 2A cos 2B 2sin C=2,SΔABC=1/4,cos Acos Bsin C=四分之一,然后(正確答案:ACD)
A:sin C=sin2A sin2BB:AC2 BC2=3C:AB=√2
D:sin A sin B=(√6)/2
這個問題相當困難。只有豆包在兩分鐘內計算出正確的答案。訊飛星火和通義千問需要一點時間,其他大型AI模型需要更長的時間,尤其是DeepSeek,耗時572秒,接近10分鐘。
假如AI大模型像考生一樣一次只做一道題,推理慢的三個AI大模型,有可能兩個小時都做不完題。
雖然本輪測試中所有AI模型都正確回答了問題,但豆包、訊飛星火、通義千問結合推理所需時間表現良好。
第3題(5分):
如果一個等比數列的前4項和4項、前8項和68項,則該等比數列的公比為(正確答案:±2)
與前一個問題相比,這個問題的難度明顯下降,訊飛星火,文心一言,Kimi、通義千問和DeepSeek五大模型都快速計算出正確答案,文心幾乎每秒都在計算。豆包雖然計算出了正確的答案,但是在導出答案的時候卻很迷茫,排除了-2。所以小雷要扣豆包三分,豆包只能得2分。
在這一輪測試中,DeepSeek服務器經常出現繁忙的問題,小雷不得不使用第三方應用程序。幸運的是,在這個階段,許多AI應用程序已經訪問了DeepSeek。無論是推理速度還是穩(wěn)定性,小雷使用的騰訊元寶App都遠高于DeepSeek網頁版或App。
第4題(17分):
設數列{an}滿足a?=3,(an 1)/n=(an/(n 1)) (1/(n(n 1)))
(1)證實:{n an}是等差數列;(正確答案:n an是an=公差為1的等差數列)
(2)設f(x)=a?X a?X2 a?X3 ... amX^m,求f′(-2)。(正確答案:f′(-2)=(7/9)-(3m) 7)/9)·(-2^m))
前三個問題,幾個AI應用在體驗上只有一定的差異,能力基本沒有區(qū)別。第四個問題不同,它的復雜性遠遠超過前三個問題,這也是檢驗AI模型能力最重要的挑戰(zhàn)。
豆包,訊飛星火,在這一輪測試中,Kimi、文心一言,DeepSeek依然表現出色,正確計算了兩個問題的答案。通義千問在回答這個問題的時候,可以推斷出第一個小問題的答案,但是第二個小問題給出了錯誤的答案,表現稍遜一籌。
豆包,訊飛星火,文心一言,Kimi、DeepSeek可以在這一輪測試中得到17分的滿分,通義千問因為答錯了第二個小問題,只能得到7分。
依靠公式和邏輯判斷的數學題似乎更符合AI的特點。然而,在多年的評價中,AI模型一般具有良好的閱讀理解和寫作效果,在復雜的數學題面前找不到答案思路。
光明。com在去年6月的一份報告中提到,復旦大學NLP試驗數據顯示,AI模型在2024年高考中的表現遠強于數學,一些數學題AI模型甚至全軍覆滅。沒有一個能正確計算答案,遇到選擇題的時候也經常出錯。歸根結底,數學失之千里,不能出一點小錯誤,文史類的內容可能會出現一些錯誤和比較模糊的答案。
一年過去了,AI模型進步很快,深度思維模式的加入,數學題的專項推廣,讓AI模型在處理高考數學題時更加得心應手。
比學霸更好,但是大模型的做題能力已經拉開了距離。
四個問題檢測出來,最終得分如下:
- DeepSeek:33分;
- 訊飛星火:33分;
- 豆包:30分;
- Kimi:33分;
- 文心一言:33分;
- 通義千問:23分。
經過測試,DeepSeek、訊飛星火、Kimi、文心一言全意得滿分,豆包表現不錯。因為一時的疏忽,他丟了三分,錯過了高考狀元。通義千問在計算簡單問題時,保持了很高的水平,但在處理困難問題時出現了計算誤差,需要再接再厲。
蘋果總是給AI行業(yè)潑冷水,日前在文章中表示,AI推理模式只是AI推理模式。「假思考」,沒有一個穩(wěn)定可理解的推理過程,更像是記憶,在處理復雜任務時可能會崩潰。Lisan,AI研究者。 al 復制蘋果測試方法后,Gaib表示,該模型并非因為推理能力差而失敗,而是因為蘋果限制了token的導出。
也許AI模型的推理能力還有上限,但是我們可以看到它們的進步。去年復旦大學NLP實驗室測試AI模型時,他們在高考數學題面前表現不佳,小雷在幾次AI模型橫向測試中也取得了類似的成績。在今年的測試中,AI大模型基本上可以計算出問題的正確答案,曾經難倒AI大模型的多選題,也沒有再給AI大模型帶來麻煩。
隨著AI模型數學題答題技巧的提高,受益最大的可能是學生群體。國內學習機廠商和教育輔導平臺相繼增加了AI解題能力,但很多設備的AI模型只能回答中小學問題,比如行業(yè)龍頭猿搜題,題庫不包括大學課程。
六大AI模型的出色表現,證明了國內頭部AI企業(yè)的實力,高考數學題已經被吸引,高數也不遠了。學習機器制造商、教輔平臺可與頭部AI公司合作,提高AI回答商品的能力,繼續(xù)加強AI教育硬件業(yè)務。
本文來源于“雷科技”,36氪經授權轉載。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com