大型PK高考數(shù)學(xué):DeepSeek文心豆包全部滿分,差生意外
為避免高考學(xué)生使用AI作弊,今年高考期間,騰訊混元、通義千問、Kimi、豆包等國內(nèi)知名AI模型的圖片識別問答功能已經(jīng)暫停。小雷對這些企業(yè)的做法有些懷疑。在小雷測試AI模型做高考題之前,大部分都表現(xiàn)不佳。暫停圖片識別問答服務(wù)似乎過于看重自己的AI模型能力。
截止稿件時,2025年全國高考一卷只公布了三套語文、英語、數(shù)學(xué)試卷,其中語文高考試題曝光后,很多媒體對AI模型進(jìn)行了實際測量,編寫了作文。然而,每個人對作文的看法可能不同。小雷看到的幾篇評論基本都是截取AI模型寫的文章,沒有給出評價。文章的質(zhì)量需要讀者來判斷。

慎重起見,小雷選擇了一門答案正確的數(shù)學(xué)科目,測試AI大模型的能力,選擇了DeepSeekk模型。、豆包,訊飛星火,文心一言,Kimi、通義千問,他們可以考上985。、211嗎?
六大模型PK,誰是AI界高考狀元?
首先說一下測試環(huán)境和話題。考慮到有些AI模型不支持手動開關(guān)聯(lián)網(wǎng),所以所有的AI模型都使用了在線搜索,所有的深度思維功能都被打開了。
選定的數(shù)學(xué)題,包括一個單項選擇題,一個多項選擇題,一個填空題,一個簡答題,最后根據(jù)題目的分?jǐn)?shù)來打分。
第一題(5分):
如果雙曲線C虛軸長為實軸長,√C離心率為7倍(正確答案:D)
A:√6B:2C:√7D:2√2
第一個問題是開胃菜,不難。參加測試的六款A(yù)I模型并沒有讓小雷失望。他們都計算出了正確的答案,并給出了詳細(xì)的推理過程。在測試中,所有的AI模型都得到了5分。(照片從左到右:DeepSeek、星火,豆包,訊飛,Kimi、文心一言,通義千問,下圖同樣)

雖然這個問題不難,但這六個AI模型的表現(xiàn)讓小雷大放異彩。在測試AI大模型的數(shù)學(xué)計算能力之前,AI大模型很難計算出稍微復(fù)雜一點的問題的正確答案。
只有一輪測試,DeepSeek、訊飛星火,豆包,文心一言,Kimi、通義千問六大AI模型證明了他們的能力,有被高考學(xué)生作弊的概率。暫停圖片識別問答功能絕不是為了蹭高考的熱度。
第2題(6分):
若cos 2A cos 2B 2sin C=2,SΔABC=1/4,cos Acos Bsin C=四分之一,然后(正確答案:ACD)
A:sin C=sin2A sin2BB:AC2 BC2=3C:AB=√2
D:sin A sin B=(√6)/2
這個問題相當(dāng)困難。只有豆包在兩分鐘內(nèi)計算出正確的答案。訊飛星火和通義千問需要一點時間,其他大型AI模型需要更長的時間,尤其是DeepSeek,耗時572秒,接近10分鐘。

假如AI大模型像考生一樣一次只做一道題,推理慢的三個AI大模型,有可能兩個小時都做不完題。
雖然本輪測試中所有AI模型都正確回答了問題,但豆包、訊飛星火、通義千問結(jié)合推理所需時間表現(xiàn)良好。
第3題(5分):
如果一個等比數(shù)列的前4項和4項、前8項和68項,則該等比數(shù)列的公比為(正確答案:±2)
與前一個問題相比,這個問題的難度明顯下降,訊飛星火,文心一言,Kimi、通義千問和DeepSeek五大模型都快速計算出正確答案,文心幾乎每秒都在計算。豆包雖然計算出了正確的答案,但是在導(dǎo)出答案的時候卻很迷茫,排除了-2。所以小雷要扣豆包三分,豆包只能得2分。

在這一輪測試中,DeepSeek服務(wù)器經(jīng)常出現(xiàn)繁忙的問題,小雷不得不使用第三方應(yīng)用程序。幸運的是,在這個階段,許多AI應(yīng)用程序已經(jīng)訪問了DeepSeek。無論是推理速度還是穩(wěn)定性,小雷使用的騰訊元寶App都遠(yuǎn)高于DeepSeek網(wǎng)頁版或App。
第4題(17分):
設(shè)數(shù)列{an}滿足a?=3,(an 1)/n=(an/(n 1)) (1/(n(n 1)))
(1)證實:{n an}是等差數(shù)列;(正確答案:n an是an=公差為1的等差數(shù)列)
(2)設(shè)f(x)=a?X a?X2 a?X3 ... amX^m,求f′(-2)。(正確答案:f′(-2)=(7/9)-(3m) 7)/9)·(-2^m))
前三個問題,幾個AI應(yīng)用在體驗上只有一定的差異,能力基本沒有區(qū)別。第四個問題不同,它的復(fù)雜性遠(yuǎn)遠(yuǎn)超過前三個問題,這也是檢驗AI模型能力最重要的挑戰(zhàn)。
豆包,訊飛星火,在這一輪測試中,Kimi、文心一言,DeepSeek依然表現(xiàn)出色,正確計算了兩個問題的答案。通義千問在回答這個問題的時候,可以推斷出第一個小問題的答案,但是第二個小問題給出了錯誤的答案,表現(xiàn)稍遜一籌。

豆包,訊飛星火,文心一言,Kimi、DeepSeek可以在這一輪測試中得到17分的滿分,通義千問因為答錯了第二個小問題,只能得到7分。
依靠公式和邏輯判斷的數(shù)學(xué)題似乎更符合AI的特點。然而,在多年的評價中,AI模型一般具有良好的閱讀理解和寫作效果,在復(fù)雜的數(shù)學(xué)題面前找不到答案思路。
光明。com在去年6月的一份報告中提到,復(fù)旦大學(xué)NLP試驗數(shù)據(jù)顯示,AI模型在2024年高考中的表現(xiàn)遠(yuǎn)強(qiáng)于數(shù)學(xué),一些數(shù)學(xué)題AI模型甚至全軍覆滅。沒有一個能正確計算答案,遇到選擇題的時候也經(jīng)常出錯。歸根結(jié)底,數(shù)學(xué)失之千里,不能出一點小錯誤,文史類的內(nèi)容可能會出現(xiàn)一些錯誤和比較模糊的答案。
一年過去了,AI模型進(jìn)步很快,深度思維模式的加入,數(shù)學(xué)題的專項推廣,讓AI模型在處理高考數(shù)學(xué)題時更加得心應(yīng)手。
比學(xué)霸更好,但是大模型的做題能力已經(jīng)拉開了距離。
四個問題檢測出來,最終得分如下:
- DeepSeek:33分;
- 訊飛星火:33分;
- 豆包:30分;
- Kimi:33分;
- 文心一言:33分;
- 通義千問:23分。
經(jīng)過測試,DeepSeek、訊飛星火、Kimi、文心一言全意得滿分,豆包表現(xiàn)不錯。因為一時的疏忽,他丟了三分,錯過了高考狀元。通義千問在計算簡單問題時,保持了很高的水平,但在處理困難問題時出現(xiàn)了計算誤差,需要再接再厲。

蘋果總是給AI行業(yè)潑冷水,日前在文章中表示,AI推理模式只是AI推理模式。「假思考」,沒有一個穩(wěn)定可理解的推理過程,更像是記憶,在處理復(fù)雜任務(wù)時可能會崩潰。Lisan,AI研究者。 al 復(fù)制蘋果測試方法后,Gaib表示,該模型并非因為推理能力差而失敗,而是因為蘋果限制了token的導(dǎo)出。
也許AI模型的推理能力還有上限,但是我們可以看到它們的進(jìn)步。去年復(fù)旦大學(xué)NLP實驗室測試AI模型時,他們在高考數(shù)學(xué)題面前表現(xiàn)不佳,小雷在幾次AI模型橫向測試中也取得了類似的成績。在今年的測試中,AI大模型基本上可以計算出問題的正確答案,曾經(jīng)難倒AI大模型的多選題,也沒有再給AI大模型帶來麻煩。
隨著AI模型數(shù)學(xué)題答題技巧的提高,受益最大的可能是學(xué)生群體。國內(nèi)學(xué)習(xí)機(jī)廠商和教育輔導(dǎo)平臺相繼增加了AI解題能力,但很多設(shè)備的AI模型只能回答中小學(xué)問題,比如行業(yè)龍頭猿搜題,題庫不包括大學(xué)課程。
六大AI模型的出色表現(xiàn),證明了國內(nèi)頭部AI企業(yè)的實力,高考數(shù)學(xué)題已經(jīng)被吸引,高數(shù)也不遠(yuǎn)了。學(xué)習(xí)機(jī)器制造商、教輔平臺可與頭部AI公司合作,提高AI回答商品的能力,繼續(xù)加強(qiáng)AI教育硬件業(yè)務(wù)。
本文來源于“雷科技”,36氪經(jīng)授權(quán)轉(zhuǎn)載。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




