亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

<strike id="wk6yg"><center id="wk6yg"></center></strike>

大型PK高考數(shù)學(xué)：DeepSeek文心豆包全部滿分，差生意外

06-12 10:09

為避免高考學(xué)生使用AI作弊，今年高考期間，騰訊混元、通義千問、Kimi、豆包等國內(nèi)知名AI模型的圖片識別問答功能已經(jīng)暫停。小雷對這些企業(yè)的做法有些懷疑。在小雷測試AI模型做高考題之前，大部分都表現(xiàn)不佳。暫停圖片識別問答服務(wù)似乎過于看重自己的AI模型能力。

截止稿件時，2025年全國高考一卷只公布了三套語文、英語、數(shù)學(xué)試卷，其中語文高考試題曝光后，很多媒體對AI模型進(jìn)行了實際測量，編寫了作文。然而，每個人對作文的看法可能不同。小雷看到的幾篇評論基本都是截取AI模型寫的文章，沒有給出評價。文章的質(zhì)量需要讀者來判斷。

慎重起見，小雷選擇了一門答案正確的數(shù)學(xué)科目，測試AI大模型的能力，選擇了DeepSeekk模型。、豆包，訊飛星火，文心一言，Kimi、通義千問，他們可以考上985。、211嗎？

六大模型PK，誰是AI界高考狀元？

首先說一下測試環(huán)境和話題。考慮到有些AI模型不支持手動開關(guān)聯(lián)網(wǎng)，所以所有的AI模型都使用了在線搜索，所有的深度思維功能都被打開了。

選定的數(shù)學(xué)題，包括一個單項選擇題，一個多項選擇題，一個填空題，一個簡答題，最后根據(jù)題目的分?jǐn)?shù)來打分。

第一題(5分)：

如果雙曲線C虛軸長為實軸長，√C離心率為7倍(正確答案：D）

A：√6B：2C：√7D：2√2

第一個問題是開胃菜，不難。參加測試的六款A(yù)I模型并沒有讓小雷失望。他們都計算出了正確的答案，并給出了詳細(xì)的推理過程。在測試中，所有的AI模型都得到了5分。(照片從左到右:DeepSeek、星火，豆包，訊飛，Kimi、文心一言，通義千問，下圖同樣)

雖然這個問題不難，但這六個AI模型的表現(xiàn)讓小雷大放異彩。在測試AI大模型的數(shù)學(xué)計算能力之前，AI大模型很難計算出稍微復(fù)雜一點的問題的正確答案。

只有一輪測試，DeepSeek、訊飛星火，豆包，文心一言，Kimi、通義千問六大AI模型證明了他們的能力，有被高考學(xué)生作弊的概率。暫停圖片識別問答功能絕不是為了蹭高考的熱度。

第2題(6分)：

若cos 2A cos 2B 2sin C=2，SΔABC=1/4，cos Acos Bsin C=四分之一，然后(正確答案：ACD）

A：sin C=sin2A sin2BB：AC2 BC2=3C：AB=√2

D：sin A sin B=(√6)/2

這個問題相當(dāng)困難。只有豆包在兩分鐘內(nèi)計算出正確的答案。訊飛星火和通義千問需要一點時間，其他大型AI模型需要更長的時間，尤其是DeepSeek，耗時572秒，接近10分鐘。

假如AI大模型像考生一樣一次只做一道題，推理慢的三個AI大模型，有可能兩個小時都做不完題。

雖然本輪測試中所有AI模型都正確回答了問題，但豆包、訊飛星火、通義千問結(jié)合推理所需時間表現(xiàn)良好。

第3題(5分)：

如果一個等比數(shù)列的前4項和4項、前8項和68項，則該等比數(shù)列的公比為(正確答案：±2）

與前一個問題相比，這個問題的難度明顯下降，訊飛星火，文心一言，Kimi、通義千問和DeepSeek五大模型都快速計算出正確答案，文心幾乎每秒都在計算。豆包雖然計算出了正確的答案，但是在導(dǎo)出答案的時候卻很迷茫，排除了-2。所以小雷要扣豆包三分，豆包只能得2分。

在這一輪測試中，DeepSeek服務(wù)器經(jīng)常出現(xiàn)繁忙的問題，小雷不得不使用第三方應(yīng)用程序。幸運的是，在這個階段，許多AI應(yīng)用程序已經(jīng)訪問了DeepSeek。無論是推理速度還是穩(wěn)定性，小雷使用的騰訊元寶App都遠(yuǎn)高于DeepSeek網(wǎng)頁版或App。

第4題(17分)：

設(shè)數(shù)列{an}滿足a?=3，（an 1）/n=（an/（n 1））（1/（n（n 1）））

（1）證實：{n an}是等差數(shù)列；(正確答案：n an是an=公差為1的等差數(shù)列)

（2）設(shè)f（x）=a?X a?X2 a?X3 ... amX^m，求f′(-2)。(正確答案：f′(-2)=(7/9)-(3m) 7）/9）·（-2^m））

前三個問題，幾個AI應(yīng)用在體驗上只有一定的差異，能力基本沒有區(qū)別。第四個問題不同，它的復(fù)雜性遠(yuǎn)遠(yuǎn)超過前三個問題，這也是檢驗AI模型能力最重要的挑戰(zhàn)。

豆包，訊飛星火，在這一輪測試中，Kimi、文心一言，DeepSeek依然表現(xiàn)出色，正確計算了兩個問題的答案。通義千問在回答這個問題的時候，可以推斷出第一個小問題的答案，但是第二個小問題給出了錯誤的答案，表現(xiàn)稍遜一籌。

豆包，訊飛星火，文心一言，Kimi、DeepSeek可以在這一輪測試中得到17分的滿分，通義千問因為答錯了第二個小問題，只能得到7分。

依靠公式和邏輯判斷的數(shù)學(xué)題似乎更符合AI的特點。然而，在多年的評價中，AI模型一般具有良好的閱讀理解和寫作效果，在復(fù)雜的數(shù)學(xué)題面前找不到答案思路。

光明。com在去年6月的一份報告中提到，復(fù)旦大學(xué)NLP試驗數(shù)據(jù)顯示，AI模型在2024年高考中的表現(xiàn)遠(yuǎn)強(qiáng)于數(shù)學(xué)，一些數(shù)學(xué)題AI模型甚至全軍覆滅。沒有一個能正確計算答案，遇到選擇題的時候也經(jīng)常出錯。歸根結(jié)底，數(shù)學(xué)失之千里，不能出一點小錯誤，文史類的內(nèi)容可能會出現(xiàn)一些錯誤和比較模糊的答案。

一年過去了，AI模型進(jìn)步很快，深度思維模式的加入，數(shù)學(xué)題的專項推廣，讓AI模型在處理高考數(shù)學(xué)題時更加得心應(yīng)手。

比學(xué)霸更好，但是大模型的做題能力已經(jīng)拉開了距離。

四個問題檢測出來，最終得分如下：

DeepSeek：33分；
訊飛星火：33分；
豆包：30分；
Kimi：33分；
文心一言：33分；
通義千問：23分。

經(jīng)過測試，DeepSeek、訊飛星火、Kimi、文心一言全意得滿分，豆包表現(xiàn)不錯。因為一時的疏忽，他丟了三分，錯過了高考狀元。通義千問在計算簡單問題時，保持了很高的水平，但在處理困難問題時出現(xiàn)了計算誤差，需要再接再厲。

蘋果總是給AI行業(yè)潑冷水，日前在文章中表示，AI推理模式只是AI推理模式。「假思考」，沒有一個穩(wěn)定可理解的推理過程，更像是記憶，在處理復(fù)雜任務(wù)時可能會崩潰。Lisan，AI研究者。 al 復(fù)制蘋果測試方法后，Gaib表示，該模型并非因為推理能力差而失敗，而是因為蘋果限制了token的導(dǎo)出。

也許AI模型的推理能力還有上限，但是我們可以看到它們的進(jìn)步。去年復(fù)旦大學(xué)NLP實驗室測試AI模型時，他們在高考數(shù)學(xué)題面前表現(xiàn)不佳，小雷在幾次AI模型橫向測試中也取得了類似的成績。在今年的測試中，AI大模型基本上可以計算出問題的正確答案，曾經(jīng)難倒AI大模型的多選題，也沒有再給AI大模型帶來麻煩。

隨著AI模型數(shù)學(xué)題答題技巧的提高，受益最大的可能是學(xué)生群體。國內(nèi)學(xué)習(xí)機(jī)廠商和教育輔導(dǎo)平臺相繼增加了AI解題能力，但很多設(shè)備的AI模型只能回答中小學(xué)問題，比如行業(yè)龍頭猿搜題，題庫不包括大學(xué)課程。

六大AI模型的出色表現(xiàn)，證明了國內(nèi)頭部AI企業(yè)的實力，高考數(shù)學(xué)題已經(jīng)被吸引，高數(shù)也不遠(yuǎn)了。學(xué)習(xí)機(jī)器制造商、教輔平臺可與頭部AI公司合作，提高AI回答商品的能力，繼續(xù)加強(qiáng)AI教育硬件業(yè)務(wù)。

本文來源于“雷科技”，36氪經(jīng)授權(quán)轉(zhuǎn)載。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

新的外賣市場格局變化京東外賣上線百日單占比已經(jīng)超過31%

采訪CEO張桐獲得帆信息：AI Coding To B，小企業(yè)做不到

空降部門領(lǐng)導(dǎo)，下屬不配合怎么辦？

銀泰商管接管大連百年城，大連銀泰城正式上市。

榮耀，小米，給傳音一個「下馬威」

項目推薦

<strike id="mggki"><center id="mggki"></center></strike>