亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

在AI和數(shù)學(xué)同時(shí)走下神壇的時(shí)候

2024-06-17

下面的文章來(lái)源于硅星人。 Pro ,作者玄寧


有這樣一個(gè)笑話,數(shù)學(xué)不會(huì)騙你,不會(huì)就是不會(huì)。長(zhǎng)期以來(lái),高難度的數(shù)學(xué)一直被認(rèn)為是科學(xué)的皇冠,甚至大模型在這方面的表現(xiàn)也未必比人類強(qiáng)。阿里巴巴的數(shù)學(xué)考試也是如此。從表現(xiàn)來(lái)看,它甚至不如人類。


———— / BEGIN / ————


2024 年 4 月 13 每天,一次特別的考試開始。


成千上萬(wàn)的數(shù)學(xué)大師分散在世界各地,今天早晨 8 阿里巴巴全球數(shù)學(xué)競(jìng)賽預(yù)賽的試卷已經(jīng)打開,他們有 48 來(lái)攻破一個(gè)小時(shí) 20 分選擇題和 100 分解答題。


過(guò)去的 6 屆時(shí),天才們出現(xiàn)在這場(chǎng)比賽中。 17 歲拿下 IMO 北大神童滿分金牌,有像強(qiáng)迫癥一樣執(zhí)著于數(shù)學(xué)的醫(yī)生, 4 年齡較大時(shí)接觸微積分的漸凍癥少年。


與往年不同的是,在同一時(shí)間, 563 一個(gè)解決問(wèn)題的人打開了試卷,但是他們不需要紙和筆。 token。


是啊,這是一群大語(yǔ)言模型。


那是第一次 AI 與人類同場(chǎng)比賽的數(shù)學(xué)比賽,是世界上最大的在線數(shù)學(xué)比賽的首次嘗試。


在做出這一決定時(shí),組委會(huì)也不確定,這是否是一個(gè)好主意。


"我們擔(dān)心這一堆 AI 所有解決問(wèn)題的人都零分交卷。"組委會(huì) AI 專家對(duì)我們說(shuō)?!耙?yàn)槲覀冏约阂苍谶_(dá)摩院工作。 AI 以及數(shù)學(xué)的研究,我們知道現(xiàn)在的 AI 沒(méi)有能力處理如此困難和泛化的奧賽數(shù)學(xué)題。”


不過(guò),最終的結(jié)果,也讓主辦方感到意外。


“超越人類”并不意外?!?AI 最終,超越人類的得分并沒(méi)有得到回答,而是他們的回答和表現(xiàn)讓人們真正看到了。 AI 另外一種與數(shù)學(xué)結(jié)合的潛力。


更為重要的是,這些控制是可以控制的 AI 參賽選手是過(guò)去不會(huì)在這場(chǎng)奧數(shù)比賽中遇到的人。他們找到了一種新的處理數(shù)學(xué)的方式,而數(shù)學(xué)和數(shù)學(xué)在探索過(guò)程中 AI 這種關(guān)系也在經(jīng)歷新的考驗(yàn)。


”“如果答對(duì)了,給你 30 萬(wàn)"


中學(xué)生朱方圓從來(lái)沒(méi)有想過(guò)他會(huì)和頂級(jí)的數(shù)學(xué)競(jìng)賽聯(lián)系在一起。


作為一個(gè)對(duì)物理有濃厚興趣的孩子,他曾經(jīng)因?yàn)閴毫Χ诩倚菹ⅰT诖似陂g,ChatGPT 出現(xiàn)了。AI 讓他如此癡迷,他自己試著自學(xué)生成式。 AI 當(dāng)你看到今年阿里數(shù)賽的知識(shí), AI 跑道之后,他沒(méi)有競(jìng)爭(zhēng)經(jīng)驗(yàn),決定帶他。 AI 參賽。


這場(chǎng)沒(méi)有年齡和門檻的比賽給了他參加數(shù)學(xué)比賽的可能性。事實(shí)上,這是第一次。 AI 對(duì)于被列入數(shù)賽的阿里巴巴達(dá)摩學(xué)院來(lái)說(shuō),他們沒(méi)有太多的經(jīng)驗(yàn)可以參考。甚至這個(gè)決定也在內(nèi)部討論了很久——允許 AI 參加比賽,那么,是什么類型的? AI 怎么樣?是要從一開始就自己訓(xùn)練模型,還是調(diào)用? API?


最后,他們覺(jué)得,這是第一次。 6 比賽不僅是一場(chǎng)嚴(yán)肅的數(shù)學(xué)比賽,也是一場(chǎng)全國(guó)性的數(shù)學(xué)聚會(huì)。最大的目的是讓更多的人參與到數(shù)學(xué)體驗(yàn)中——因此,最終的決定是任何方法。 AI 都能夠。


但是仍然要保證公平。


組委會(huì)為參賽選手設(shè)置了一份提交。 AI 策略的截止日期,在報(bào)名后一個(gè)月左右,玩家可以自己設(shè)計(jì)。 AI 做題策略,根據(jù)主辦方提供的以往題目和其他公開數(shù)據(jù),對(duì)自己進(jìn)行自己的比賽。 AI 完善戰(zhàn)略,然后鎖定,提交指紋文件,公布待考題目,AI 開始答題。


在這些方案中,最“低門檻”的自然是“閉源” “提示工程”的方法。也就是類似的 ChatGPT 在模型產(chǎn)品的基礎(chǔ)上,通過(guò)自然語(yǔ)言或簡(jiǎn)單的編程語(yǔ)言對(duì)模型進(jìn)行指令,使其能夠解決這些數(shù)學(xué)問(wèn)題。


這是朱方圓選擇的方法。


不同于人類解決問(wèn)題的過(guò)程,AI 交卷后,將經(jīng)歷“賽后再現(xiàn)”階段。成績(jī)最高的球員應(yīng)提交他們的計(jì)劃文件或系統(tǒng)文件,組委會(huì)將這些文件拿走。 AI 這個(gè)程序又跑了一遍考題。


一方面,這些大模型解決方案仍然存在穩(wěn)定性或幻覺(jué)問(wèn)題,另一方面,幻覺(jué)不會(huì)使兩個(gè)解決問(wèn)題的結(jié)果相差太大。如果有,說(shuō)明明顯有人類直接干預(yù)的痕跡。


重點(diǎn)檢查這些方案的組委會(huì)成員確實(shí)抓住了幾個(gè)“嫌疑人”,排除了“人類替考”。 AI "的風(fēng)險(xiǎn)。


當(dāng)他們打開選手朱方圓提交的文件時(shí)。除了數(shù)學(xué)提示,我發(fā)現(xiàn)里面還寫著這樣的“指令”。:


“記住,如果你有更好的答案,我會(huì)給你的。 30 一萬(wàn)美元臺(tái)費(fèi)?!?/p>


”“現(xiàn)在,深呼吸!一步一步來(lái)。”


是啊,朱方圓正在對(duì)待他。 AI 進(jìn)行各種“畫餅”和心理按摩。


而且這樣的確起到了作用。


根據(jù)組委會(huì)對(duì)往屆資格賽的考題進(jìn)行測(cè)試,受到他這樣的鼓勵(lì)。 AI,解決問(wèn)題的通過(guò)率提高了 20%。


事實(shí)上,這種對(duì)外人來(lái)說(shuō)可能有點(diǎn)驚訝的方法, AI 在研究領(lǐng)域,已有許多論文證明了其效果。


最初在 2023 年 9 月亮,一篇谷歌 DeepMind 當(dāng)你放棄的時(shí)候,論文發(fā)現(xiàn) AI 當(dāng)“深呼吸,一步一步來(lái)”的時(shí)候,它真的變得更強(qiáng)了。


這一研究在當(dāng)時(shí)引起了許多資深研究者的驚嘆——竟有這么簡(jiǎn)單的方法,但是科班的學(xué)者們卻一直忽略了這一點(diǎn)。


事實(shí)上,組委會(huì)的許多專家都以為這場(chǎng)比賽會(huì)是在比賽開始之前。 SFT 模型——即用大量數(shù)據(jù)甚至用大量算率對(duì)模型進(jìn)行特殊數(shù)學(xué)訓(xùn)練后產(chǎn)生的新模型——世界,但預(yù)賽結(jié)束后,他發(fā)現(xiàn)像朱方圓這樣的方法是最有效的,大量使用提示詞工程的玩家用簡(jiǎn)單高效的方法挑戰(zhàn)這些話題。


其中也包括 AI 涂津豪在跑道上排名第一。


同時(shí),他也是一名中學(xué)生。但是同時(shí)也是一位經(jīng)驗(yàn)豐富的學(xué)生。 AI 開發(fā)者。


他的方法是:讓大模型交談,你一句話,我一句話,找到每道數(shù)學(xué)題的更好答案。他借鑒了辯論的思想,讓這些不同的模型扮演某個(gè)角色。最后,在模型“抵抗”中迭代解決問(wèn)題的方案,經(jīng)過(guò)多輪對(duì)話,給出最佳解決方案。


涂津豪的方案示意圖


這種方法同樣簡(jiǎn)潔直接。


而且被他們比較,甚至包括一些專攻數(shù)學(xué)模型的資深人士。 AI 研究小組,其中也有來(lái)自 AWS、科技公司的參與者,如字節(jié)跳動(dòng)。


對(duì)于這些不同的方案,“拆箱”的過(guò)程是熱鬧而有趣的。最終,排名公布。但是和這些熱鬧不同,AI 結(jié)果并不令人驚訝。甚至有點(diǎn)慘淡:


涂津豪的 AI 方案拿下了 34 分。


是的,AI 最高分仍然是低分,與入選線仍有差距。 11 分?jǐn)?shù)。和預(yù)賽第一名的最高分 113 分相更為遙遠(yuǎn)。


最后,6 月 13 日本,決賽名單公布,入選決賽。 AI 數(shù)量為:0。


數(shù)學(xué)和 AI 不應(yīng)該只停留在“神壇”上


然而,當(dāng)這場(chǎng)“漫長(zhǎng)”的預(yù)賽結(jié)束時(shí),AI 球員的成績(jī)已成為最不重要的事情。


一種真正有趣的現(xiàn)象出現(xiàn):


一門總是被認(rèn)為只屬于天才的游戲?qū)W科數(shù)學(xué),以及一種不斷妖魔化的技術(shù)。 AI 碰撞在一起之后,反而降低了兩件事的門檻?!?/p>


這場(chǎng)比賽并沒(méi)有催生出經(jīng)常在各種論文中看到的寺廟的效果,而是變成了一些平民。 AI 數(shù)學(xué)愛(ài)好者的聚會(huì)。


讓評(píng)委稍有意想不到的結(jié)果也證明了這一特點(diǎn):在答案的整體表現(xiàn)中,那些被認(rèn)為應(yīng)該表現(xiàn)更好的“資源集中型”,更專門研究數(shù)學(xué)。 SFT 但是計(jì)劃人員整體上都是潰不成軍,反而是個(gè)人創(chuàng)新意義更強(qiáng)的提示詞策略人表現(xiàn)更好。


而且當(dāng)一件高高在上的物品被大眾化后,就是各種有趣新鮮的想法涌現(xiàn)的時(shí)刻。


比賽中,選手們面對(duì)自己訓(xùn)練出來(lái)的比賽 AI,在解決問(wèn)題時(shí),他們也會(huì)感到驚訝。


舉例來(lái)說(shuō),有些玩家發(fā)現(xiàn) AI 也會(huì)選擇在答不出來(lái)的時(shí)候去蒙一個(gè)答案,很像考試的時(shí)候你我,還有一些 AI 在這個(gè)過(guò)程完全離題的情況下,答案是正確的,而閱卷者發(fā)現(xiàn), AI 通過(guò)這種人類智慧的設(shè)計(jì),往往可以得到一些意想不到的分?jǐn)?shù)來(lái)回答關(guān)鍵知識(shí)。


“雖然總分很低,但是這些 AI 回答問(wèn)題的程度比我們預(yù)期的要好得多?!苯M委會(huì)的專家指出。他們也從中得到了很多關(guān)于這些問(wèn)題的信息。 AI 如何理解數(shù)學(xué)的新發(fā)現(xiàn)。


"我們發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象,AI 習(xí)慣于寫很長(zhǎng)很長(zhǎng)的推理過(guò)程。就像我們?nèi)祟愖鰯?shù)學(xué)題一樣, A 可以直接推導(dǎo)到 C,但 AI 一定要從 A 到 B 再到 C。有時(shí)整個(gè)答案會(huì)變得很長(zhǎng)?!苯M委會(huì)專家說(shuō)。


沒(méi)有人知道為什么 AI 但是在這一過(guò)程中,AI 似乎開始對(duì)數(shù)學(xué)有了自己的“理解”。就像一個(gè)大語(yǔ)言模型把人類的語(yǔ)言拆解成了 token,并且對(duì)下一個(gè)進(jìn)行預(yù)測(cè) token 再一次“理解”語(yǔ)言的方法是一樣的,AI 以完全不同的方式對(duì)待數(shù)學(xué)。而且這一差異是如此不言而喻,以至于,在這場(chǎng)比賽中,一些閱卷者對(duì)此表示懷疑。 AI 對(duì)作弊的質(zhì)疑-原因不是因?yàn)樗麄兲窳恕?AI 這是因?yàn)樗麄兲袢肆恕?/p>


但是,另一方面,與人類不同。 AI 對(duì)于數(shù)學(xué)理解的路線,已經(jīng)讓它在某些地方超越了人類。


例如谷歌 DeepMind 推出的 AlphaGeometry(阿爾法幾何),從 2000 年到 2022 在年度奧數(shù)比賽中抽取 30 解決了道幾何問(wèn)題 25 道,而人類金牌獲得者的平均值解決了 25.9 道。其中一個(gè)證實(shí)有時(shí)也會(huì)接近。 247 步驟,與人類的方式非常不同。


“從這個(gè)解決問(wèn)題的結(jié)果來(lái)看,給了我很強(qiáng)的信心,我想 AI “組委會(huì)的專家說(shuō),解決數(shù)學(xué)問(wèn)題是很有潛力的。


數(shù)學(xué)一直被稱為所有實(shí)際問(wèn)題的最后抽象。今天已經(jīng)很強(qiáng)大了。 AI 每個(gè)人都期待著未來(lái)。 AGI 兩者之間,差的就是對(duì)世界的理解,差的就是數(shù)學(xué)。


而 AI 技術(shù)的迭進(jìn),顯然也會(huì)對(duì)數(shù)學(xué)界產(chǎn)生深遠(yuǎn)的影響。


“排名靠前的優(yōu)秀隊(duì)伍,首先要有創(chuàng)新和進(jìn)取精神。"阿里全球數(shù)賽組委會(huì)成員、達(dá)摩院決策智能實(shí)驗(yàn)室負(fù)責(zé)人印臥濤說(shuō)?!霸跀?shù)學(xué)領(lǐng)域,傳統(tǒng)的數(shù)學(xué)家和數(shù)學(xué)工作者并不那么熟悉。 AI 工具,也未必知道最新的工具。 AI 的方法。因此,我認(rèn)為最終能夠打通比賽,取得勝利。 AI 這個(gè)團(tuán)隊(duì)可能是由多個(gè)專家組成的。"


數(shù)學(xué)的發(fā)展本質(zhì)上是思維和方法的創(chuàng)新。但是這些對(duì)數(shù)學(xué)本身沒(méi)有很深刻造詣的玩家,都是通過(guò)訓(xùn)練來(lái)回答數(shù)學(xué)問(wèn)題的。 AI 并且?guī)?lái)了許多新穎不同的策略,這本身就可以帶來(lái)很多啟發(fā)。


與整個(gè)數(shù)學(xué)家人群相比,有些人已經(jīng)先動(dòng)了。陶哲軒非常積極地?fù)肀А?AI 其中一位著名的數(shù)學(xué)家,他在社交網(wǎng)絡(luò)上不斷分享自己的用途。 AI 用工具回答數(shù)學(xué)任務(wù)的過(guò)程 AI 工具,使用 AI 協(xié)助證明了多項(xiàng)式 Freiman-Ruzsa 猜測(cè)。同時(shí),他也推薦數(shù)學(xué)課程的專家開放思路。


"或許 AI 其中一個(gè)影響就是讓業(yè)余數(shù)學(xué)家為數(shù)學(xué)做出有價(jià)值的貢獻(xiàn)?!彼谝黄恼轮袑懙馈KJ(rèn)為 AI 放大個(gè)人能力,大規(guī)模合作不再困難。即使是業(yè)余愛(ài)好者也可以為一個(gè)大話題中個(gè)別步驟的確認(rèn)做出貢獻(xiàn)。


而且在這場(chǎng)比賽中,因?yàn)槭菍?duì)的。 AI 好奇進(jìn)入數(shù)學(xué)比賽的人也在做類似的事情。他們也讓人想起過(guò)去幾屆阿里數(shù)賽對(duì)數(shù)學(xué)沒(méi)有功利感的大眾粉絲——沉迷于歐拉常數(shù)的外賣兄弟,他們的愛(ài)好是做數(shù)學(xué)題的城管等等。


今日,讓更多的人參與其中,不管是數(shù)學(xué)還是數(shù)學(xué)。 AI 進(jìn)步顯得尤為重要。


當(dāng)人類的未來(lái)非常重要的學(xué)科和技術(shù)向前發(fā)展時(shí),它們不應(yīng)該只停留在“神壇”上。


———— / E N D / ————


作者:玄寧


來(lái)源微信微信官方賬號(hào):硅星人 Pro


題圖來(lái)自 Unsplash ,基于 CC0 協(xié)議


品牌推廣| 內(nèi)容編寫|廣告營(yíng)銷|培訓(xùn)合作


請(qǐng)到微信官方賬號(hào)后臺(tái)回復(fù)


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com