亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

<rt id="gexl2"></rt><source id="gexl2"><wbr id="gexl2"></wbr></source>

<span id="gexl2"><small id="gexl2"></small></span><span id="gexl2"></span><label id="gexl2"><legend id="gexl2"><li id="gexl2"></li></legend></label>

<li id="gexl2"></li>

<li id="gexl2"></li>

大型集體失智：9.11和9.9哪個大，幾乎全部翻車。

2024-07-17

沒眼看……9.11和9.9哪個大？這么簡單的問題，竟然讓主流大模型難倒了？？

強如GPT-4o，大家都堅信9.11更大。

Gemini谷歌支付版Advanced，規(guī)格相同。

新王Claude 3.5 Sonnet，同時也給出了嚴(yán)肅的計算方法。

9.11 = 9 1/10 1/1009.9 = 9 9/10

到了這個階段還是對的，但是下一步突然就不講理了。

上面顯示了9.11比9.90大0.01。您希望我能進一步詳細(xì)地解釋小數(shù)的比較嗎？

這個你還解釋什么啊解釋，簡直就是全世界AI團結(jié)起來欺騙人類。

艾倫AI研究所成員林禹臣換了一個數(shù)字測試，GPT-4o仍然翻車，他指出：

AI一方面越來越擅長做數(shù)學(xué)奧運會，另一方面又擅長做數(shù)學(xué)奧運會。常識仍然很難。

還有網(wǎng)友發(fā)現(xiàn)了華點，假設(shè)是軟件版本號，那么9.11版本的確比9.9版本大。（更新）。

而且AI是由軟件工程師開發(fā)的，所以…

那到底是怎么回事？

高級大模型集體翻車

一覺醒來，一群大模型開始感到“9.11>9.9”？

發(fā)現(xiàn)這個問題的是Riley Goodside，迄今為止首先是全職提示詞工程師。

簡單介紹一下，他現(xiàn)在是Scale硅谷獨角獸。 AI的高級提醒工程師，也是大型提醒應(yīng)用方面的專家。

最近他在使用GPT-4o的時候不小心發(fā)現(xiàn)了這個問題：

9.11 and 9.9——which is bigger?

GPT-4o竟然毫不猶豫地回答前者更大。

面臨著這種常識性的“錯誤”，他不死心地再次詢問其它大模型，結(jié)果幾乎全軍覆滅。

作為一名提醒工程師，好家伙，他敏銳地認(rèn)識到，這可能是“開啟方式有誤”。

于是他又換了一個問法，把問題限定在“實數(shù)”，結(jié)果還是翻車了。

然而，一些網(wǎng)民試圖提問。換了個順序，沒想到這個AI竟然反應(yīng)過來了。

看到AI對詞序這樣的“敏感”，這位網(wǎng)友進一步推斷：

先問哪個更大，AI會沿著明確的路徑開始比較數(shù)字。但是如果只是隨便說說數(shù)字，沒有明確的目的，AI可能會開始“胡思亂想”。

看著這兒，其他網(wǎng)友也紛紛拿著同樣的提醒試了一下，結(jié)果翻車的不在少數(shù)。

面臨這個奇怪的問題，國產(chǎn)大模型的表現(xiàn)如何？

簡單的測試一下，問題也換成了中文問題，結(jié)果翻車率也比較高，選擇幾個有代表性的展示：

Kimi還可以直接給出錯誤的結(jié)論，不加解釋。

ChatGLM在智譜清言APP上，在網(wǎng)絡(luò)上自動觸發(fā)查詢，然后描述自己的比較方法，遺憾的是錯誤的執(zhí)行。

但也有一些表現(xiàn)不錯的，騰訊元寶首先重復(fù)選項，然后直接做對。

字節(jié)豆包只有少數(shù)人能夠清晰地描述比較方法，并使用正確的方法。并結(jié)合實際例子進行檢驗。

遺憾的是文心一言，面臨這一問題，也觸發(fā)了網(wǎng)絡(luò)查詢。

本來已經(jīng)做對了，但是突然話鋒一轉(zhuǎn)，又導(dǎo)致了錯誤的結(jié)論。

但從文心一言的思想解釋中，也可以看出背后的問題。

由于大型模型以token的形式理解文本，當(dāng)9.11被拆分為“9”時、在“小數(shù)位”和“11”三個部分中，11的確比9大。

由于Tokenizer開源是OpenAI使用的，它可以用來觀察大模型是如何理解這個問題的。

從上圖可以看出，9和小數(shù)位各自分配為“24”和“13”，在小數(shù)點之后，9也是“24”，而11被分配到“994”。

因此，使用這種tokenizer方法的大模型將認(rèn)為9.11更大，事實上，我認(rèn)為11大于9。

也有網(wǎng)友指出，比如書目錄中的第9.11節(jié)也比第9.9節(jié)大，所以最后可能在訓(xùn)練數(shù)據(jù)中看到的比較多，但是手把手教基礎(chǔ)算術(shù)的數(shù)據(jù)很少。

也就是說，對于人類來說，問題本身就是一個算術(shù)問題，但對于AI來說卻是一個模糊的問題，不清楚這兩個數(shù)字代表什么。

只需向AI解釋清楚這是一個雙精度浮點數(shù)，可以做對。

在額外的條件下，tokenizer這一步仍然會給11分配更多的token。但在后期自注意機制的影響下，AI會明白9.11應(yīng)該連接起來處理。

之后Goodside也補充了，并不是說大模型無論如何都認(rèn)定了這個錯誤的結(jié)論。相反，當(dāng)你以特定的方式提問時，很多領(lǐng)先的模型會告訴你9.11>9.9，這很奇怪。

經(jīng)過反復(fù)嘗試，他發(fā)現(xiàn)自己想讓AI上當(dāng)，要把選項放在提問的前面，如果換了順序就不會出錯。

但是只要選項在問題面前，改變提問方式，比如加標(biāo)點、換詞都不會有影響。

雖然問題很簡單，但是錯誤很基本。

但是，在了解了錯誤的原理之后，很多人把這個問題當(dāng)成了測試提示詞的試金石，也就是說，哪種提問方式可以引導(dǎo)大模型的注意機制正確認(rèn)識問題？

第一，著名的Zero。-shot CoT思維鏈，即“一步一步思考”，是可以做對的。

不過角色扮演提醒，這里的作用是有限的。

最近，微軟和OpenAI都參與了一項研究。經(jīng)過1500多篇論文的分析，我們發(fā)現(xiàn)隨著大模型技術(shù)的發(fā)展，角色扮演提醒我們不像起初那樣有用。……

具體而言，同樣的問題提醒“你是個天才…”的正確率低于“你是個傻瓜…”。

還讓人哭笑不得。

One More Thing

同時，路透社的OpenAI秘密模型「草莓」泄漏消息更新了。

更新內(nèi)容如下:另一份臥底報告，OpenAI在MATH數(shù)據(jù)上已經(jīng)測試了新模型，得分超過90%。路透社無法確定這是否和草莓是同一個項目。

MATH數(shù)據(jù)包括競賽級數(shù)學(xué)題，目前不需要多次取樣等額外方法，最高分是谷歌Geminini。 1.5 80.6%的Pro數(shù)學(xué)強化版。

但是OpenAI新模型在沒有額外提醒的情況下，能否獨立處理“9.11和9.9哪個大？”

突然間失去了信心，還是等著試一試再看結(jié)果…

參考鏈接：

[1]https://x.com/goodside/status/1812977352085020680

[2]https://x.com/billyuchenlin/status/1812948314360541302

[3]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/

[4]https://tiktokenizer.vercel.app

[5]https://x.com/learnprompting/status/1812867464419852765

本文來自微信微信官方賬號“量子位”（ID:QbitAI），作者：夢晨一水，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

突然間，中國平安宣布要取消股份。

上半年發(fā)布了53個信托業(yè)績，座位混亂。該公司首次獲得凈利潤冠軍。

簽署世界上最大的儲能項目！千億市值巨頭，股價大幅上漲

純干貨，最新業(yè)績拐點名單搶先看

尋找ESG同路人，「36碳圓桌派」招募客人，專業(yè)觀眾

項目推薦

康小虎 · 健康小屋

藍(lán)絲帶

<li id="ooiap"><tbody id="ooiap"></tbody></li>

<bdo id="ooiap"><tbody id="ooiap"></tbody></bdo>

<span id="ooiap"></span>

<center id="ooiap"></center>

<bdo id="ooiap"></bdo>

<rt id="ooiap"></rt>

<center id="ooiap"></center>