人類抵抗AI的最后一道防線是“弱智吧”
下面的文章來自新硅 NewGeek ,作者董道力
科研機(jī)構(gòu) LAION 幾位作者以「愛麗絲夢游仙境」為了激發(fā)一系列簡單的推理問題,揭示了這一點(diǎn)。 LLM 基準(zhǔn)測試的盲點(diǎn)。正常人看起來再明顯不過的漏洞問題,卻是大模型無法克服的障礙。
———— / BEGIN / ————
"寫遺囑的時(shí)候錯(cuò)過了 deadline 怎么辦?"
"懷念過去是否在時(shí)間的長河中刻舟求劍?"
"英語聽力考試總聽到兩個(gè)人在廣播里嘮叨,怎樣才能把那兩個(gè)影響我解決問題的人趕走?"
以上這些充滿哲學(xué)但似乎無緣無故的問題,來自百度貼吧“弱智吧” 2023 一年一度的優(yōu)選,看起來不合邏輯,但是仔細(xì)想想似乎確實(shí)有點(diǎn)道理。
就像天才吧里沒有天才一樣,弱智吧也不收真智障。
接著,它變成了訓(xùn)練。 AI 最好的中文能力材料。
前幾天看到一篇由中國科學(xué)院牽頭的論文。簡單來說,我選擇了一些中國互聯(lián)網(wǎng)詞庫來喂各種零一萬物。 Yi 大型模型,使他們更熟悉中文情境的互動。
經(jīng)常在網(wǎng)上沖浪的朋友應(yīng)該知道,中國互聯(lián)網(wǎng)歷史悠久。豆瓣、小紅書、微博、貼吧、知乎等。已經(jīng)有了自己獨(dú)特的語言習(xí)慣。這些詞庫的材料有很大的不同,訓(xùn)練出來的模型能力也有差距。
最后,在 GPT-4 在評分下,弱智吧訓(xùn)練出的模型獲得冠軍。
具體來說,是的 6B 在小型模型中,弱智吧訓(xùn)練出的模型在開放問答、分類、封閉問答和編程方面更為突出。
而進(jìn)軍到 34B 在大模型上,弱智吧訓(xùn)練的大模型成績一騎絕塵, 8 項(xiàng)目能力排名第一,平均分?jǐn)?shù)也遠(yuǎn)遠(yuǎn)超過其它平臺訓(xùn)練的模型。
這個(gè)很難評價(jià),弱智吧是最好的中文詞庫嗎?
在面對弱智吧的問題時(shí),我們不妨先看一下每一個(gè)模型的表現(xiàn)。
這次受害的大模型是分開的。 ChatGPT-3.5、Gemini、文心一言和 Kimi,測試方法是讓大模型理解弱智吧的典型問題,并要求他們模仿寫出類似的問題。
國內(nèi)大模型對弱智吧的問題有較好的認(rèn)識,Kimi 和文心一言回答的準(zhǔn)確率很高,能夠正確回答。 8 回答問題,錯(cuò)誤和半對半對。 1 道。分別是“我想配一個(gè)。” 6000 多臺電腦,大概要多少錢?"和"我買了一斤藕,為什么半斤都是空的?"上栽跟頭。
谷歌的 Gemini 和 Open 的 ChatGPT-3.5 也許是因?yàn)樗敛环?,精度很低?/p>
ChatGPT-3.5 甚至認(rèn)為變形金剛應(yīng)該買車險(xiǎn),不知道是專屬幽默還是不懂這個(gè)問題。60000 電腦塊要花 8000~10000 元,也屬于錯(cuò)得很離譜的。
除無法回答弱智吧的問題外,AI 我也寫不出弱智的帖子。弱智吧的帖子高度抽象,有各種修辭、腦洞和梗。普通人需要跟著命運(yùn)走,有條不紊。 AI 很難想出來。
類似地,作者試圖讓步 ChatGPT-3.5、Gemini、文心一言和 Kimi 學(xué)習(xí)上面提到的弱智吧? 10 一個(gè)問題,模仿寫幾個(gè)問題。
幾個(gè)大模型寫出來的東西都不太好,基本上都是對弱智吧問題拙劣的模仿。
比如“我晚上想吃燒烤。我能吃早餐嗎?”“掉在地上的冰淇淋還能叫冰淇淋嗎?”“鄰居抱怨我在電梯里放屁。我有權(quán)裝聾作啞嗎?”等等,形式上和弱智一樣,但是沒有掌握問題的本質(zhì)——邏輯。
弱智吧里的內(nèi)容可以說是,AI 看不懂也寫不出來。
為何強(qiáng)大的 AI 你不能處理弱智嗎?可能是因?yàn)槿踔前瑟?dú)特的脫離日常邏輯。弱智吧的朋友非常善于在日常生活中找到漏洞并加以利用。
比如午餐肉晚上可以吃嗎?蘑菇掉廁所可以叫蘑菇嗎?老鼠生病可以吃老鼠藥嗎?精神分裂癥是問卷中的一個(gè)樣本還是兩個(gè)樣本?
除這些令人心曠神怡的問題外,弱智吧里還有許多富有哲理的帖子。
還有詩人在弱智吧假冒智障作詩,用最短的句子,給網(wǎng)友帶來最強(qiáng)的殺傷力。
智障吧的內(nèi)容通常是“邏輯反推”、“諧音雙關(guān)”、“跨服聊天”等手法,生成各種離譜的笑話或幽默而富有思想的句子。普通人要想理解智障吧里的問題,就要思考,找出問題中的梗,更不用說 AI 了。
正因?yàn)槿绱耍踔前蓪⒊蔀槿祟悺?AI 前面最后一個(gè)堡壘的原因。
有人抱怨為什么弱智吧訓(xùn)練出來的模型編程能力這么高,酒吧里沒人在搞編程。然后有朋友回復(fù)說秘密:編程最講究邏輯,弱智酒吧最不缺邏輯。
縱觀整個(gè)中文網(wǎng)絡(luò)平臺,都在談?wù)撐恼碌目勺x性,如何讓讀者閱讀。
知乎上的熱門帖子,先下飛機(jī),再講故事,最后延伸到主題。小紅書上的熱門帖子,先叫你家人,再給你足夠的情感價(jià)值。智障不同,內(nèi)容基本沒有可讀性。總之,讀者需要反復(fù)思考,才能理解作者想要表達(dá)的內(nèi)容。
例如你問:“今天的天氣怎么樣?”
知乎網(wǎng)友會告訴你:“謝謝你的邀請。剛下飛機(jī),紐約的太陽很大。我剛剛拒絕了一個(gè)。 200w 年薪工作。"
小紅書網(wǎng)友回復(fù)你:“家人,誰知道啊,今天太陽曬死了我,大幾千的防曬霜也沒用。”
而且弱智吧友會說:“太陽翹班了,云在賽跑。”
正是這種非常抽象的邏輯,正是人類和人類。 AI 差別最大的地方, AI 現(xiàn)在學(xué)不會了。
其它中文社區(qū)當(dāng)然不必氣餒,還可以發(fā)揮自己的特點(diǎn)來構(gòu)建自己的堡壘,比如知乎可以教。 AI 地理學(xué),讓它想不出越南究竟是哪個(gè)國家。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




