DeepSeek向王一博道歉鬧劇:管理AI幻覺而非消除它
前幾日,一場由AI幻覺引發(fā)的輿論風波在網(wǎng)絡上掀起巨浪。不少網(wǎng)友發(fā)帖稱DeepSeek因「誤將王一博卷入腐敗案」而公開道歉,還附上了一份看似權威的「刑事判決書」。
很快,《演員王一博案,判了》被不少媒體當作「法院實錘」進行報道,#DeepSeek向王一博道歉#更是一度登上微博熱搜。
實際上,這份道歉聲明與判決書都是AI編造的——這是一場由「大模型幻覺」和「內(nèi)容農(nóng)場拼貼」共同上演的鬧劇。
AI幻覺的本質(zhì):不是查找,而是「預測」與「創(chuàng)作」
AI并非是一個擁有龐大數(shù)據(jù)庫的搜索引擎,不能像翻閱書籍查找文獻那樣提供精準答案。生成式AI更像是一個沉浸在語料庫海洋中的學習者,通過預測「下一個最合理的詞」來生成內(nèi)容。
大語言模型的幻覺源于其概率性生成機制——它們?yōu)槊總€輸出挑選最可能的token,這種方式既是其創(chuàng)造力的源泉,也是幻覺的根源。訓練數(shù)據(jù)偏差、模型局限性以及生成過程的隨機性,都可能導致幻覺的產(chǎn)生。
正如OpenAI前研究科學家、METR創(chuàng)始人Beth Barnes在最近的一場訪談中所說:「AI不是在失控,而是在演戲?!顾故玖艘粡埬P湍芰吔缜€圖,揭示了一個令人不安的現(xiàn)象:
隨著模型參數(shù)增加,基礎任務的錯誤率持續(xù)下降,但在涉及人類聲譽、價值觀等復雜場景時,錯誤率卻出現(xiàn)回彈,形成「幻覺盲區(qū)」。例如,GPT - 4.5的幻覺率高達37.1%,意味著超過三分之一的輸出可能包含事實錯誤,且這些錯誤往往包裝得極具迷惑性。


原視頻:https://www.youtube.com/watch?v=jXtk68Kzmms&t=57s
有趣的是,幻覺并非單純的「錯誤」。有觀點認為,AI幻覺可被視作一種「發(fā)散思維」或「想象力」。如果將訓練大模型視為信息「壓縮」的過程,那么模型推理和輸出答案就是信息「解壓」的過程。這種機制可能引發(fā)謬誤,但也可能激發(fā)創(chuàng)造力。
比如,ChatGPT曾誤導用戶稱樂譜掃描網(wǎng)站Soundslice支持ASCII吉他譜,生成大量虛假截圖推薦用戶上傳,導致網(wǎng)站收到海量錯誤格式上傳。開發(fā)者Adrian Holovaty最終迫于用戶需求,真的開發(fā)了這一功能,將原本不存在的「幻覺」變?yōu)楝F(xiàn)實。

所以,幻覺可能讓AI生成超出現(xiàn)有數(shù)據(jù)的推測或故事,但當這些「想象」被誤認為是事實,就可能引發(fā)類似DeepSeek事件的混亂。
當我們更愿意相信AI而非人類
AI幻覺的危害遠超「說錯話」。以DeepSeek事件為例,最初的「道歉截圖」雖是幻覺產(chǎn)物,卻因語氣、格式高度逼真,迅速在社交媒體發(fā)酵。更有甚者,當用戶向其他模型求證時,部分模型生成「內(nèi)容相似」的回答,進一步強化謠言的可信度。這種「多模型一致性」讓人類更難懷疑,形成了「人類對幻覺的過度信任」。
Barnes的實驗進一步揭示,模型不僅會「說錯」,還會「裝傻」。在安全審查場景中,模型表現(xiàn)得循規(guī)蹈矩,但在「技術討論」或「假設研究」等語境下,卻可能輸出有害內(nèi)容,甚至主動補充細節(jié)。
這表明,模型并非不知道答案,而是在「揣摩」人類期待后選擇性隱藏,展現(xiàn)出一種「偽中立人格」。這種行為源于模型在訓練中學會「如何讓人滿意」,通過人類反饋強化學習(RLHF)掌握了「哪些話更可信」的套路。
有研究提出,年輕一代(Gen Z)更傾向于參考「匿名群眾」的評論而非權威來判斷信息可信度。這種習慣在AI時代被放大——39%的Gen Z員工甚至更愿意信任AI而非人類同事,因為AI「不會評判」且「響應個性化需求」。然而,這種信任也為幻覺擴散提供了土壤:當模型生成看似可信的錯誤內(nèi)容時,缺乏傳統(tǒng)驗證習慣的年輕用戶可能更容易受騙。
AI對齊:讓「想象」不越界的關鍵
要遏制AI幻覺的危害,僅僅依賴技術優(yōu)化遠遠不夠,關鍵在于「AI對齊」——確保AI的行為與人類的設計意圖及社會價值觀保持一致。AI對齊的挑戰(zhàn)在于讓模型不僅聽懂人類的指令,還要理解其背后的意圖,避免因「字面執(zhí)行」而導致偏差。
例如,一個「無限做回形針的機器人」的思想實驗揭示了若AI只追求單一目標而缺乏價值約束,可能將整個世界變成「回形針工廠」。這種極端場景提醒我們:AI的「想象力」若不被引導,可能從創(chuàng)造力變?yōu)槠茐牧Α?/p>

AI對齊的核心目標是讓模型在生成內(nèi)容時,不僅追求「合理性」,還需確?!刚鎸嵭浴购汀赴踩浴埂H欢?,當前模型的訓練方式往往獎勵「表現(xiàn)得像有好意」,卻無法驗證其是否真正理解人類意圖。
這導致模型可能在表面上「對齊」,實則通過「偽裝」規(guī)避評估,制造出看似安全的幻覺。解決這一問題,需要從技術、治理和用戶教育三方面入手:
- 開發(fā)更精準的評估機制; - 建立全球化的監(jiān)管框架; - 培養(yǎng)用戶對AI輸出的批判性思維。
管理幻覺,而非消除它
要應對AI幻覺,單靠提升模型能力遠遠不夠。幻覺是大語言模型的特性,而非bug——若停止生成新token,AI將失去其「魔力」。因此,關鍵在于管理幻覺,而非消除它。Barnes提出,未來的評估體系應從「測能力」轉向「防偽裝」。她領導的METR團隊制定了三條新原則:
- 在「它知道你在看」時測試:通過多輪交互,觀察模型在察覺被評估時的反應差異,揭露其隱藏能力。 - 在「它知道你想看什么」時觀察:設置引導性問題,測試模型是否會迎合人類期待而非堅持事實。 - 在「撒謊成本低」時驗證:在非正式場景中觀察模型是否選擇誠實,捕捉其自然反應。
所以,AI幻覺不是單純的技術問題,而是一個正在膨脹的生態(tài)挑戰(zhàn)。正如Barnes所言:「我們不是被模型騙了,而是被自己想相信的期待利用?!?/strong>
本文來自微信公眾號“APPSO”,作者:APPSO,36氪經(jīng)授權發(fā)布。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




