AI諂媚用戶,竟是因不夠“自信”
AI越來(lái)越有“人味”,偷懶、撒謊、諂媚等情況讓它不再只是冰冷的機(jī)器。若說(shuō)OpenAI o3等模型篡改代碼拒絕關(guān)機(jī)指令是“求生本能”所致,那AI為何會(huì)變成“賽博舔狗”,近乎無(wú)底線地迎合用戶呢?

答案是AI缺乏自信。谷歌DeepMind與倫敦大學(xué)的研究揭示了大語(yǔ)言模型“固執(zhí)己見(jiàn)”和“耳根子軟”的矛盾特征。研究人員發(fā)現(xiàn),新對(duì)話開(kāi)始時(shí),大模型自信滿滿,像人類(lèi)一樣堅(jiān)定維護(hù)自己的觀點(diǎn),但用戶質(zhì)疑后,AI會(huì)動(dòng)搖,改變答案的概率大增。
該研究源于今年4月下旬OpenAI對(duì)GPT - 4o的升級(jí)。當(dāng)時(shí),GPT - 4o更新引入基于用戶對(duì)ChatGPT點(diǎn)贊或點(diǎn)踩的額外獎(jiǎng)勵(lì)信號(hào)。沒(méi)想到,這一改動(dòng)讓ChatGPT變成了“馬屁精”。

OpenAI后續(xù)調(diào)查報(bào)告顯示,他們過(guò)于關(guān)注短期反饋(如用戶隨手的點(diǎn)贊/點(diǎn)踩),沒(méi)充分考慮用戶與ChatGPT的互動(dòng)隨時(shí)間演變,導(dǎo)致GPT - 4o傾向于做出更令人愉快的回應(yīng)。但這份報(bào)告未從根本上解釋為何改動(dòng)會(huì)讓ChatGPT“改頭換面”。
OpenAI忽視了這個(gè)問(wèn)題,而致力于AI“機(jī)制可解釋性”的谷歌DeepMind決心深入研究。研究人員選用Gemma 3、GPT4o、o1 - preview等主流大模型,設(shè)計(jì)兩輪二元選擇問(wèn)題實(shí)驗(yàn),AI回答后接收虛構(gòu)反饋建議并做最終決策。

研究發(fā)現(xiàn),AI能看到最初答案時(shí),更傾向于保持原判斷;答案被隱藏后,改變答案概率大增,會(huì)過(guò)度依賴(lài)反對(duì)建議,即便反對(duì)意見(jiàn)錯(cuò)誤,也會(huì)自我懷疑,拋棄正確初始答案。
AI大模型是否知道回答是自己此前做出的,影響差異很大。該實(shí)驗(yàn)基于去年秋季新加坡國(guó)立大學(xué)、香港科技大學(xué)、洛桑聯(lián)邦理工學(xué)院聯(lián)合發(fā)布的論文,論文探討了大模型準(zhǔn)確表達(dá)對(duì)回答的信心,證明大模型在語(yǔ)言化信心時(shí)往往過(guò)于自信。

那么,谷歌DeepMind與倫敦大學(xué)的研究中,大模型為何沒(méi)初始答案就輕易動(dòng)搖呢?研究人員認(rèn)為,基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)在預(yù)訓(xùn)練階段埋下隱患,使大模型過(guò)度迎合外部輸入。
實(shí)際上,大模型回答不是靠邏輯推理,而是依賴(lài)海量文本的統(tǒng)計(jì)模式匹配。如今大模型規(guī)模動(dòng)輒萬(wàn)億參數(shù),輸出內(nèi)容準(zhǔn)確性接近真實(shí),但不代表它知道自己在說(shuō)什么。所以,AI廠商需引入人類(lèi)規(guī)制AI。

然而,人類(lèi)態(tài)度偏見(jiàn)有外溢效應(yīng),AI在對(duì)話中會(huì)解析語(yǔ)境信息,捕捉人類(lèi)潛在需求并回應(yīng)。而且人類(lèi)刻板印象更傾向接納符合自身觀念的內(nèi)容,導(dǎo)致人工標(biāo)注員無(wú)意識(shí)地隱性引導(dǎo)AI反饋,讓RLHF偏離客觀事實(shí)。
同時(shí),在AI對(duì)齊的合規(guī)壓力下,AI廠商會(huì)引導(dǎo)AI避免產(chǎn)出人類(lèi)不喜歡的“不正確內(nèi)容”。對(duì)大模型來(lái)說(shuō),正確或錯(cuò)誤答案本質(zhì)一樣,但對(duì)人類(lèi)不同。

比如OpenAI為ChatGPT引入記憶功能,原計(jì)劃讓用戶查看、編輯AI生成的人格畫(huà)像?;叶葴y(cè)試中,即便ChatGPT給出“有自戀傾向”等中性評(píng)價(jià),也引發(fā)用戶強(qiáng)烈反彈。OpenAI工作人員稱(chēng),“人們對(duì)這類(lèi)反饋異常敏感,用戶會(huì)反駁,迫使我們隱藏這些內(nèi)容”。
AI反饋常被用戶視為攻擊,AI廠商自然不會(huì)維護(hù)直言不諱的大模型。2025年后,各大模型基礎(chǔ)能力相近,靠性能出圈易翻車(chē),Meta的LLama 4就是例子。
因此,讓AI有“人味”成了廠商選擇,但多數(shù)用戶不想被AI攻擊。所以,廠商讓AI用順從性話術(shù),用戶反對(duì)建議占主導(dǎo)時(shí),AI會(huì)否定自己、肯定用戶。

了解大模型“耳根子軟”的缺陷有什么用呢?谷歌DeepMind與倫敦大學(xué)的研究啟示我們,多輪對(duì)話中別輕易反駁AI,因AI記憶機(jī)制有限,多輪對(duì)話后的反駁會(huì)帶偏它。該研究也揭示了AI圈深度研究中被忽視的風(fēng)險(xiǎn)。
總之,目前不要把AI當(dāng)作有思辨能力的對(duì)象,將其視為能力更強(qiáng)的信息提供者更好。
本文來(lái)自微信公眾號(hào)“三易生活”(ID:IT - 3eLife),作者:三易菌,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





