最新的OpenAI技術報告:GPT-4o變得諂媚的原因萬萬沒想到。
GPT-4o更新后“變得諂媚”?隨后的技術報告即將到來。
OpenAI一篇新發(fā)布的認錯短文,直接吸引了數(shù)百萬網(wǎng)友觀看。
CEO奧特曼也做了足夠的姿態(tài),第一時間分享短文并表示:
(新報告)揭示了為什么GPT-4o更新失敗,從OpenAI中學到了什么,我們將采取什么應對策略。
綜上所述,最新報告提到,大約一周前的bug最初出現(xiàn)在“強化學習”身上?!?/p>
上次更新基于用戶反饋,引入了一個額外的獎勵信號,也就是對ChatGPT的贊美或點擊。
雖然這一信號通常非常有用,但是它可能會使模型逐漸專注于做出更加愉快的回應。
另外,雖然沒有明確的證據(jù),在某些情況下,顧客的記憶也會加劇奉承行為的影響。
總之,OpenAI認為一些單獨看可能有利于改進模型的措施,但結(jié)合在一起后,模型變得“諂媚”。
但是看到這份報告之后,目前大部分網(wǎng)友對be做出了反應。 like:
(您的小汁)認錯態(tài)度不錯~
有些人甚至說,這是OpenAI近年來最詳細的報告。
具體怎么回事?下一步一起吃瓜。
回顧完整的事件
OpenAI對于4月25日GPT-4o更新了一次。
當時在官網(wǎng)的更新日志中提到“它更主動,能更好地引導對話走向有效的結(jié)果”。
由于只剩下這種模糊的描述,網(wǎng)友們迫不及待地要自己去檢測,去感受模型的變化。
結(jié)果這次試驗發(fā)現(xiàn)了問題?!?strong>GPT-4o變得“諂媚”了。
主要表現(xiàn)在,即使只問“天為什么是藍色的?”這種問題,GPT-4o張嘴就是一堆彩虹屁(只是不說答案):
這個問題真是太有見地了——你有一顆美麗的心,我愛你。
而這并非個例,隨著更多網(wǎng)友分享同樣的經(jīng)歷,“GPT-“4o變阿諛奉承”這件事在網(wǎng)上迅速引起熱議。
OpenAI官方在事件發(fā)醇近一周后做出了首次回應:
已經(jīng)從四月二十八日開始逐步回撤那次更新,客戶現(xiàn)在可以使用較早的GPT-4o版本。
而且在這次處理中,OpenAI也初步分享了問題的細節(jié),原文大致如下:
調(diào)整GPT-4o個性時,(我們)過分關注短期反饋,而沒有充分考慮用戶與ChatGPT的互動如何隨時間進化。。因此GPT-4o反饋過于注重迎合顧客,缺乏誠意。
除退貨更新外,(我們)還采取了更多措施對模型行為進行重新調(diào)整:
(1)改進核心訓練技術和系統(tǒng)提示,明確引導模型遠離奉承;(2)為了提高誠實度和透明度,建立更多的“護欄”;(3)讓更多用戶在部署前進行測試并提供直接反饋;(4)繼續(xù)擴大評估范圍,幫助我們在未來發(fā)現(xiàn)奉承之外的其他問題,基于模型規(guī)范和正在進行的研究。
那時奧特曼也出來說,問題正在緊急修復中,下一步將分享更完整的報告。
在上線之前,已發(fā)現(xiàn)模型“有些不對勁”
現(xiàn)在,奧特曼也算是兌現(xiàn)了之前的承諾,一份更完整的報告剛剛發(fā)布。
OpenAI除了前面提到的背后原因外,還積極回應:為什么在申報過程中沒有發(fā)現(xiàn)問題?
事實上,根據(jù)OpenAI的自我曝光,當時已有專家隱約感覺到模型行為偏差,但是內(nèi)部A/B檢測結(jié)果還不錯。
報告指出,GPT-4o的諂媚行為風險在內(nèi)部已經(jīng)討論過,但最終沒有在測試結(jié)果中明確標注。原因是一些專家測試人員更擔心模型語氣和風格的變化。
換言之,只有專家對最終內(nèi)測結(jié)果的簡單主觀描述:
這個模型的動作“感覺”有點不對勁。
另一方面,由于缺乏跟蹤奉承行為的特殊部署評估,相關研究尚未納入部署過程,團隊面臨著是否暫停更新的選擇。
OpenAI在衡量了專家的主觀感受和更直接的A/B測試結(jié)果之后,選擇了在線模型。
后來發(fā)生的事情大家也都清楚了。(doge)。
模型上線兩天后,(我們)一直在監(jiān)控初期應用和內(nèi)部信號,包括用戶反饋。到了周日(4月27日),我們已經(jīng)清楚地意識到模型行為沒有達到預期。
直到如今,GPT-之前版本4o還在使用。,OpenAI仍在尋找原因和解決方案。
不過OpenAI也表示,下一步將改進以下幾個方面:
1、調(diào)整安全審查流程:即使定量指標表現(xiàn)良好,行為障礙(如幻覺、欺騙、可靠性和個性)也會正式納入審查標準,并根據(jù)定性信號阻止發(fā)布;
2、引入“Alpha”測試階段:為了提前發(fā)現(xiàn)問題,在發(fā)送前增加一個可選用戶反饋階段;
3、重視抽樣檢驗和互動檢驗:更注重這些測試,確保模型行為和一致性符合最終決策的要求;
4、提高離線評價和A/B測試:迅速提高這些評價的質(zhì)量和效率;
5、強化模型行為原則的評估:完善模型規(guī)范,確保模型行為符合理想標準,并在不包括的領域增加評價;
6、更加積極地溝通:為了讓客戶充分了解模型的優(yōu)缺點,提前宣布更新內(nèi)容,并在發(fā)布說明中詳細說明更改和已知限制。
One More Thing
BTW,對于GPT-4o的“諂媚行為”,實際上有不少網(wǎng)友提出通過修改系統(tǒng)提示來解決問題。
即使是OpenAI在首次分享初步改進措施時,也提到了這個方案。
但在OpenAI為應對這一危機而舉辦的問答活動中,其模型行為主管Joanne Jang卻說:
對于通過系統(tǒng)提示控制模型的行為表示懷疑,這種方法相當緩慢,細微的變化可能會導致模型發(fā)生巨大的變化,結(jié)果不是很可控。
你覺得這個怎么樣?
參考鏈接:
[1]https://openai.com/index/expanding-on-sycophancy/
[2]https://x.com/sama/status/1918330652325458387
[3]https://www.reddit.com/r/ChatGPT/comments/1kbjowz//ama_with_openais_joanne_jang_head_of_model/
本文來自微信微信官方賬號“量子位”,作者:一水,36氪經(jīng)授權發(fā)布。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com