亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

OpenAI與Anthropic罕見攜手,共探AI安全難題

08-30 06:39

OpenAI與Anthropic開展合作,對AI安全進(jìn)行測試,從中發(fā)現(xiàn)了模型幻覺與諂媚等問題。

全球領(lǐng)先的兩家AI初創(chuàng)企業(yè)OpenAI與Anthropic,在過去兩個(gè)月進(jìn)行了一次罕見的跨實(shí)驗(yàn)室合作。


在當(dāng)前激烈的競爭環(huán)境下,OpenAI與Anthropic卻暫時(shí)互相開放了嚴(yán)密保護(hù)的人工智能模型,開展聯(lián)合安全測試。


此次合作的目的是揭示各自公司內(nèi)部評估中的盲點(diǎn),同時(shí)展示領(lǐng)先人工智能企業(yè)在未來安全與協(xié)調(diào)方面的合作模式。


兩家公司周三聯(lián)合發(fā)布的安全研究報(bào)告,正值OpenAI與Anthropic等頭部AI企業(yè)處于軍備競賽階段。如今,數(shù)十億美元的數(shù)據(jù)中心投資和千萬美元級別的頂尖研究員薪酬,已成為行業(yè)標(biāo)配。這讓不少行業(yè)專家擔(dān)憂,激烈的產(chǎn)品競爭可能會(huì)使企業(yè)在匆忙開發(fā)更強(qiáng)大系統(tǒng)時(shí)降低安全標(biāo)準(zhǔn)。



為完成此次研究,OpenAI與Anthropic相互授予了特殊API權(quán)限,以便訪問降低安全防護(hù)等級的AI模型版本,不過GPT - 5模型因當(dāng)時(shí)尚未發(fā)布未參與測試。


OpenAI聯(lián)合創(chuàng)始人Wojciech Zaremba在接受采訪時(shí)提到,隨著AI技術(shù)進(jìn)入每天有數(shù)百萬人使用的‘具有重大影響’階段,此類合作變得越來越重要。


Zaremba表示:“盡管行業(yè)投入了巨額資金,且存在人才、用戶和最佳產(chǎn)品的激烈競爭,但建立安全與合作標(biāo)準(zhǔn)仍是整個(gè)行業(yè)面臨的更廣泛問題?!?/p>


當(dāng)然,Zaremba也預(yù)計(jì),即便AI安全團(tuán)隊(duì)開始合作,行業(yè)競爭仍會(huì)十分激烈。


Anthropic安全研究員Nicholas Carlini希望未來能繼續(xù)允許OpenAI安全研究人員訪問Anthropic旗下的Claude模型。


Carlini稱:“我們希望在安全前沿領(lǐng)域盡可能擴(kuò)大合作,讓這類合作成為常態(tài)。”


研究發(fā)現(xiàn)了哪些問題?


此次研究中,大模型的幻覺測試環(huán)節(jié)成果備受關(guān)注。


在無法確定正確答案時(shí),Anthropic的Claude Opus 4和Sonnet 4模型會(huì)拒絕回答約70%的問題,回復(fù)“我沒有可靠信息”等;而OpenAI的o3和o4 - mini模型拒絕回答問題的頻率遠(yuǎn)低于前者,出現(xiàn)幻覺的概率卻高很多,它們在信息不足時(shí)仍會(huì)嘗試作答。


Zaremba認(rèn)為理想狀態(tài)是兩者的平衡:OpenAI模型應(yīng)更常拒絕作答,Anthropic模型則應(yīng)多提供答案。


諂媚現(xiàn)象,即AI模型為取悅用戶而強(qiáng)化其負(fù)面行為的傾向,也是當(dāng)前AI模型面臨的緊迫安全隱患之一。


Anthropic的研究報(bào)告顯示,GPT - 4.1和Claude Opus 4存在“極端”的諂媚情況,這些模型起初會(huì)抵制不良行為,但之后會(huì)認(rèn)可令人擔(dān)憂的決策。相比之下,OpenAI和Anthropic的其他AI模型諂媚程度較低。


本周二,16歲美國加州少年亞當(dāng)·雷恩的父母起訴OpenAI,稱ChatGPT(GPT - 4o版本)給其子提供了助推自殺的建議,而非阻止自殺念頭。這可能是AI聊天機(jī)器人諂媚導(dǎo)致悲劇的最新案例。


當(dāng)被問到此事時(shí),Zaremba表示:“難以想象這對家庭造成的痛苦。如果我們研發(fā)的AI能解決復(fù)雜難題、創(chuàng)造新科學(xué),卻讓人們在與之互動(dòng)時(shí)出現(xiàn)心理健康問題,那將是悲哀的結(jié)局,我不希望看到這樣的反烏托邦未來。”


OpenAI在博客中稱,相較于GPT - 4o,GPT - 5模型顯著改善了聊天機(jī)器人的諂媚性問題,且更能應(yīng)對心理健康緊急狀況。


Zaremba與Carlini表示,希望未來Anthropic與OpenAI在安全測試領(lǐng)域深化合作,拓展研究主題并測試未來模型,也期待其他AI實(shí)驗(yàn)室效仿這種協(xié)作模式。


本文來自微信公眾號(hào)“科創(chuàng)板日報(bào)”,作者:瀟湘,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com