亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

OpenAI發(fā)現(xiàn)AI模型的隱藏特征:可以調(diào)節(jié)“毒性”行為

06-20 08:39

IT 世家 6 月 19 每日消息,根據(jù) OpenAI 一項(xiàng)新發(fā)布的研究,研究人員正在進(jìn)行人工智能(AI)在模型中發(fā)現(xiàn)了隱藏的特征,這些特征與模型的“行為問(wèn)題”(推薦統(tǒng)一術(shù)語(yǔ))密切相關(guān)。


OpenAI 研究者通過(guò)分析 AI 模型內(nèi)部表征(即決定如何對(duì)人工智能模型做出反應(yīng)的數(shù)字,這些數(shù)字在人類(lèi)眼中通常是完全不可理解的)發(fā)現(xiàn)了一些方法,在模型出現(xiàn)異常行為時(shí)會(huì)被激活。例如,研究人員發(fā)現(xiàn)了一個(gè)。 AI 與模型有害行為有關(guān)的特征, AI 模型可能會(huì)給出不恰當(dāng)?shù)拇鸢福热鐚?duì)用戶(hù)撒謊或者提出不負(fù)責(zé)任的建議。令人驚訝的是,通過(guò)調(diào)整這一特征,研究人員可以增加或減少這一特征。 AI 模型有毒。


OpenAI 這個(gè)最新的研究使他能更好地理解這個(gè)原因。 AI 模型行為不安全的因素,有助于開(kāi)發(fā)更安全的因素。 AI 模型。OpenAI 可解釋性研究員丹?莫辛(Dan Mossing)表示,公司可以利用這些發(fā)現(xiàn)方法更好地檢驗(yàn)生產(chǎn)中的生產(chǎn)。 AI 模型是否存在移位行為。


“我們希望我們學(xué)到的工具 —— 例如把復(fù)雜的情況簡(jiǎn)化為簡(jiǎn)單的數(shù)學(xué)計(jì)算。 —— 還可以幫助我們?cè)谄渌胤嚼斫饽P头夯芰??!蹦琳诮邮堋?TechCrunch 采訪中說(shuō)。


雖然 AI 研究人員知道如何改進(jìn)? AI 模型,但令人費(fèi)解的是,它們并不完全清楚。 AI 模型是如何得到答案的。Anthropic 的克里斯?奧拉(Chris Olah)常常指出,AI 模型更像是“生長(zhǎng)”,而非“建造”。為應(yīng)對(duì)這個(gè)問(wèn)題,OpenAI、谷歌 DeepMind 和 Anthropic 等待公司加大對(duì)可解釋性探索的投入,試圖揭開(kāi)這一領(lǐng)域 AI 模型工作原理的“黑箱”。


最近,牛津大學(xué) AI 歐文研究科學(xué)家?埃文斯(Owain Evans)一項(xiàng)研究引發(fā)了一項(xiàng)關(guān)于它的研究。 AI 模型泛化的新問(wèn)題。研究表明,OpenAI 該模型可在不安全的代碼上進(jìn)行微調(diào),并在多個(gè)領(lǐng)域表現(xiàn)出惡意行為,例如試圖引誘顧客共享他們的密碼。這一情況被稱(chēng)為“突然移位”,埃文斯的研究激發(fā)了它。 OpenAI 對(duì)這個(gè)問(wèn)題進(jìn)一步探索。


對(duì)突發(fā)移位進(jìn)行了研究,OpenAI 意外發(fā)現(xiàn)了 AI 模型中的一些特征似乎在控制模型行為方面起著重要的作用。莫辛說(shuō),這些模型讓人想起人腦中的神經(jīng)活動(dòng),其中一些與情緒和行為有關(guān)。


"當(dāng)?shù)ず退膱F(tuán)隊(duì)第一次在研究會(huì)上展示這一發(fā)現(xiàn)時(shí),我感到震驚。" OpenAI 前沿評(píng)估研究員特賈爾特?帕特瓦德漢(Tejal Patwardhan)在接受 TechCrunch 采訪中說(shuō):“每個(gè)人都發(fā)現(xiàn)了一種內(nèi)部神經(jīng)激活,它顯示了這些‘個(gè)人設(shè)計(jì)’,每個(gè)人都可以通過(guò)調(diào)整使模型更符合預(yù)期?!?/p>


OpenAI 發(fā)現(xiàn)的一些特征和 AI 模型回答中的諷刺行為有關(guān),而其他特征則與更具攻擊性的回復(fù)有關(guān)。在這種回復(fù)中,人工智能模型看起來(lái)像一個(gè)浮夸的邪惡反派。OpenAI 研究人員表示,這些特征在微調(diào)過(guò)程中可能會(huì)發(fā)生很大的變化。


值得注意的是,當(dāng)突然移位發(fā)生時(shí),研究人員發(fā)現(xiàn)模型可以通過(guò)只使用數(shù)百個(gè)安全代碼示例進(jìn)行微調(diào),這可能會(huì)使模型恢復(fù)良好的行為表現(xiàn)。


據(jù) IT 世家了解,OpenAI 最新的研究是這樣的 Anthropic 以前對(duì)可解釋性和對(duì)齊性進(jìn)行了研究。2024 年,Anthropic 發(fā)表了一項(xiàng)試圖繪制的研究。 AI 試圖確定和標(biāo)記各種負(fù)責(zé)不同概念的模型內(nèi)部工作機(jī)制的特點(diǎn)。


像 OpenAI 和 Anthropic 這類(lèi)公司正強(qiáng)調(diào),理解, AI 模型的工作原理具有真正的價(jià)值,而不僅僅是讓它們變得更好。但是,要充分了解現(xiàn)代 AI 模型,還有很長(zhǎng)的路要走。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com