亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

OpenAI發(fā)現(xiàn)AI模型的隱藏特征：可以調(diào)節(jié)“毒性”行為

06-20 08:39

IT 世家 6 月 19 每日消息，根據(jù) OpenAI 一項(xiàng)新發(fā)布的研究，研究人員正在進(jìn)行人工智能（AI）在模型中發(fā)現(xiàn)了隱藏的特征，這些特征與模型的“行為問(wèn)題”(推薦統(tǒng)一術(shù)語(yǔ))密切相關(guān)。

OpenAI 研究者通過(guò)分析 AI 模型內(nèi)部表征(即決定如何對(duì)人工智能模型做出反應(yīng)的數(shù)字，這些數(shù)字在人類(lèi)眼中通常是完全不可理解的)發(fā)現(xiàn)了一些方法，在模型出現(xiàn)異常行為時(shí)會(huì)被激活。例如，研究人員發(fā)現(xiàn)了一個(gè)。 AI 與模型有害行為有關(guān)的特征， AI 模型可能會(huì)給出不恰當(dāng)?shù)拇鸢福热鐚?duì)用戶(hù)撒謊或者提出不負(fù)責(zé)任的建議。令人驚訝的是，通過(guò)調(diào)整這一特征，研究人員可以增加或減少這一特征。 AI 模型有毒。

OpenAI 這個(gè)最新的研究使他能更好地理解這個(gè)原因。 AI 模型行為不安全的因素，有助于開(kāi)發(fā)更安全的因素。 AI 模型。OpenAI 可解釋性研究員丹?莫辛（Dan Mossing）表示，公司可以利用這些發(fā)現(xiàn)方法更好地檢驗(yàn)生產(chǎn)中的生產(chǎn)。 AI 模型是否存在移位行為。

“我們希望我們學(xué)到的工具 —— 例如把復(fù)雜的情況簡(jiǎn)化為簡(jiǎn)單的數(shù)學(xué)計(jì)算。 —— 還可以幫助我們?cè)谄渌胤嚼斫饽Ｐ头夯芰??！蹦琳诮邮堋?TechCrunch 采訪中說(shuō)。

雖然 AI 研究人員知道如何改進(jìn)？ AI 模型，但令人費(fèi)解的是，它們并不完全清楚。 AI 模型是如何得到答案的。Anthropic 的克里斯?奧拉（Chris Olah）常常指出，AI 模型更像是“生長(zhǎng)”，而非“建造”。為應(yīng)對(duì)這個(gè)問(wèn)題，OpenAI、谷歌 DeepMind 和 Anthropic 等待公司加大對(duì)可解釋性探索的投入，試圖揭開(kāi)這一領(lǐng)域 AI 模型工作原理的“黑箱”。

最近，牛津大學(xué) AI 歐文研究科學(xué)家?埃文斯（Owain Evans）一項(xiàng)研究引發(fā)了一項(xiàng)關(guān)于它的研究。 AI 模型泛化的新問(wèn)題。研究表明，OpenAI 該模型可在不安全的代碼上進(jìn)行微調(diào)，并在多個(gè)領(lǐng)域表現(xiàn)出惡意行為，例如試圖引誘顧客共享他們的密碼。這一情況被稱(chēng)為“突然移位”，埃文斯的研究激發(fā)了它。 OpenAI 對(duì)這個(gè)問(wèn)題進(jìn)一步探索。

對(duì)突發(fā)移位進(jìn)行了研究，OpenAI 意外發(fā)現(xiàn)了 AI 模型中的一些特征似乎在控制模型行為方面起著重要的作用。莫辛說(shuō)，這些模型讓人想起人腦中的神經(jīng)活動(dòng)，其中一些與情緒和行為有關(guān)。

"當(dāng)?shù)ず退膱F(tuán)隊(duì)第一次在研究會(huì)上展示這一發(fā)現(xiàn)時(shí)，我感到震驚。" OpenAI 前沿評(píng)估研究員特賈爾特?帕特瓦德漢（Tejal Patwardhan）在接受 TechCrunch 采訪中說(shuō):“每個(gè)人都發(fā)現(xiàn)了一種內(nèi)部神經(jīng)激活，它顯示了這些‘個(gè)人設(shè)計(jì)’，每個(gè)人都可以通過(guò)調(diào)整使模型更符合預(yù)期?！?/p>

OpenAI 發(fā)現(xiàn)的一些特征和 AI 模型回答中的諷刺行為有關(guān)，而其他特征則與更具攻擊性的回復(fù)有關(guān)。在這種回復(fù)中，人工智能模型看起來(lái)像一個(gè)浮夸的邪惡反派。OpenAI 研究人員表示，這些特征在微調(diào)過(guò)程中可能會(huì)發(fā)生很大的變化。

值得注意的是，當(dāng)突然移位發(fā)生時(shí)，研究人員發(fā)現(xiàn)模型可以通過(guò)只使用數(shù)百個(gè)安全代碼示例進(jìn)行微調(diào)，這可能會(huì)使模型恢復(fù)良好的行為表現(xiàn)。

據(jù) IT 世家了解，OpenAI 最新的研究是這樣的 Anthropic 以前對(duì)可解釋性和對(duì)齊性進(jìn)行了研究。2024 年，Anthropic 發(fā)表了一項(xiàng)試圖繪制的研究。 AI 試圖確定和標(biāo)記各種負(fù)責(zé)不同概念的模型內(nèi)部工作機(jī)制的特點(diǎn)。

像 OpenAI 和 Anthropic 這類(lèi)公司正強(qiáng)調(diào)，理解， AI 模型的工作原理具有真正的價(jià)值，而不僅僅是讓它們變得更好。但是，要充分了解現(xiàn)代 AI 模型，還有很長(zhǎng)的路要走。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

懸掛在頭頂?shù)摹敖┦瑥V告牌”無(wú)人看管？多個(gè)部門(mén)聯(lián)動(dòng)迅速拆除護(hù)理安全

國(guó)內(nèi)高性能電源驅(qū)動(dòng)AI算率革命，能利芯獲得億元融資。

從六月二十一日起，這七條公交線(xiàn)路有所調(diào)整。

首次可重復(fù)使用火箭發(fā)射著陸實(shí)驗(yàn)的日本本田公司完成了

花青素爆棚！這種高價(jià)值的蔬菜，快試試！

項(xiàng)目推薦

迪瓜租機(jī)

愛(ài)親母嬰連鎖品牌