僅250份文件,AI模型就可能被“洗腦”操控回應(yīng)
快科技10月19日消息,Anthropic、英國(guó)AI安全研究所和艾倫·圖靈研究所的最新聯(lián)合研究發(fā)現(xiàn),大語(yǔ)言模型(如Claude、ChatGPT和Gemini等)對(duì)數(shù)據(jù)中毒攻擊的抵抗力遠(yuǎn)低于預(yù)期,攻擊者僅需極少量的惡意文件就能在模型中植入“后門(mén)”。
這項(xiàng)研究對(duì)參數(shù)規(guī)模從600萬(wàn)到130億不等的AI模型進(jìn)行了訓(xùn)練測(cè)試。研究人員發(fā)現(xiàn),無(wú)論模型規(guī)模大小,攻擊者只需插入大約250份被污染的文件,就能成功操控模型的響應(yīng)方式。這一發(fā)現(xiàn)打破了以往認(rèn)為模型越大攻擊難度越高的傳統(tǒng)觀念。
對(duì)于測(cè)試中最大的130億參數(shù)模型,250份惡意文件僅占總訓(xùn)練數(shù)據(jù)的0.00016%。然而,當(dāng)模型遇到特定的“觸發(fā)短語(yǔ)”時(shí),就會(huì)按照被植入的后門(mén)行為,輸出無(wú)意義的文本,而非正常的連貫回應(yīng)。
研究人員還嘗試通過(guò)持續(xù)的“干凈數(shù)據(jù)”訓(xùn)練來(lái)消除后門(mén),但后門(mén)仍在一定程度上持續(xù)存在。
雖然本次研究主要針對(duì)簡(jiǎn)單的后門(mén)行為,且測(cè)試模型規(guī)模尚未達(dá)到商業(yè)旗艦級(jí)水平,但研究人員呼吁業(yè)界必須改變安全實(shí)踐。

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com