AIGC不僅會(huì)污染互聯(lián)網(wǎng) 還會(huì)嚴(yán)重威脅大模型開(kāi)發(fā)的未來(lái)
過(guò)去幾天有關(guān)“AI污染中文互聯(lián)網(wǎng)環(huán)境”的討論又重新熱鬧起來(lái),這個(gè)話題也帶出了另一個(gè)AI“終極命題”:如果世界上絕大部分內(nèi)容都依靠AI生成,屆時(shí)我們還能使用這些內(nèi)容訓(xùn)練出更“聰明”的AI大模型么?
先說(shuō)結(jié)論:情況將變得非常困難且棘手。在目前為數(shù)不多但頗受認(rèn)可的研究中,這種情況被稱為“遞歸的詛咒”:如果大模型的訓(xùn)練高度依賴AIGC內(nèi)容,將很容易出現(xiàn)“崩潰”的情形。
此話怎講?
雖然現(xiàn)在互聯(lián)網(wǎng)上能找到的文字大部分都是真人寫(xiě)的,但不可否認(rèn)的是,目前AIGC內(nèi)容正在以非常快的速度出現(xiàn)在廣告營(yíng)銷、流量資訊平臺(tái)以及各式各樣的數(shù)字載體中。從增量的角度來(lái)看,隨著大模型的應(yīng)用在未來(lái)半年、一年里開(kāi)花結(jié)果,AIGC內(nèi)容如潮水一般涌入互聯(lián)網(wǎng)平臺(tái)只是時(shí)間問(wèn)題。
科技的進(jìn)步從來(lái)不是單方面的祝福,往往也會(huì)伴隨著詛咒。
正如溫室氣體,以及人類向海洋里排放的各種奇奇怪怪物質(zhì),互聯(lián)網(wǎng)的“海洋”也在面臨類似的威脅。
牛津大學(xué)、劍橋大學(xué)、倫敦帝國(guó)學(xué)院、多倫多大學(xué)等機(jī)構(gòu)的研究人員近期在預(yù)印本平臺(tái)上發(fā)表的一篇論文,恰好就是論述這個(gè)話題的。
研究人員發(fā)現(xiàn),在使用AIGC內(nèi)容訓(xùn)練模型時(shí),會(huì)造成模型出現(xiàn)“不可逆的缺陷”,并且這種情況在變分自編碼器、高斯混合模型和大語(yǔ)言模型中都會(huì)出現(xiàn)。
同樣是內(nèi)容,為何AIGC的內(nèi)容會(huì)導(dǎo)致“模型崩潰”呢?
研究人員解釋稱:
模型崩潰是一種影響學(xué)習(xí)生成模型的退化過(guò)程,其中生成的數(shù)據(jù)最終會(huì)污染下一代模型的訓(xùn)練集;使用被污染數(shù)據(jù)進(jìn)行訓(xùn)練,會(huì)導(dǎo)致模型誤解現(xiàn)實(shí)。這里還有兩種特殊情況:早期模型崩潰和晚期模型崩潰。在早期模型崩潰中,模型開(kāi)始喪失關(guān)于分布尾部的信息;在晚期模型崩潰中,模型將原始分布的不同模式相互糾纏,并收斂到與原始模型相差甚遠(yuǎn)的分布,通常方差非常小。
這個(gè)過(guò)程與災(zāi)難性遺忘的過(guò)程不同,因?yàn)槲覀兛紤]的是隨時(shí)間推移的多個(gè)模型,這些模型不會(huì)忘記以前學(xué)習(xí)的數(shù)據(jù),而是開(kāi)始誤解他們認(rèn)為的真實(shí)。
考慮到大多數(shù)人可能看不太懂這兩段話,這篇論文的作者之一,牛津大學(xué)的Ilia Shumailov接受媒體采訪時(shí)舉了一個(gè)AIGC圖片的例子:假設(shè)在訓(xùn)練模型時(shí),使用了100張狗狗的照片,里面有90只狗狗有黃色眼睛,還有10只有綠色眼睛。由于數(shù)據(jù)集中黃眼睛狗狗的數(shù)量占據(jù)絕大多數(shù),那么這樣訓(xùn)練出的模型中,藍(lán)眼睛狗狗實(shí)際的顏色會(huì)變得更加綠(黃加藍(lán)=綠)一些。如果有人從互聯(lián)網(wǎng)上抓取這樣生成的圖片,重復(fù)進(jìn)行生成—抓取—訓(xùn)練的過(guò)程,將會(huì)導(dǎo)致模型識(shí)別藍(lán)眼睛狗狗的能力最終消失。這種對(duì)信息的喪失或扭曲,就是模型崩潰。
引申開(kāi)來(lái),這也引發(fā)了另一層競(jìng)爭(zhēng):先行的GPT模型們,可能會(huì)堵住后來(lái)者開(kāi)發(fā)更強(qiáng)大模型的路。或者說(shuō),想要“彎道超車(chē)”的后來(lái)者,需要花在可信賴數(shù)據(jù)上的時(shí)間和金錢(qián),將遠(yuǎn)遠(yuǎn)超越領(lǐng)跑的這一批科技巨頭。
研究人員總結(jié)稱,訓(xùn)練大語(yǔ)言模型的特質(zhì)預(yù)示著“先行者優(yōu)勢(shì)”的存在。這篇論文證明了使用AIGC語(yǔ)料訓(xùn)練會(huì)導(dǎo)致分布改變,以及模型崩潰。為了確保模型在長(zhǎng)期內(nèi)學(xué)習(xí)持續(xù)進(jìn)行,需要確保非AIGC語(yǔ)料的可及性。但目前為止,如何跟蹤和識(shí)別大模型生成內(nèi)容的機(jī)制尚不明確,如果繼續(xù)大規(guī)模地從互聯(lián)網(wǎng)上爬取數(shù)據(jù),訓(xùn)練新版本的大模型將變得原來(lái)越困難。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com