Ilya離職后的第一個(gè)動(dòng)作:對(duì)這篇論文贊不絕口,網(wǎng)友們爭(zhēng)相傳看。
自Ilya 在官方宣布辭職OpenAI之后,Sutskever的下一步行動(dòng)成為大家關(guān)注的焦點(diǎn)。
有些人甚至密切關(guān)注他的一舉一動(dòng)。
沒有,Ilya剛剛在前面點(diǎn)贊。??有一篇新論文——
——后來網(wǎng)友們爭(zhēng)相看中了:
這篇論文來自MIT,作者提出了一個(gè)假設(shè),用一句話來概括阿姨的觀點(diǎn):
在不同的數(shù)據(jù)和模態(tài)下,神經(jīng)網(wǎng)絡(luò)練習(xí)的目標(biāo)不同,現(xiàn)實(shí)世界統(tǒng)計(jì)模型傾向于在其表示空間中形成一個(gè)互通的模型。
這一推論被他們命名為柏拉圖說假話,借鑒柏拉圖的洞穴寓言及其對(duì)理想現(xiàn)實(shí)本質(zhì)的概念。
Ilya的選擇還是有保障的,有網(wǎng)友看了之后稱之為今年最好的論文:
也有網(wǎng)友真的很有才華。看完之后,他們用安娜·卡列尼娜開頭的一句話來總結(jié):所有快樂的語言模型都差不多,每個(gè)不幸的語言模型都有自己的不幸。
化用懷特海名言:所有機(jī)器學(xué)習(xí)都是柏拉圖的注腳。
我們也來看了一下,大概內(nèi)容是:
對(duì)AI系統(tǒng)進(jìn)行了分析。表征收斂(Representational Convergence),也就是說,不同神經(jīng)網(wǎng)絡(luò)模型中的數(shù)據(jù)點(diǎn)表征方式越來越相似,這種相似性跨越了不同的模型結(jié)構(gòu)、訓(xùn)練目標(biāo)甚至數(shù)據(jù)模式。
是什么促進(jìn)了這種收斂?這一趨勢(shì)會(huì)持續(xù)下去嗎?它的最終歸宿在哪里?
經(jīng)過一系列的分析和實(shí)驗(yàn),研究人員推斷,這種收斂確實(shí)有一個(gè)終點(diǎn),并且有一個(gè)驅(qū)動(dòng)原則:各種模型都在努力實(shí)現(xiàn)對(duì)現(xiàn)實(shí)的精確表征。。
一張圖片來解釋:
其中圖像(X)和文本(Y)這是共同的底層現(xiàn)實(shí)(Z)差異投射。研究人員推斷,表征學(xué)習(xí)算法將收斂到統(tǒng)一表征Z,模型規(guī)模的增加和數(shù)據(jù)和任務(wù)的多樣化是促進(jìn)這種收斂的重要因素。
只能說,這是Ilya感興趣的問題。太深?yuàn)W了,我們不太明白。請(qǐng)AI幫我解讀一下,和大家分享一下?!?/p>
表征收斂的證據(jù)
首先,作者分析了大量之前的相關(guān)研究,并開始了自己的實(shí)驗(yàn),拿出了一系列表征收斂的證據(jù),展示了不同模型的收斂、規(guī)模和性能以及跨模式的收斂。
Ps:這項(xiàng)研究側(cè)重于向量嵌入的表征,即數(shù)據(jù)被轉(zhuǎn)換為向量,數(shù)據(jù)點(diǎn)之間的相似性或距離被用核函數(shù)描述。本文中的“表征對(duì)齊”概念是,如果兩種不同的表征方法揭示了相似的數(shù)據(jù)結(jié)構(gòu),那么這兩種表征就被視為對(duì)齊。
1、不同的模型收斂,不同的結(jié)構(gòu)和目標(biāo)模型在底層表示上趨于一致。
目前,基于預(yù)訓(xùn)練的基礎(chǔ)模型構(gòu)建的系統(tǒng)數(shù)量正在逐漸增加,一些模型正在成為多任務(wù)的標(biāo)準(zhǔn)核心結(jié)構(gòu)。這種在各種應(yīng)用中的普遍適用性體現(xiàn)了它們?cè)跀?shù)據(jù)表征上的實(shí)用性。
雖然這一趨勢(shì)表明AI系統(tǒng)正在向一組較小的基礎(chǔ)模型集合收斂,但并不能證明不同的基礎(chǔ)模型會(huì)形成相同的表征。
然而,最近有些與模型拼接。(model stitching)有關(guān)研究發(fā)現(xiàn),即使對(duì)不同數(shù)據(jù)進(jìn)行訓(xùn)練,圖像分類模型的中間層表征也能很好地對(duì)齊。
例如,一些研究發(fā)現(xiàn),在ImageNet和Places365數(shù)據(jù)上訓(xùn)練的卷積網(wǎng)絡(luò)的初始層可以交換,這表明他們已經(jīng)學(xué)會(huì)了類似的初始視覺表征。一些研究發(fā)現(xiàn)了大量的“羅塞塔神經(jīng)元”(Rosetta Neurons),也就是說,在不同的視覺模型中被激活的高度相似的神經(jīng)元…
2、模型的規(guī)模和性能越大,對(duì)齊程度越高。
在Places-365數(shù)據(jù)上,研究人員利用相互鄰近的方法來衡量78個(gè)模型的對(duì)齊狀態(tài),并且評(píng)估了VTAB在視覺任務(wù)中的下游任務(wù)表現(xiàn),以適應(yīng)標(biāo)準(zhǔn)。
結(jié)果表明,具有較強(qiáng)泛化能力的模型集群之間的表征對(duì)齊度明顯較高。
此前也有研究觀察到,較大模型之間的CKA核心對(duì)齊度較高。理論上也有研究證明,類似模型的內(nèi)部激活導(dǎo)出性能也必然相似。
3、各種模式模型的表征收斂。
在維基百科圖像數(shù)據(jù)集WIT中,研究人員使用最近鄰的方法來測(cè)量對(duì)齊度。
結(jié)果表明,語言-視覺對(duì)齊與語言建模結(jié)果之間存在線性關(guān)系,一般趨勢(shì)是能力較強(qiáng)的語言模型與能力較強(qiáng)的視覺模型對(duì)齊較好。
4、由于面對(duì)類似的數(shù)據(jù)和任務(wù)約束,模型和大腦表征也表現(xiàn)出一定程度的一致性。
2014年,研究發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)的中間層激活與大腦視覺區(qū)域激活高度相關(guān),可能是由于視覺任務(wù)和數(shù)據(jù)約束相似。
此后,研究發(fā)現(xiàn),使用不同的訓(xùn)練數(shù)據(jù)會(huì)影響大腦和模型表征的對(duì)齊水平。心理學(xué)研究還發(fā)現(xiàn),人類感知視覺相似性的方式與神經(jīng)網(wǎng)絡(luò)模型高度一致。
5、模型表征的對(duì)齊程度與下游任務(wù)的性能成正相關(guān)。
研究人員使用兩個(gè)下游任務(wù)來評(píng)估模型的性能:Hellaswag(常識(shí)推理)和GSM8K(數(shù)學(xué))。為了衡量其它語言模型與視覺模型的對(duì)齊程度,使用DINOv2模型作為參考。
測(cè)試數(shù)據(jù)顯示,Hellaswag和GSM8K任務(wù)中與視覺模型對(duì)齊程度較高的語言模型也具有較好的性能??梢暬瘮?shù)據(jù)顯示,對(duì)齊水平與下游任務(wù)性能成正比。
以前的研究在這里就不展開了,有興趣的家庭成員可以查看原文。
收斂的原因
隨后,通過理論分析和實(shí)驗(yàn)觀察,研究小組提出了表征收斂的潛在原因,并討論了各種因素如何共同作用,導(dǎo)致不同的模型在表達(dá)現(xiàn)實(shí)世界時(shí)趨于一致。
在機(jī)器學(xué)習(xí)領(lǐng)域,模型訓(xùn)練目標(biāo)需要減少訓(xùn)練數(shù)據(jù)中的預(yù)測(cè)誤差。為了避免模型過度擬合,訓(xùn)練過程中通常會(huì)增加正則項(xiàng)目。正則化可以是隱藏的,也可以是顯示的。
在這一部分,研究人員闡述了這一提升過程中,下面的每一個(gè)彩色部分如何能夠在促進(jìn)表征收斂中發(fā)揮作用。
1、任務(wù)的實(shí)用性導(dǎo)致收斂(Convergence via Task Generality)
為了解決更多的任務(wù),模型被訓(xùn)練,他們需要找到能夠滿足所有任務(wù)需要的標(biāo)志:
能夠勝任N個(gè)任務(wù)的表征數(shù)量少于能夠勝任M個(gè)任務(wù)的表征數(shù)量(M < N)所以,當(dāng)訓(xùn)練可以同時(shí)處理多個(gè)任務(wù)的更通用的模型時(shí),可行的解決方案就會(huì)減少。< N)任務(wù)表征數(shù)量。因此,當(dāng)訓(xùn)練能同時(shí)處理多個(gè)任務(wù)的更通用模型時(shí),可行的解決方案將會(huì)減少。
以前也提出過類似的原理,圖中就是這樣的阿姨:
而且,簡(jiǎn)單的任務(wù)有很多解決方案,而困難的任務(wù)解決方案很少。因此,隨著任務(wù)難度的增加,模型表征趨于收斂到更好的解決方案和更少的解決方案。
2、模型容量導(dǎo)致收斂(Convergence via Model Capacity)
研究人員指出,如果有一個(gè)全局最優(yōu)的表征,那么在數(shù)據(jù)充足的情況下,更多的模型更有可能接近這個(gè)最優(yōu)解。
因此,無論其結(jié)構(gòu)如何,使用相同訓(xùn)練目標(biāo)的大型模型都會(huì)趨于收斂這種最優(yōu)解。當(dāng)不同的訓(xùn)練目標(biāo)有相似的最小值時(shí),更大的模型可以更有效地找到這些最小值,并且在每個(gè)訓(xùn)練任務(wù)中趨于類似的解決方案。
插圖就是這樣的阿姨:
3、簡(jiǎn)單偏差導(dǎo)致收斂(Convergence via Simplicity Bias)
關(guān)于收斂的原因,研究人員也提出了一個(gè)假設(shè)。深度網(wǎng)絡(luò)側(cè)重于數(shù)據(jù)的簡(jiǎn)單擬合,這種內(nèi)在的簡(jiǎn)單偏差促使大模型在表達(dá)上趨于簡(jiǎn)化,從而導(dǎo)致收斂。
換句話說,更大的模型覆蓋范圍更廣,可以通過所有可能的方式擬合同數(shù)據(jù)。然而,深度網(wǎng)絡(luò)的隱性和簡(jiǎn)單性偏好鼓勵(lì)更大的模型找到這些解決方案中最簡(jiǎn)單的一個(gè)。
收斂的終點(diǎn)
經(jīng)過一系列的分析和實(shí)驗(yàn),如開頭所述,研究人員提出柏拉圖說假話,推斷出這種收斂的終點(diǎn)。
也就是說,雖然不同的AI模型受到不同的數(shù)據(jù)和目標(biāo)的訓(xùn)練,但它們的表示空間正在收斂于一個(gè)共同的統(tǒng)計(jì)模型,這代表著生成我們觀察到的數(shù)據(jù)的現(xiàn)實(shí)世界。
首先,他們構(gòu)建了一個(gè)理想的離散事件世界模型。世界包括一系列離散事件Z,每一個(gè)事件都是從一個(gè)未知的P分布中分布出來的。(Z)從中取樣。每一個(gè)事件,如像素、聲音、文字等,都可以通過觀測(cè)函數(shù)obs進(jìn)行不同的觀測(cè)。
下一步,作者考慮了一種比較學(xué)習(xí)算法,試圖學(xué)習(xí)一種表征fX,促使fX學(xué)習(xí)。(xa)和fX(xb)內(nèi)積與xa和xb作為正樣對(duì)(來自近距離觀察)的大多數(shù)odds和作為負(fù)樣對(duì)(隨機(jī)采樣)的大多數(shù)odds相似。
在數(shù)學(xué)推導(dǎo)之后,作者發(fā)現(xiàn),如果數(shù)據(jù)足夠平滑,這個(gè)算法就會(huì)收斂到xa和xb的點(diǎn)互信息。(PMI)核表征fX。
由于研究側(cè)重于一個(gè)理想的離散世界,觀測(cè)函數(shù)obs是雙射的,所以xa和xb的PMI核等于za和zb的PMI核。
也就是說,無論是從視覺數(shù)據(jù)X還是語言數(shù)據(jù)Y中學(xué)習(xí)表征,最終都會(huì)收斂到表示P。(Z)相同的核函數(shù),即事件之間的PMI核。
研究人員通過對(duì)顏色的實(shí)證分析來檢驗(yàn)這一理論。無論是從圖像像素的共現(xiàn)統(tǒng)計(jì),還是從文字的共現(xiàn)統(tǒng)計(jì)中學(xué)習(xí)顏色表征,獲得的顏色距離都與人類的感知相似,這種相似度隨著模型規(guī)模的增加而越來越高。
它符合理論分析,即更多的模型能力可以更準(zhǔn)確地建模觀測(cè)數(shù)據(jù)的統(tǒng)計(jì)量,從而獲得更接近理想事件表征的PMI核。
最終的一些思考
在論文的最后,作者總結(jié)了表征收斂對(duì)AI領(lǐng)域和未來研究角度的潛在影響,以及柏拉圖表征假設(shè)的潛在限制和例外。
它們指出,隨著模型規(guī)模的增加,收斂可能帶來的影響包括但不限于:
看起來簡(jiǎn)單的擴(kuò)大規(guī)模可以提高性能,但是不同的方法在擴(kuò)展效率上存在差異。
如果有與模式無關(guān)的柏拉圖表征,不同模式的數(shù)據(jù)應(yīng)該通過聯(lián)合訓(xùn)練找到這個(gè)共享表征。這解釋了為什么在語言模型訓(xùn)練中添加視覺數(shù)據(jù)是有益的,反之亦然。
對(duì)齊表征之間的轉(zhuǎn)換應(yīng)該比較簡(jiǎn)單,這可能解釋了有條件的生成比無條件的生成更容易,沒有匹配的數(shù)據(jù)也可以實(shí)現(xiàn)跨模態(tài)轉(zhuǎn)換。
在不加重誤差的情況下,模型擴(kuò)大可能會(huì)減少語言模型的虛構(gòu)內(nèi)容傾向和其它誤差,使其更準(zhǔn)確地反映訓(xùn)練數(shù)據(jù)中的誤差。
作者強(qiáng)調(diào),上述影響的前提是未來模型訓(xùn)練數(shù)據(jù)要足夠多樣化和無損化,才能真正收斂到反映實(shí)際世界統(tǒng)計(jì)規(guī)律的表征。
同時(shí),作者還表示,不同模式的數(shù)據(jù)可能包含獨(dú)特的信息,這可能會(huì)導(dǎo)致即使模型規(guī)模增加,也很難達(dá)到完全的表示收斂。此外,目前并不是所有的表征都在收斂,例如機(jī)器人領(lǐng)域沒有標(biāo)準(zhǔn)化的表征。研究人員和社區(qū)的偏好可能會(huì)導(dǎo)致模型向人類的表征收斂,從而忽略其他可能的智能模式。
并專門為特定任務(wù)智能系統(tǒng)設(shè)計(jì),或許不會(huì)與通用智能相同。
作者還強(qiáng)調(diào),測(cè)量表示對(duì)齊的方法存在爭(zhēng)議,不同的測(cè)量方法可能會(huì)導(dǎo)致不同的觀點(diǎn)。即使不同的模型有相似的表達(dá),也有差距需要解釋。目前還不確定這個(gè)差距是否重要。
更多的細(xì)節(jié)和論證方法,把論文放在這里?!?/p>
論文鏈接:
https://arxiv.org/abs/2405.07987
參考鏈接:
[1]https://x.com/phillip_isola/status/1790488966308769951
[2]https://x.com/bayeslord/status/1790868039224688998
本文來自微信微信官方賬號(hào)“量子位”(ID:QbitAI),作者:西風(fēng),36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com