亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

Ilya離職后的第一個(gè)動(dòng)作:對(duì)這篇論文贊不絕口,網(wǎng)友們爭(zhēng)相傳看。

2024-05-20

自Ilya 在官方宣布辭職OpenAI之后,Sutskever的下一步行動(dòng)成為大家關(guān)注的焦點(diǎn)。


有些人甚至密切關(guān)注他的一舉一動(dòng)。


沒有,Ilya剛剛在前面點(diǎn)贊。??有一篇新論文——


——后來網(wǎng)友們爭(zhēng)相看中了:


這篇論文來自MIT,作者提出了一個(gè)假設(shè),用一句話來概括阿姨的觀點(diǎn):


在不同的數(shù)據(jù)和模態(tài)下,神經(jīng)網(wǎng)絡(luò)練習(xí)的目標(biāo)不同,現(xiàn)實(shí)世界統(tǒng)計(jì)模型傾向于在其表示空間中形成一個(gè)互通的模型



這一推論被他們命名為柏拉圖說假話,借鑒柏拉圖的洞穴寓言及其對(duì)理想現(xiàn)實(shí)本質(zhì)的概念。


Ilya的選擇還是有保障的,有網(wǎng)友看了之后稱之為今年最好的論文:


也有網(wǎng)友真的很有才華。看完之后,他們用安娜·卡列尼娜開頭的一句話來總結(jié):所有快樂的語言模型都差不多,每個(gè)不幸的語言模型都有自己的不幸。


化用懷特海名言:所有機(jī)器學(xué)習(xí)都是柏拉圖的注腳。


我們也來看了一下,大概內(nèi)容是:


對(duì)AI系統(tǒng)進(jìn)行了分析。表征收斂(Representational Convergence),也就是說,不同神經(jīng)網(wǎng)絡(luò)模型中的數(shù)據(jù)點(diǎn)表征方式越來越相似,這種相似性跨越了不同的模型結(jié)構(gòu)、訓(xùn)練目標(biāo)甚至數(shù)據(jù)模式。


是什么促進(jìn)了這種收斂?這一趨勢(shì)會(huì)持續(xù)下去嗎?它的最終歸宿在哪里?


經(jīng)過一系列的分析和實(shí)驗(yàn),研究人員推斷,這種收斂確實(shí)有一個(gè)終點(diǎn),并且有一個(gè)驅(qū)動(dòng)原則:各種模型都在努力實(shí)現(xiàn)對(duì)現(xiàn)實(shí)的精確表征。。


一張圖片來解釋:


其中圖像(X)和文本(Y)這是共同的底層現(xiàn)實(shí)(Z)差異投射。研究人員推斷,表征學(xué)習(xí)算法將收斂到統(tǒng)一表征Z,模型規(guī)模的增加和數(shù)據(jù)和任務(wù)的多樣化是促進(jìn)這種收斂的重要因素。


只能說,這是Ilya感興趣的問題。太深?yuàn)W了,我們不太明白。請(qǐng)AI幫我解讀一下,和大家分享一下?!?/p>


表征收斂的證據(jù)


首先,作者分析了大量之前的相關(guān)研究,并開始了自己的實(shí)驗(yàn),拿出了一系列表征收斂的證據(jù),展示了不同模型的收斂、規(guī)模和性能以及跨模式的收斂。


Ps:這項(xiàng)研究側(cè)重于向量嵌入的表征,即數(shù)據(jù)被轉(zhuǎn)換為向量,數(shù)據(jù)點(diǎn)之間的相似性或距離被用核函數(shù)描述。本文中的“表征對(duì)齊”概念是,如果兩種不同的表征方法揭示了相似的數(shù)據(jù)結(jié)構(gòu),那么這兩種表征就被視為對(duì)齊。


1、不同的模型收斂,不同的結(jié)構(gòu)和目標(biāo)模型在底層表示上趨于一致。


目前,基于預(yù)訓(xùn)練的基礎(chǔ)模型構(gòu)建的系統(tǒng)數(shù)量正在逐漸增加,一些模型正在成為多任務(wù)的標(biāo)準(zhǔn)核心結(jié)構(gòu)。這種在各種應(yīng)用中的普遍適用性體現(xiàn)了它們?cè)跀?shù)據(jù)表征上的實(shí)用性。


雖然這一趨勢(shì)表明AI系統(tǒng)正在向一組較小的基礎(chǔ)模型集合收斂,但并不能證明不同的基礎(chǔ)模型會(huì)形成相同的表征。


然而,最近有些與模型拼接。(model stitching)有關(guān)研究發(fā)現(xiàn),即使對(duì)不同數(shù)據(jù)進(jìn)行訓(xùn)練,圖像分類模型的中間層表征也能很好地對(duì)齊。


例如,一些研究發(fā)現(xiàn),在ImageNet和Places365數(shù)據(jù)上訓(xùn)練的卷積網(wǎng)絡(luò)的初始層可以交換,這表明他們已經(jīng)學(xué)會(huì)了類似的初始視覺表征。一些研究發(fā)現(xiàn)了大量的“羅塞塔神經(jīng)元”(Rosetta Neurons),也就是說,在不同的視覺模型中被激活的高度相似的神經(jīng)元…


2、模型的規(guī)模和性能越大,對(duì)齊程度越高。


在Places-365數(shù)據(jù)上,研究人員利用相互鄰近的方法來衡量78個(gè)模型的對(duì)齊狀態(tài),并且評(píng)估了VTAB在視覺任務(wù)中的下游任務(wù)表現(xiàn),以適應(yīng)標(biāo)準(zhǔn)。


結(jié)果表明,具有較強(qiáng)泛化能力的模型集群之間的表征對(duì)齊度明顯較高。


此前也有研究觀察到,較大模型之間的CKA核心對(duì)齊度較高。理論上也有研究證明,類似模型的內(nèi)部激活導(dǎo)出性能也必然相似。


3、各種模式模型的表征收斂。


在維基百科圖像數(shù)據(jù)集WIT中,研究人員使用最近鄰的方法來測(cè)量對(duì)齊度。


結(jié)果表明,語言-視覺對(duì)齊與語言建模結(jié)果之間存在線性關(guān)系,一般趨勢(shì)是能力較強(qiáng)的語言模型與能力較強(qiáng)的視覺模型對(duì)齊較好。


4、由于面對(duì)類似的數(shù)據(jù)和任務(wù)約束,模型和大腦表征也表現(xiàn)出一定程度的一致性。


2014年,研究發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)的中間層激活與大腦視覺區(qū)域激活高度相關(guān),可能是由于視覺任務(wù)和數(shù)據(jù)約束相似。


此后,研究發(fā)現(xiàn),使用不同的訓(xùn)練數(shù)據(jù)會(huì)影響大腦和模型表征的對(duì)齊水平。心理學(xué)研究還發(fā)現(xiàn),人類感知視覺相似性的方式與神經(jīng)網(wǎng)絡(luò)模型高度一致。


5、模型表征的對(duì)齊程度與下游任務(wù)的性能成正相關(guān)。


研究人員使用兩個(gè)下游任務(wù)來評(píng)估模型的性能:Hellaswag(常識(shí)推理)和GSM8K(數(shù)學(xué))。為了衡量其它語言模型與視覺模型的對(duì)齊程度,使用DINOv2模型作為參考。


測(cè)試數(shù)據(jù)顯示,Hellaswag和GSM8K任務(wù)中與視覺模型對(duì)齊程度較高的語言模型也具有較好的性能??梢暬瘮?shù)據(jù)顯示,對(duì)齊水平與下游任務(wù)性能成正比。


以前的研究在這里就不展開了,有興趣的家庭成員可以查看原文。


收斂的原因


隨后,通過理論分析和實(shí)驗(yàn)觀察,研究小組提出了表征收斂的潛在原因,并討論了各種因素如何共同作用,導(dǎo)致不同的模型在表達(dá)現(xiàn)實(shí)世界時(shí)趨于一致。


在機(jī)器學(xué)習(xí)領(lǐng)域,模型訓(xùn)練目標(biāo)需要減少訓(xùn)練數(shù)據(jù)中的預(yù)測(cè)誤差。為了避免模型過度擬合,訓(xùn)練過程中通常會(huì)增加正則項(xiàng)目。正則化可以是隱藏的,也可以是顯示的。


在這一部分,研究人員闡述了這一提升過程中,下面的每一個(gè)彩色部分如何能夠在促進(jìn)表征收斂中發(fā)揮作用。


1、任務(wù)的實(shí)用性導(dǎo)致收斂(Convergence via Task Generality)


為了解決更多的任務(wù),模型被訓(xùn)練,他們需要找到能夠滿足所有任務(wù)需要的標(biāo)志:


能夠勝任N個(gè)任務(wù)的表征數(shù)量少于能夠勝任M個(gè)任務(wù)的表征數(shù)量(M < N)所以,當(dāng)訓(xùn)練可以同時(shí)處理多個(gè)任務(wù)的更通用的模型時(shí),可行的解決方案就會(huì)減少。< N)任務(wù)表征數(shù)量。因此,當(dāng)訓(xùn)練能同時(shí)處理多個(gè)任務(wù)的更通用模型時(shí),可行的解決方案將會(huì)減少。


以前也提出過類似的原理,圖中就是這樣的阿姨:


而且,簡(jiǎn)單的任務(wù)有很多解決方案,而困難的任務(wù)解決方案很少。因此,隨著任務(wù)難度的增加,模型表征趨于收斂到更好的解決方案和更少的解決方案。


2、模型容量導(dǎo)致收斂(Convergence via Model Capacity)


研究人員指出,如果有一個(gè)全局最優(yōu)的表征,那么在數(shù)據(jù)充足的情況下,更多的模型更有可能接近這個(gè)最優(yōu)解。


因此,無論其結(jié)構(gòu)如何,使用相同訓(xùn)練目標(biāo)的大型模型都會(huì)趨于收斂這種最優(yōu)解。當(dāng)不同的訓(xùn)練目標(biāo)有相似的最小值時(shí),更大的模型可以更有效地找到這些最小值,并且在每個(gè)訓(xùn)練任務(wù)中趨于類似的解決方案。


插圖就是這樣的阿姨:


3、簡(jiǎn)單偏差導(dǎo)致收斂(Convergence via Simplicity Bias)


關(guān)于收斂的原因,研究人員也提出了一個(gè)假設(shè)。深度網(wǎng)絡(luò)側(cè)重于數(shù)據(jù)的簡(jiǎn)單擬合,這種內(nèi)在的簡(jiǎn)單偏差促使大模型在表達(dá)上趨于簡(jiǎn)化,從而導(dǎo)致收斂。


換句話說,更大的模型覆蓋范圍更廣,可以通過所有可能的方式擬合同數(shù)據(jù)。然而,深度網(wǎng)絡(luò)的隱性和簡(jiǎn)單性偏好鼓勵(lì)更大的模型找到這些解決方案中最簡(jiǎn)單的一個(gè)。


收斂的終點(diǎn)


經(jīng)過一系列的分析和實(shí)驗(yàn),如開頭所述,研究人員提出柏拉圖說假話,推斷出這種收斂的終點(diǎn)。


也就是說,雖然不同的AI模型受到不同的數(shù)據(jù)和目標(biāo)的訓(xùn)練,但它們的表示空間正在收斂于一個(gè)共同的統(tǒng)計(jì)模型,這代表著生成我們觀察到的數(shù)據(jù)的現(xiàn)實(shí)世界。


首先,他們構(gòu)建了一個(gè)理想的離散事件世界模型。世界包括一系列離散事件Z,每一個(gè)事件都是從一個(gè)未知的P分布中分布出來的。(Z)從中取樣。每一個(gè)事件,如像素、聲音、文字等,都可以通過觀測(cè)函數(shù)obs進(jìn)行不同的觀測(cè)。


下一步,作者考慮了一種比較學(xué)習(xí)算法,試圖學(xué)習(xí)一種表征fX,促使fX學(xué)習(xí)。(xa)和fX(xb)內(nèi)積與xa和xb作為正樣對(duì)(來自近距離觀察)的大多數(shù)odds和作為負(fù)樣對(duì)(隨機(jī)采樣)的大多數(shù)odds相似。


在數(shù)學(xué)推導(dǎo)之后,作者發(fā)現(xiàn),如果數(shù)據(jù)足夠平滑,這個(gè)算法就會(huì)收斂到xa和xb的點(diǎn)互信息。(PMI)核表征fX。


由于研究側(cè)重于一個(gè)理想的離散世界,觀測(cè)函數(shù)obs是雙射的,所以xa和xb的PMI核等于za和zb的PMI核。


也就是說,無論是從視覺數(shù)據(jù)X還是語言數(shù)據(jù)Y中學(xué)習(xí)表征,最終都會(huì)收斂到表示P。(Z)相同的核函數(shù),即事件之間的PMI核。



研究人員通過對(duì)顏色的實(shí)證分析來檢驗(yàn)這一理論。無論是從圖像像素的共現(xiàn)統(tǒng)計(jì),還是從文字的共現(xiàn)統(tǒng)計(jì)中學(xué)習(xí)顏色表征,獲得的顏色距離都與人類的感知相似,這種相似度隨著模型規(guī)模的增加而越來越高。


它符合理論分析,即更多的模型能力可以更準(zhǔn)確地建模觀測(cè)數(shù)據(jù)的統(tǒng)計(jì)量,從而獲得更接近理想事件表征的PMI核。


最終的一些思考


在論文的最后,作者總結(jié)了表征收斂對(duì)AI領(lǐng)域和未來研究角度的潛在影響,以及柏拉圖表征假設(shè)的潛在限制和例外。


它們指出,隨著模型規(guī)模的增加,收斂可能帶來的影響包括但不限于:


看起來簡(jiǎn)單的擴(kuò)大規(guī)模可以提高性能,但是不同的方法在擴(kuò)展效率上存在差異。


如果有與模式無關(guān)的柏拉圖表征,不同模式的數(shù)據(jù)應(yīng)該通過聯(lián)合訓(xùn)練找到這個(gè)共享表征。這解釋了為什么在語言模型訓(xùn)練中添加視覺數(shù)據(jù)是有益的,反之亦然。


對(duì)齊表征之間的轉(zhuǎn)換應(yīng)該比較簡(jiǎn)單,這可能解釋了有條件的生成比無條件的生成更容易,沒有匹配的數(shù)據(jù)也可以實(shí)現(xiàn)跨模態(tài)轉(zhuǎn)換。


在不加重誤差的情況下,模型擴(kuò)大可能會(huì)減少語言模型的虛構(gòu)內(nèi)容傾向和其它誤差,使其更準(zhǔn)確地反映訓(xùn)練數(shù)據(jù)中的誤差。


作者強(qiáng)調(diào),上述影響的前提是未來模型訓(xùn)練數(shù)據(jù)要足夠多樣化和無損化,才能真正收斂到反映實(shí)際世界統(tǒng)計(jì)規(guī)律的表征。


同時(shí),作者還表示,不同模式的數(shù)據(jù)可能包含獨(dú)特的信息,這可能會(huì)導(dǎo)致即使模型規(guī)模增加,也很難達(dá)到完全的表示收斂。此外,目前并不是所有的表征都在收斂,例如機(jī)器人領(lǐng)域沒有標(biāo)準(zhǔn)化的表征。研究人員和社區(qū)的偏好可能會(huì)導(dǎo)致模型向人類的表征收斂,從而忽略其他可能的智能模式。


并專門為特定任務(wù)智能系統(tǒng)設(shè)計(jì),或許不會(huì)與通用智能相同。


作者還強(qiáng)調(diào),測(cè)量表示對(duì)齊的方法存在爭(zhēng)議,不同的測(cè)量方法可能會(huì)導(dǎo)致不同的觀點(diǎn)。即使不同的模型有相似的表達(dá),也有差距需要解釋。目前還不確定這個(gè)差距是否重要。


更多的細(xì)節(jié)和論證方法,把論文放在這里?!?/p>


論文鏈接:


https://arxiv.org/abs/2405.07987


參考鏈接:


[1]https://x.com/phillip_isola/status/1790488966308769951


[2]https://x.com/bayeslord/status/1790868039224688998


本文來自微信微信官方賬號(hào)“量子位”(ID:QbitAI),作者:西風(fēng),36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com