亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

Ilya離職后的第一個(gè)動(dòng)作：對(duì)這篇論文贊不絕口，網(wǎng)友們爭(zhēng)相傳看。

2024-05-20

自Ilya 在官方宣布辭職OpenAI之后，Sutskever的下一步行動(dòng)成為大家關(guān)注的焦點(diǎn)。

有些人甚至密切關(guān)注他的一舉一動(dòng)。

沒有，Ilya剛剛在前面點(diǎn)贊。??有一篇新論文——

——后來網(wǎng)友們爭(zhēng)相看中了：

這篇論文來自MIT，作者提出了一個(gè)假設(shè)，用一句話來概括阿姨的觀點(diǎn)：

在不同的數(shù)據(jù)和模態(tài)下，神經(jīng)網(wǎng)絡(luò)練習(xí)的目標(biāo)不同，現(xiàn)實(shí)世界統(tǒng)計(jì)模型傾向于在其表示空間中形成一個(gè)互通的模型。

這一推論被他們命名為柏拉圖說假話，借鑒柏拉圖的洞穴寓言及其對(duì)理想現(xiàn)實(shí)本質(zhì)的概念。

Ilya的選擇還是有保障的，有網(wǎng)友看了之后稱之為今年最好的論文：

也有網(wǎng)友真的很有才華。看完之后，他們用安娜·卡列尼娜開頭的一句話來總結(jié):所有快樂的語言模型都差不多，每個(gè)不幸的語言模型都有自己的不幸。

化用懷特海名言：所有機(jī)器學(xué)習(xí)都是柏拉圖的注腳。

我們也來看了一下，大概內(nèi)容是：

對(duì)AI系統(tǒng)進(jìn)行了分析。表征收斂（Representational Convergence），也就是說，不同神經(jīng)網(wǎng)絡(luò)模型中的數(shù)據(jù)點(diǎn)表征方式越來越相似，這種相似性跨越了不同的模型結(jié)構(gòu)、訓(xùn)練目標(biāo)甚至數(shù)據(jù)模式。

是什么促進(jìn)了這種收斂？這一趨勢(shì)會(huì)持續(xù)下去嗎？它的最終歸宿在哪里？

經(jīng)過一系列的分析和實(shí)驗(yàn)，研究人員推斷，這種收斂確實(shí)有一個(gè)終點(diǎn)，并且有一個(gè)驅(qū)動(dòng)原則：各種模型都在努力實(shí)現(xiàn)對(duì)現(xiàn)實(shí)的精確表征。。

一張圖片來解釋：

其中圖像（X）和文本（Y）這是共同的底層現(xiàn)實(shí)（Z）差異投射。研究人員推斷，表征學(xué)習(xí)算法將收斂到統(tǒng)一表征Z，模型規(guī)模的增加和數(shù)據(jù)和任務(wù)的多樣化是促進(jìn)這種收斂的重要因素。

只能說，這是Ilya感興趣的問題。太深?yuàn)W了，我們不太明白。請(qǐng)AI幫我解讀一下，和大家分享一下?！?/p>

表征收斂的證據(jù)

首先，作者分析了大量之前的相關(guān)研究，并開始了自己的實(shí)驗(yàn)，拿出了一系列表征收斂的證據(jù)，展示了不同模型的收斂、規(guī)模和性能以及跨模式的收斂。

Ps：這項(xiàng)研究側(cè)重于向量嵌入的表征，即數(shù)據(jù)被轉(zhuǎn)換為向量，數(shù)據(jù)點(diǎn)之間的相似性或距離被用核函數(shù)描述。本文中的“表征對(duì)齊”概念是，如果兩種不同的表征方法揭示了相似的數(shù)據(jù)結(jié)構(gòu)，那么這兩種表征就被視為對(duì)齊。

1、不同的模型收斂，不同的結(jié)構(gòu)和目標(biāo)模型在底層表示上趨于一致。

目前，基于預(yù)訓(xùn)練的基礎(chǔ)模型構(gòu)建的系統(tǒng)數(shù)量正在逐漸增加，一些模型正在成為多任務(wù)的標(biāo)準(zhǔn)核心結(jié)構(gòu)。這種在各種應(yīng)用中的普遍適用性體現(xiàn)了它們?cè)跀?shù)據(jù)表征上的實(shí)用性。

雖然這一趨勢(shì)表明AI系統(tǒng)正在向一組較小的基礎(chǔ)模型集合收斂，但并不能證明不同的基礎(chǔ)模型會(huì)形成相同的表征。

然而，最近有些與模型拼接。（model stitching）有關(guān)研究發(fā)現(xiàn)，即使對(duì)不同數(shù)據(jù)進(jìn)行訓(xùn)練，圖像分類模型的中間層表征也能很好地對(duì)齊。

例如，一些研究發(fā)現(xiàn)，在ImageNet和Places365數(shù)據(jù)上訓(xùn)練的卷積網(wǎng)絡(luò)的初始層可以交換，這表明他們已經(jīng)學(xué)會(huì)了類似的初始視覺表征。一些研究發(fā)現(xiàn)了大量的“羅塞塔神經(jīng)元”（Rosetta Neurons），也就是說，在不同的視覺模型中被激活的高度相似的神經(jīng)元…

2、模型的規(guī)模和性能越大，對(duì)齊程度越高。

在Places-365數(shù)據(jù)上，研究人員利用相互鄰近的方法來衡量78個(gè)模型的對(duì)齊狀態(tài)，并且評(píng)估了VTAB在視覺任務(wù)中的下游任務(wù)表現(xiàn)，以適應(yīng)標(biāo)準(zhǔn)。

結(jié)果表明，具有較強(qiáng)泛化能力的模型集群之間的表征對(duì)齊度明顯較高。

此前也有研究觀察到，較大模型之間的CKA核心對(duì)齊度較高。理論上也有研究證明，類似模型的內(nèi)部激活導(dǎo)出性能也必然相似。

3、各種模式模型的表征收斂。

在維基百科圖像數(shù)據(jù)集WIT中，研究人員使用最近鄰的方法來測(cè)量對(duì)齊度。

結(jié)果表明，語言-視覺對(duì)齊與語言建模結(jié)果之間存在線性關(guān)系，一般趨勢(shì)是能力較強(qiáng)的語言模型與能力較強(qiáng)的視覺模型對(duì)齊較好。

4、由于面對(duì)類似的數(shù)據(jù)和任務(wù)約束，模型和大腦表征也表現(xiàn)出一定程度的一致性。

2014年，研究發(fā)現(xiàn)，神經(jīng)網(wǎng)絡(luò)的中間層激活與大腦視覺區(qū)域激活高度相關(guān)，可能是由于視覺任務(wù)和數(shù)據(jù)約束相似。

此后，研究發(fā)現(xiàn)，使用不同的訓(xùn)練數(shù)據(jù)會(huì)影響大腦和模型表征的對(duì)齊水平。心理學(xué)研究還發(fā)現(xiàn)，人類感知視覺相似性的方式與神經(jīng)網(wǎng)絡(luò)模型高度一致。

5、模型表征的對(duì)齊程度與下游任務(wù)的性能成正相關(guān)。

研究人員使用兩個(gè)下游任務(wù)來評(píng)估模型的性能：Hellaswag(常識(shí)推理)和GSM8K(數(shù)學(xué))。為了衡量其它語言模型與視覺模型的對(duì)齊程度，使用DINOv2模型作為參考。

測(cè)試數(shù)據(jù)顯示，Hellaswag和GSM8K任務(wù)中與視覺模型對(duì)齊程度較高的語言模型也具有較好的性能?？梢暬瘮?shù)據(jù)顯示，對(duì)齊水平與下游任務(wù)性能成正比。

以前的研究在這里就不展開了，有興趣的家庭成員可以查看原文。

收斂的原因

隨后，通過理論分析和實(shí)驗(yàn)觀察，研究小組提出了表征收斂的潛在原因，并討論了各種因素如何共同作用，導(dǎo)致不同的模型在表達(dá)現(xiàn)實(shí)世界時(shí)趨于一致。

在機(jī)器學(xué)習(xí)領(lǐng)域，模型訓(xùn)練目標(biāo)需要減少訓(xùn)練數(shù)據(jù)中的預(yù)測(cè)誤差。為了避免模型過度擬合，訓(xùn)練過程中通常會(huì)增加正則項(xiàng)目。正則化可以是隱藏的，也可以是顯示的。

在這一部分，研究人員闡述了這一提升過程中，下面的每一個(gè)彩色部分如何能夠在促進(jìn)表征收斂中發(fā)揮作用。

1、任務(wù)的實(shí)用性導(dǎo)致收斂（Convergence via Task Generality）

為了解決更多的任務(wù)，模型被訓(xùn)練，他們需要找到能夠滿足所有任務(wù)需要的標(biāo)志：

能夠勝任N個(gè)任務(wù)的表征數(shù)量少于能夠勝任M個(gè)任務(wù)的表征數(shù)量（M < N）所以，當(dāng)訓(xùn)練可以同時(shí)處理多個(gè)任務(wù)的更通用的模型時(shí)，可行的解決方案就會(huì)減少。< N）任務(wù)表征數(shù)量。因此，當(dāng)訓(xùn)練能同時(shí)處理多個(gè)任務(wù)的更通用模型時(shí)，可行的解決方案將會(huì)減少。

以前也提出過類似的原理，圖中就是這樣的阿姨：

而且，簡(jiǎn)單的任務(wù)有很多解決方案，而困難的任務(wù)解決方案很少。因此，隨著任務(wù)難度的增加，模型表征趨于收斂到更好的解決方案和更少的解決方案。

2、模型容量導(dǎo)致收斂（Convergence via Model Capacity）

研究人員指出，如果有一個(gè)全局最優(yōu)的表征，那么在數(shù)據(jù)充足的情況下，更多的模型更有可能接近這個(gè)最優(yōu)解。

因此，無論其結(jié)構(gòu)如何，使用相同訓(xùn)練目標(biāo)的大型模型都會(huì)趨于收斂這種最優(yōu)解。當(dāng)不同的訓(xùn)練目標(biāo)有相似的最小值時(shí)，更大的模型可以更有效地找到這些最小值，并且在每個(gè)訓(xùn)練任務(wù)中趨于類似的解決方案。

插圖就是這樣的阿姨：

3、簡(jiǎn)單偏差導(dǎo)致收斂（Convergence via Simplicity Bias）

關(guān)于收斂的原因，研究人員也提出了一個(gè)假設(shè)。深度網(wǎng)絡(luò)側(cè)重于數(shù)據(jù)的簡(jiǎn)單擬合，這種內(nèi)在的簡(jiǎn)單偏差促使大模型在表達(dá)上趨于簡(jiǎn)化，從而導(dǎo)致收斂。

換句話說，更大的模型覆蓋范圍更廣，可以通過所有可能的方式擬合同數(shù)據(jù)。然而，深度網(wǎng)絡(luò)的隱性和簡(jiǎn)單性偏好鼓勵(lì)更大的模型找到這些解決方案中最簡(jiǎn)單的一個(gè)。

收斂的終點(diǎn)

經(jīng)過一系列的分析和實(shí)驗(yàn)，如開頭所述，研究人員提出柏拉圖說假話，推斷出這種收斂的終點(diǎn)。

也就是說，雖然不同的AI模型受到不同的數(shù)據(jù)和目標(biāo)的訓(xùn)練，但它們的表示空間正在收斂于一個(gè)共同的統(tǒng)計(jì)模型，這代表著生成我們觀察到的數(shù)據(jù)的現(xiàn)實(shí)世界。

首先，他們構(gòu)建了一個(gè)理想的離散事件世界模型。世界包括一系列離散事件Z，每一個(gè)事件都是從一個(gè)未知的P分布中分布出來的。(Z)從中取樣。每一個(gè)事件，如像素、聲音、文字等，都可以通過觀測(cè)函數(shù)obs進(jìn)行不同的觀測(cè)。

下一步，作者考慮了一種比較學(xué)習(xí)算法，試圖學(xué)習(xí)一種表征fX，促使fX學(xué)習(xí)。(xa)和fX(xb)內(nèi)積與xa和xb作為正樣對(duì)(來自近距離觀察)的大多數(shù)odds和作為負(fù)樣對(duì)(隨機(jī)采樣)的大多數(shù)odds相似。

在數(shù)學(xué)推導(dǎo)之后，作者發(fā)現(xiàn)，如果數(shù)據(jù)足夠平滑，這個(gè)算法就會(huì)收斂到xa和xb的點(diǎn)互信息。（PMI）核表征fX。

由于研究側(cè)重于一個(gè)理想的離散世界，觀測(cè)函數(shù)obs是雙射的，所以xa和xb的PMI核等于za和zb的PMI核。

也就是說，無論是從視覺數(shù)據(jù)X還是語言數(shù)據(jù)Y中學(xué)習(xí)表征，最終都會(huì)收斂到表示P。(Z)相同的核函數(shù)，即事件之間的PMI核。

研究人員通過對(duì)顏色的實(shí)證分析來檢驗(yàn)這一理論。無論是從圖像像素的共現(xiàn)統(tǒng)計(jì)，還是從文字的共現(xiàn)統(tǒng)計(jì)中學(xué)習(xí)顏色表征，獲得的顏色距離都與人類的感知相似，這種相似度隨著模型規(guī)模的增加而越來越高。

它符合理論分析，即更多的模型能力可以更準(zhǔn)確地建模觀測(cè)數(shù)據(jù)的統(tǒng)計(jì)量，從而獲得更接近理想事件表征的PMI核。

最終的一些思考

在論文的最后，作者總結(jié)了表征收斂對(duì)AI領(lǐng)域和未來研究角度的潛在影響，以及柏拉圖表征假設(shè)的潛在限制和例外。

它們指出，隨著模型規(guī)模的增加，收斂可能帶來的影響包括但不限于：

看起來簡(jiǎn)單的擴(kuò)大規(guī)模可以提高性能，但是不同的方法在擴(kuò)展效率上存在差異。

如果有與模式無關(guān)的柏拉圖表征，不同模式的數(shù)據(jù)應(yīng)該通過聯(lián)合訓(xùn)練找到這個(gè)共享表征。這解釋了為什么在語言模型訓(xùn)練中添加視覺數(shù)據(jù)是有益的，反之亦然。

對(duì)齊表征之間的轉(zhuǎn)換應(yīng)該比較簡(jiǎn)單，這可能解釋了有條件的生成比無條件的生成更容易，沒有匹配的數(shù)據(jù)也可以實(shí)現(xiàn)跨模態(tài)轉(zhuǎn)換。

在不加重誤差的情況下，模型擴(kuò)大可能會(huì)減少語言模型的虛構(gòu)內(nèi)容傾向和其它誤差，使其更準(zhǔn)確地反映訓(xùn)練數(shù)據(jù)中的誤差。

作者強(qiáng)調(diào)，上述影響的前提是未來模型訓(xùn)練數(shù)據(jù)要足夠多樣化和無損化，才能真正收斂到反映實(shí)際世界統(tǒng)計(jì)規(guī)律的表征。

同時(shí)，作者還表示，不同模式的數(shù)據(jù)可能包含獨(dú)特的信息，這可能會(huì)導(dǎo)致即使模型規(guī)模增加，也很難達(dá)到完全的表示收斂。此外，目前并不是所有的表征都在收斂，例如機(jī)器人領(lǐng)域沒有標(biāo)準(zhǔn)化的表征。研究人員和社區(qū)的偏好可能會(huì)導(dǎo)致模型向人類的表征收斂，從而忽略其他可能的智能模式。

并專門為特定任務(wù)智能系統(tǒng)設(shè)計(jì)，或許不會(huì)與通用智能相同。

作者還強(qiáng)調(diào)，測(cè)量表示對(duì)齊的方法存在爭(zhēng)議，不同的測(cè)量方法可能會(huì)導(dǎo)致不同的觀點(diǎn)。即使不同的模型有相似的表達(dá)，也有差距需要解釋。目前還不確定這個(gè)差距是否重要。

更多的細(xì)節(jié)和論證方法，把論文放在這里?！?/p>

論文鏈接：

https://arxiv.org/abs/2405.07987

參考鏈接：

[1]https://x.com/phillip_isola/status/1790488966308769951

[2]https://x.com/bayeslord/status/1790868039224688998

本文來自微信微信官方賬號(hào)“量子位”（ID：QbitAI），作者：西風(fēng)，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

閱讀中國(guó)房市史上最寬松的政策。

如何收回存量土地保障房屋建設(shè)？自然資源部回答鳳凰記者問

聯(lián)商網(wǎng)日本商業(yè)考察之旅開啟報(bào)名

鄂托克教育進(jìn)入高質(zhì)量發(fā)展快車道

開源企業(yè)哭CEO，閉源11人賺2億美元，這家AI企業(yè)舍命轉(zhuǎn)向了CEO。

項(xiàng)目推薦