LeCun親自出現(xiàn)打臉質(zhì)疑者,憋了20年AI世界模型,終于爆發(fā)了。
剛才,LeCun居然親自出現(xiàn),重磅介紹了V-JEPA 2!就在外界猜測他已經(jīng)被邊緣化的時候,AI老將用一個視頻回應(yīng)質(zhì)疑:做一個世界模型要不動搖!這個孤獨勇敢的20年賭注的方向是引領(lǐng)AI的下一個趨勢,還是走上了錯誤的道路?
LeCun正處于風(fēng)暴中心,親自出現(xiàn)!
錄像中,他介紹了V-JEPA 2的新進展,旨在開發(fā)一種可以改變AI與物理世界互動技術(shù)的世界模式。
可以看出,LeCun對Meta剛剛發(fā)布的這個博客真的很用心。
最近,Meta要建立「超級智能」Alexandrr,新團隊,巨資挖角 Wang、全力沖擊AGI的消息,鬧得沸沸揚揚。
如今,Meta也被曝出,它提供了數(shù)千萬美元的年薪,并挖出了谷歌DeepMind首席研究員Jack。 Rae,與此同時,Sesame也在招募AI語音初創(chuàng)公司 Johan的主管Johan Schalkwayk。
所有的跡象都表明:LeCun似乎要坐在小扎那里的冷板凳上?
就在這一口,LeCun親自出現(xiàn)介紹V-JEPA 第二種行為,無疑是極其重要的。
世界模型真的能走通這條路嗎?與其他大科技企業(yè)相比,LeCun更像是在這條目前非常非主流的路線上走自己的路?!腹掠抡摺?。
沒有人知道前面的路是什么。
LeCun曾經(jīng)透露過:「通過訓(xùn)練系統(tǒng)對視頻中即將發(fā)生的事情進行預(yù)測,了解世界如何運行的想法是非常古老的。我至少以某種方式討論了20年?!?/p>
LeCun也曾在今年3月的2025美國數(shù)學(xué)會聯(lián)合會議演講中說過,他折騰了20年,終于發(fā)現(xiàn)——
運用自回歸預(yù)測的思路,訓(xùn)練LLM這樣的生成式架構(gòu),來預(yù)測視頻下一步會發(fā)生什么,是不可能的。
今天Meta的V-JEPA 二是20年磨一劍的效果。
V-JEPA 2登場!
剛剛,Meta宣布:V-JEPA 2正式發(fā)布!
這是第一個基于視頻訓(xùn)練的世界模型,不僅具有先進的視頻理解和預(yù)測能力,而且首次實現(xiàn)零樣本規(guī)劃和新環(huán)境下機器人的自主控制。
它的發(fā)布,代表著Meta實現(xiàn)高級機器智能化 (AMI) 以及建立一個可以在物理世界中運行的有用AI智能體的目標,邁出了下一步。
這也是LeCun的一貫想法:在我們走向AMI的過程中,構(gòu)建一個能夠像人類一樣學(xué)習(xí)世界、規(guī)劃未知任務(wù)、靈活適應(yīng)變化環(huán)境的AI系統(tǒng)尤為重要。
V-JEPA 2有12億參數(shù),這是2022年首次提出的。Meta 預(yù)測結(jié)構(gòu)的聯(lián)合嵌入(JEPA)構(gòu)建。
以前的研究表明,JEPA 它已經(jīng)在圖像和3D點云等模式中表現(xiàn)出色。
V這次發(fā)布-JEPA 基于去年發(fā)布的第一個V-JEPA視頻版本,進一步提升了視頻版本。動作預(yù)測和世界建模能力,使機器人能夠與之相處不熟悉的物體和環(huán)境互動并實現(xiàn)目標。
與此同時,Meta也同步發(fā)布三個全新的標準評估集,在視頻中幫助評估模型的世界理解和推理能力。
網(wǎng)民:期待三年后的AGI
對于V-JEPA LeCun的支持者2的發(fā)布,一如既往地表示贊賞。
「聽到了,你也在建立一個復(fù)仇者聯(lián)盟?三年后,我們可能會看到JEPA技術(shù)接近AGI?!?/p>
有人說,V-JEPA是你最喜歡的算法名稱之一,請務(wù)必繼續(xù)。
有人問過那個敏感的問題:小扎會不會辭退你?還以為你已經(jīng)離開Meta了…
還有尖銳的評論表示,V-JEPA似乎只是視頻中使用的另一個基本模型,沒有專有技術(shù)?Meta和Scale AI重組,Meta目前的AI政策是否失???
世界模型是什么?
LeCun在自己的視頻中再次解釋了世界模型的概念。
如果把網(wǎng)球扔到空中,重力會使它落回路面。如果它在空中旋轉(zhuǎn),突然轉(zhuǎn)向另一個方向,或者自發(fā)地變成蘋果,那就太神奇了。
這種物理直覺不是成年人經(jīng)過多年的教育才能獲得的。在句子表達不完整之前,孩子們已經(jīng)通過觀察周圍的世界來發(fā)展這種直覺。
預(yù)測世界將如何回應(yīng)我們的行動或他人的行動,是人類一直在使用的能力,尤其是當(dāng)每個人都計劃采取什么行動以及如何應(yīng)對新情況時。
舉例來說,當(dāng)我們穿過陌生擁擠的人群時,我們會朝目的地移動,同時盡量避免撞到沿途的其他人和障礙物。
在打冰球的時候,我們會滑向冰球即將到來的位置,而不是它現(xiàn)在的位置。
做飯的時候,我們會想,要讓鍋在火焰上停留多久,或者是否應(yīng)該減少熱量。
我們之所以能有這些直覺,是因為我們對世界的內(nèi)在模型。它還充當(dāng)了一個內(nèi)部模擬器,這樣我們就可以預(yù)測假設(shè)行為的結(jié)果,然后根據(jù)我們認為最能實現(xiàn)目標的方式來選擇最好的行動。
我們將利用自己的世界模型,在付諸行動之前,想象隱藏的后果。
所以,如果我們想建造能力的話「三思而后行」AI智能體,最重要的是讓它們學(xué)會具備以下能力的世界模型。
理解:世界模型應(yīng)能理解對世界的觀察,包括對視頻中物體、動作和運動的識別。
預(yù)測:世界模型應(yīng)該能夠預(yù)測世界將如何進化,如果智能體付諸行動,世界將如何改變。
規(guī)劃:基于預(yù)測能力,世界模型應(yīng)有利于規(guī)劃實現(xiàn)特定目標的動作序列。
所以,如何通過世界模型,讓AI智能體在物理世界中進行規(guī)劃與推理?
Meta主要通過視頻訓(xùn)練世界模型V-JEPA 2。
之所以使用視頻,是因為它是豐富世界信息的重要來源,而且信息很容易獲得。
V-JEPA 兩個階段的訓(xùn)練細節(jié)
V-JEPA 2是一個基于「預(yù)測結(jié)構(gòu)的聯(lián)合嵌入」(JEPA)建立時間模型,即通過視頻數(shù)據(jù),學(xué)習(xí)物理世界的運行規(guī)律。
不同于傳統(tǒng)的AI模型,通過自我監(jiān)督學(xué)習(xí),可以從視頻中學(xué)習(xí),不需要大量的人工標記。
其核心部件包括:
· 編碼器:輸入原始視頻,導(dǎo)出嵌入觀察世界狀態(tài)的有用語義信息。
· 預(yù)測器:輸入視頻嵌入和關(guān)于預(yù)測內(nèi)容的額外前后文本,導(dǎo)出預(yù)測嵌入。
具體來說,V-JEPA 2練習(xí)分為兩個階段,逐步讓模型從模型中走出來「理解世界」到「改變命運」。
第一階段:無動作預(yù)訓(xùn)練
V-JEPA 2使用超過100萬小時的視頻和100萬個圖像,包括豐富多樣的視覺信息。
這使得模型學(xué)習(xí)了很多關(guān)于世界運行模式的知識。
它包括,每個人如何與物體互動,物體在物理世界中的移動方式,以及物體之間的相互作用。
通過預(yù)訓(xùn)練,V-JEPA 2展示驚人的能力。
舉例來說,Something動作識別任務(wù)。-Something 在v2中,它通過輕量級的注意機制表現(xiàn)出色。
類似地,注意力讀取器是通過訓(xùn)練冷凍編碼器和預(yù)測器的特性來訓(xùn)練的,V-JEPA 2在Epic-Kitchens-在100動作預(yù)測任務(wù)中,SOTA被刷新。
它可以從第一人稱視頻中計算出未來一秒鐘將要執(zhí)行的動作。
結(jié)合語言模型后,它還進行了Perception等視頻問答基準測試。 在Test和TempCompass中,創(chuàng)造了最新的記錄。
第二階段:動作條件訓(xùn)練
第一階段訓(xùn)練結(jié)束后,V-JEPA 2雖然可以預(yù)測世界可能的演變,但是這種預(yù)測并沒有考慮到智能體將要采取的行動。
所以,Meta在第二階段的預(yù)訓(xùn)練中增加了機器人數(shù)據(jù),包括視覺觀察(視頻)和機器人執(zhí)行的控制動作。
通過向預(yù)測器提供動作信息,研究人員將這些信息納入JEPA訓(xùn)練過程。
在練習(xí)了這些額外的數(shù)據(jù)之后,預(yù)測器學(xué)會了在預(yù)測過程中考慮特定的動作,并且可以用來控制。
令人驚訝的是,機器人數(shù)據(jù)只需62小時,V-JEPA 2學(xué)會根據(jù)實際行動進行預(yù)測和計劃。
精確的計劃,機器人「即插即用」
V-JEPA 2最令人興奮的應(yīng)用之一是零樣本機器人規(guī)劃。
傳統(tǒng)的機器人模型,通常需要練習(xí)特定的機器人和環(huán)境,而V-JEPA 2則不同。
基于開源DROID數(shù)據(jù)的練習(xí),可以直接部署到實驗室的機器人上。
舉例來說,它可以完成抓取、撿取物體、放置到新的位置等任務(wù)。
對簡單的任務(wù),例如撿起或放置物體,V-JEPA 2通過圖像指定目標。
該模型采用編碼器嵌入當(dāng)前狀態(tài)和目標狀態(tài),機器人通過預(yù)測器進行預(yù)測?!赶胂蟆垢鶕?jù)不同的動作結(jié)果,選擇最接近目標的動作。
這種「模型預(yù)測控制」使機器人的每一步都更加聰明。
而且對復(fù)雜的任務(wù),比如撿起來,放在正確的位置,V-JEPA 2通過一系列視覺子目標引導(dǎo)機器人,類似于人類的視覺模仿學(xué)習(xí)。
新環(huán)境中,V-JEPA 新物體采集和放置的成功率為65%–80%。
三大「物理理解」基準測試
另外,Meta團隊還發(fā)布了三個全新的基準測試,用于評估當(dāng)前模型從視頻中理解和推理物理世界的能力。
IntPhys 2
IntPhys 二是對初期IntPhys標準的升級,靈感來自于認知科學(xué)中幼兒學(xué)習(xí)直覺物理的方法。
其采用「違反預(yù)期范式」,通過游戲引擎生成視頻對:兩個視頻在某一點之前完全一致,之后其中一個會發(fā)生違反物理規(guī)律的事件。
模型的任務(wù)是識別哪個視頻不合理。
在各種場景中,人類幾乎可以達到100%的準確度,而目前的視頻模型表現(xiàn)幾乎取決于隨機猜測。
MVPBench
通過多選題,MVPBench測試了視頻-語言模型的物理理解能力。
不同于其它視頻問答標準,它是專門設(shè)計的「最小變化對」——兩個視覺上幾乎相同的視頻組合了相同的問題,但答案卻相反。
只有當(dāng)模型同時回答正確的問題時,才能得分,從而避免了依靠表面視覺或文本線索的分數(shù)?!附輳健菇夥?。
CausalVQA
CausalVQA致力于測試模型對物理世界因果關(guān)系的理解,包括三個問題。
主要包括,反事實(如果…會發(fā)生什么)、預(yù)測(下一步可能會發(fā)生什么)和計劃(下一步應(yīng)該采取什么行動來實現(xiàn)目標)。
研究表明,描述多模態(tài)模型?!赴l(fā)生了什么」時間表現(xiàn)還不錯,但是在預(yù)測中「本來可以發(fā)生的事情」或「下一步會發(fā)生什么?」那時候,與人類還有很大的差距。
下一步:通向高級機器智能!
對世界模型而言,Meta將從多個角度進行深入探索。
目前,V-JEPA 二是只能在單一的時間尺度上進行學(xué)習(xí)和預(yù)測,但是現(xiàn)實中許多任務(wù)需要跨越多個時間尺度進行規(guī)劃。
例如「裝洗碗機」或是「烤一個蛋糕」,這樣就需要把整個任務(wù)分解成一系列的小步驟。
所以,Meta將重點研究分層的JEPA模型,使其能夠在不同的時間和空間規(guī)模上進行學(xué)習(xí)、推理和規(guī)劃。
另一個重要方向是開發(fā)多模式JEPA模型,這樣不僅可以通過視覺預(yù)測,還可以結(jié)合聽覺、觸覺等多種感知實現(xiàn)更全面的世界理解。
參考資料:
https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/ https://x.com/AIatMeta/status/1932808881627148450
本文來自微信微信官方賬號“新智元”,作者:Aeneas 桃子,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com