亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

2代LeCun世界模型,62小時機器人訓(xùn)練,開啟物理推理新時期。

5天前
第一個基于視頻訓(xùn)練的世界模型——V-JEPA 2

人工智能正在走向物理。——


Meta開源發(fā)布V-JEPA 2世界模型:一種AI模型,可以像人類一樣了解物理世界。



Meta首席AI科學家圖靈獎獲得者Yann LeCun親自出鏡宣傳,并稱:


我們認為,世界模型將為機器人技術(shù)帶來一個新的時期,使現(xiàn)實世界中的AI智能體能夠幫助完成家務(wù)和體力任務(wù),而無需大量的機器人訓(xùn)練數(shù)據(jù)。




那么什么是世界模型呢?


簡而言之,就是AI模型,它能夠?qū)φ鎸嵉奈锢硎澜缱龀龇磻?yīng)。


這應(yīng)該具備以下幾種能力:


理解:世界模型應(yīng)能理解世界的分析,包括物體、動作、運動等事物的識別視頻。


預(yù)測:世界模型應(yīng)該能夠預(yù)測世界將如何進化,如果智能體付諸行動,世界將如何改變。


規(guī)劃:基于預(yù)測能力,世界模型應(yīng)該可以用來規(guī)劃實現(xiàn)目標的行動序列。


V-JEPA 2(Meta Video Joint Embedding Predictive Architecture 2 )是首個基于視頻訓(xùn)練世界模型(視頻是世界信息豐富、易于獲取的來源)。


可以用來提高動作預(yù)測和物理世界建模能力,零樣本規(guī)劃在新環(huán)境中進行機器人控制。



V-JEPA 2一發(fā)布就引起了不少好評,甚至有網(wǎng)友表示:這是機器人領(lǐng)域的革命性突破!




規(guī)劃控制模型可以通過62小時訓(xùn)練生成。


V-JEPA 2選擇自我監(jiān)督學習框架,利用100多萬小時的互聯(lián)網(wǎng)視頻和圖像數(shù)據(jù)進行預(yù)訓(xùn)練,證明純視覺自我監(jiān)督學習可以在不依賴語言監(jiān)督的情況下達到頂級表現(xiàn)。



從大規(guī)模視頻數(shù)據(jù)預(yù)訓(xùn)練到多元化下游任務(wù),圖中清晰地展示了如何進行全過程:


輸入數(shù)據(jù):使用100萬小時網(wǎng)絡(luò)視頻和100萬圖片進行預(yù)訓(xùn)練。


訓(xùn)練過程:視頻預(yù)訓(xùn)練采用視覺掩碼除噪目標。


下游應(yīng)用分為三類:


理解與預(yù)測:行為分類,物體識別,行為預(yù)測;


語言對齊:通過與LLM對齊來實現(xiàn)視頻問答;


計劃:通過后訓(xùn)練行動條件模型(V-JEPA 2-AC)實現(xiàn)機器人操作。


V-JEPA 2選擇聯(lián)合嵌入式預(yù)測架構(gòu)結(jié)構(gòu)(JEPA),主要包括兩個部件:編碼器預(yù)測器。


編碼器接收原始視頻并輸出能夠捕捉到關(guān)于觀察世界狀態(tài)的語義信息的嵌入。


預(yù)測器接收視頻嵌入和預(yù)測額外的前后文本,輸出預(yù)測嵌入。




研究小組通過視頻進行自我監(jiān)督學習來訓(xùn)練V-JEPA 這樣就可以在不需要額外人工標注的情況下進行視頻訓(xùn)練。


V-JEPA 2練習涉及兩個階段:第一,沒有動作預(yù)訓(xùn)練(左邊是下圖),然后是額外的動作條件訓(xùn)練(下圖右邊)。



訓(xùn)練有素之后,V-JEPA 在運動理解方面取得了優(yōu)異的性能(在Something)-Something 達到77.3的v2 top-1精確度),并且在人類動作預(yù)測方面達到了目前的最佳水平(Epic-Kitchens-recalll100達到39.7-at-5),超越了以往的特定任務(wù)模型。




另外,將V-JEPA 2與大型語言模型對齊后,團隊在8B參數(shù)規(guī)模下的多個視頻問答任務(wù)中顯示出當前最佳性能(例如,在PerceptionTest上達到84.0,在TempCompass上達到76.9)。



對于短期任務(wù),例如撿起或放置物體,團隊以圖像的形式指定目標。


使用V-JEPA 2編碼器可以嵌入當前狀態(tài)和目標狀態(tài)。


從目前的狀態(tài)來看,機器人可以通過使用預(yù)測器來想象采用一系列替代動作的后果,并根據(jù)其接近目標的速度對替代動作進行評分。


每一步,機器人都會通過模型預(yù)測控制重新規(guī)劃并實施下一步對該目標進行最高評分。


對于更長時間的任務(wù),例如,撿起物體并將其放置在正確的位置,指定一系列機器人試圖按順序?qū)崿F(xiàn)的視覺子目標,類似于人類所看到的視覺模仿學習。


通過這些視覺子目標,V-JEPA 2在新的、未見過的環(huán)境中撿起和放置新物體時,通過率達到65%–80%。



理解新的物理標準


Meta還發(fā)布了三個新的基準測試,用于評估目前的模型了解和推理視頻中物理世界的能力。


雖然人類在三個基準測試中表現(xiàn)出色(準確率85%)–95%),但是人類的表現(xiàn)和包括V-JEPA 2頂級模型之間存在明顯的差距,這表明模型需要改進的重要方向。


IntPhys 2在早期IntPhys基準測試的基礎(chǔ)上,專門設(shè)計來衡量模型在物理上可能和不可能的場景之間的區(qū)分,并進行構(gòu)建和擴展。


該團隊通過一個游戲引擎生成視頻對,其中兩個視頻在某一點之前完全一致,然后其中一個視頻發(fā)生了物理破壞。


模型必須確定哪個視頻發(fā)生了物理破壞。


雖然在各種情況和環(huán)境下,人類在這項任務(wù)中幾乎達到了完美的準確性,但目前的視頻模型正處于或接近隨機水平。



Minimal Video Pairs (MVPBench)視頻語言模型的物理理解能力通過多選題測量。


它旨在緩解視頻語言模型中常見的捷徑解決方案,例如依靠表面視覺或文本線索和偏見。


MVPBench中的每一個例子都有一個最小的變化:視覺上相似的視頻,以及相同的問題,但是答案是相反的。


為獲得一個例子的分數(shù),模型必須正確回答其最小變化對。



CausalVQA測量視頻語言模型回答與物理邏輯有關(guān)的問題的能力。


這個標準旨在理解物理世界視頻中的邏輯關(guān)系,包括反事實(如果...會發(fā)生什么)、期望(下一步可能會發(fā)生什么)和計劃(下一步應(yīng)該采取什么行動來實現(xiàn)目標)有關(guān)。


雖然大型多模態(tài)模型在回答視頻中“發(fā)生了什么”的問題方面的能力越來越強,但在回答“可能發(fā)生了什么”和“接下來可能發(fā)生了什么”的問題時,仍然存在困難。


這表明,在給定行動和事件空間的情況下,預(yù)測物理世界可能如何進化,與人類表現(xiàn)存在巨大差距。



One More Thing


Meta還展示了企業(yè)在通往高級機器智能的道路上的下一步計劃。


目前,V-JEPA 二是只能在單一的時間尺度上學習和預(yù)測。


但是,許多任務(wù)需要跨越多個時間尺度來規(guī)劃。


所以一個重要的方向就是發(fā)展致力于訓(xùn)練,能夠在多個時間和空間尺度上學習、推理和布局。分層次JEPA模型。


另外一個重要方向是多模態(tài)這些模型可以使用多種感官(包括視覺、音頻和觸覺)來預(yù)測JEPA模型。


項目地址:GitHub:https://github.com/facebookresearch/vjepa2Hugging Face:https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497


參考鏈接:


[1]https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/


[2]https://x.com/AIatMeta/status/1932808881627148450


[3]https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/


本文來自微信微信官方賬號“量子位”,作者:關(guān)注前沿技術(shù),36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com