亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

谷歌揭秘Genie 3:Sora后最強AI爆款,開啟世界模型新紀元

08-18 07:21
Genie 3是邁向AGI的重要一步,它是有史以來最先進的世界模型之一。僅依靠文本,它就能實時生成完全互動、高度一致的世界。它不僅是DeepMind多年積累的成果,更是通向AGI和具身智能體的關(guān)鍵一環(huán)。那么,Genie 3是如何構(gòu)建的?未來的世界模型又會是什么模樣呢?

剛剛,谷歌DeepMind的研究科學(xué)家Jack Parker - Holder和研究總監(jiān)Shlomi Fruchter,在a16z的訪談中分享了他們的見解。



這次對話讓我們得以第一手了解Genie 3。主持人Justine Moore發(fā)推稱:「Genie 3在網(wǎng)絡(luò)上引發(fā)熱潮」。



他總結(jié)了訪談要點:

Genie 3是由兩個DeepMind項目(Veo 2和Genie 2)合作的結(jié)晶。

實時、互動的世界模型有諸多潛在應(yīng)用。

不過,應(yīng)用并非推動研究的主要動力,它們是在用戶使用模型的過程中自然產(chǎn)生的。

Genie 3可保留長達一分鐘的空間記憶。

物理規(guī)律是模型的「自然產(chǎn)物」,會隨訓(xùn)練數(shù)據(jù)的規(guī)模和深度不斷提升。

目前還沒有一個「終極模型」能同時具備Veo 3和Genie 3的所有能力。

Genie 3:AI新魔法

如果說LLM的原生圖像編輯功能「動動嘴PS」是「言出法隨」,那Genie 3這次的新特性該怎么形容呢?只需輸入文本提示,Genie 3就能生成動態(tài)世界,用戶可以實時探索,每秒可達24幀,分辨率為720p。

十多年來,谷歌DeepMind一直專注于模擬環(huán)境的研究。Genie 3是他們最新、最強的「世界模型」,是通向通用人工智能(AGI)的關(guān)鍵一步,因為它能讓AI智能體在無限豐富的模擬環(huán)境中訓(xùn)練。

去年,他們推出了首批基礎(chǔ)世界模型Genie 1和Genie 2,能為智能體生成全新環(huán)境。此外,他們還通過Veo 2和Veo 3等視頻生成模型,不斷提升對直觀物理的理解能力。

這些模型在世界模擬的不同能力上都有進步。Genie 3是谷歌首個支持實時交互的世界模型,同時提升了一致性和真實感。



Genie 3在生成視頻時長、世界一致性、內(nèi)容多樣性、特殊記憶等方面都實現(xiàn)了突破。它甚至能讓個人創(chuàng)造自己的游戲世界、訓(xùn)練強化學(xué)習(xí)的智能體、用于機器人研究等。所有這些應(yīng)用都源于一個核心能力:只用幾句話就能生成一個完整的世界。

最關(guān)鍵的新特性是:特殊記憶。

比如,一個角色拿著刷子在墻上刷漆,然后移動到墻的另一邊刷,再回到原來位置,之前刷的痕跡依然存在。特殊記憶是DeepMind團隊有意設(shè)計的目標,最終效果好得超出預(yù)期。就連Genie 3的內(nèi)部成員,第一次看到刷墻示例時都不敢相信,要再三觀看、逐幀檢查才確定是模型生成的。



其實,Genie 2就有一些「記憶能力」,但當時AI界有很多令人激動的模型發(fā)布,谷歌主打的賣點是「可以生成新的世界」,所以記憶能力未被重點強調(diào)。到了Genie 3,谷歌DeepMind明確把「增強記憶能力」作為核心目標之一。

當時設(shè)定的目標是:

超過一分鐘的記憶、

支持「實時生成」、

還能提升「分辨率」。

這幾個目標相互矛盾,但谷歌毫不畏懼。直到項目快結(jié)束,看到最終樣本時,他們?nèi)愿械秸鸷?。畢竟,研究項目沒有百分百的確定性。

在設(shè)計上,他們明確不采用「顯式表示法」。市面上有些方法,如用NeRF或Gaussian Splatting等技術(shù)構(gòu)建明確的3D世界結(jié)構(gòu)來達到一致性,效果不錯。但他們堅持讓模型「逐幀生成」,這種方式更有助于模型的泛化能力和適應(yīng)多樣世界的能力。

智能涌現(xiàn),驚喜不斷

和其他生成式模型一樣,隨著規(guī)模擴大,效果會提升,這已不是秘密。盡管Genie 3在推理能力的涌現(xiàn)表現(xiàn)不如語言模型,但它依然涌現(xiàn)出一些令人驚喜的行為。比如,一個角色靠近門時,模型可能會「推測」角色應(yīng)打開門;這類符合人類直覺的行為,模型現(xiàn)在能一定程度上表現(xiàn)出來。

而且,模型對語言的理解不斷提升,生成內(nèi)容更真實,視覺效果更自然。從Genie 2到Genie 3的提升很明顯,特別是在「模擬現(xiàn)實世界能力」上有巨大飛躍。

比如物理效果的表現(xiàn),像水的模擬、光照的變化都很驚艷,現(xiàn)在非專業(yè)人士看了也會覺得是真實拍攝的視頻。而在Genie 2時代,一眼就能看出是AI生成的。

現(xiàn)在的視頻真假難辨,進步顯著。

在「地形多樣性」方面,模型需要理解在沙地上行走、下坡滑雪、水中游泳等不同動作和物理反饋。谷歌團隊發(fā)現(xiàn)這些行為大多是規(guī)模和數(shù)據(jù)廣度帶來的「涌現(xiàn)能力」,即模型通過豐富的訓(xùn)練數(shù)據(jù)掌握了「世界」的通用常識,多數(shù)時候表現(xiàn)良好。

比如,滑雪時角色下坡速度變快,上坡變慢甚至爬不上去;下水后角色會游泳或濺起水花;靠近水坑時,模型會讓角色穿上雨靴。這些行為自然,與人類對真實世界的理解一致,就像魔法一樣。

這里還有一個有趣的權(quán)衡:既能保持世界的「物理一致性」,又能忠實地執(zhí)行用戶的提示詞。對視頻模型來說,「低概率事件」很難,但Genie 3表現(xiàn)不錯。即便現(xiàn)實中不太可能發(fā)生的場景,Genie 3也能讓人身臨其境,而不是生成無聊的視頻。

在「指令跟隨/文本對齊」方面,Genie 3也有提升,這得益于DeepMind內(nèi)部不同項目(特別是Veo項目)的經(jīng)驗遷移和知識共享,跨團隊協(xié)作是DeepMind的優(yōu)勢。世界模型是讓智能體走向現(xiàn)實世界的捷徑,Genie 3朝著這個目標邁進了一大步。那么,Genie 4、Genie 5會有哪些新特性呢?

未來的關(guān)鍵,真實感和交互性

總體而言,Genie 3團隊最關(guān)注的是讓模型更強大,產(chǎn)生更廣泛影響,然后把創(chuàng)造應(yīng)用的機會交給其他團隊。他們表示最終會開放Genie 3模型。

誠然,世界模型距離「準確模擬現(xiàn)實世界」還有很大差距。比如,把人放進生成的世界里隨心所欲做事,目前還做不到。要讓虛擬世界的真實感和自由度接近現(xiàn)實,還有很多工作要做。

應(yīng)用有很多,關(guān)鍵在于能否準確模擬世界,并把人放進去。也許還能從「第三視角」觀察自己,或與虛擬智能體互動。

他們還透露真實感交互性是未來的關(guān)鍵。目前機器人領(lǐng)域最大的瓶頸之一是數(shù)據(jù)有限,而Genie 3能生成幾乎無限的場景,機器人可以在虛擬世界里學(xué)習(xí),不再局限于現(xiàn)實采集的視頻,這一想法令人興奮。

最后一個問題:人類是否生活在某種模擬中?這個問題被多次提及,得到了「哲學(xué)化」的回答:如果是模擬,那它運行在完全不同的硬件之上。如果人類真生活在模擬世界,那絕不是運行在現(xiàn)在的硬件上,因為我們的世界是連續(xù)的,不是數(shù)字化的,所有感知都是連續(xù)信號。也許在量子層面有「硬件限制」,但和現(xiàn)在的計算機完全不同?;蛟S未來量子計算機才是運行我們這個模擬世界的真正平臺。

本文來自微信公眾號“新智元”,作者:新智元,36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com