亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

<bdo id="g5gkw"><meter id="g5gkw"></meter></bdo>

<rt id="g5gkw"></rt>

<bdo id="g5gkw"></bdo>

谷歌揭秘Genie 3：Sora后最強AI爆款，開啟世界模型新紀元

08-18 07:21

Genie 3是邁向AGI的重要一步，它是有史以來最先進的世界模型之一。僅依靠文本，它就能實時生成完全互動、高度一致的世界。它不僅是DeepMind多年積累的成果，更是通向AGI和具身智能體的關(guān)鍵一環(huán)。那么，Genie 3是如何構(gòu)建的？未來的世界模型又會是什么模樣呢？

剛剛，谷歌DeepMind的研究科學(xué)家Jack Parker - Holder和研究總監(jiān)Shlomi Fruchter，在a16z的訪談中分享了他們的見解。

這次對話讓我們得以第一手了解Genie 3。主持人Justine Moore發(fā)推稱：「Genie 3在網(wǎng)絡(luò)上引發(fā)熱潮」。

他總結(jié)了訪談要點：

Genie 3是由兩個DeepMind項目（Veo 2和Genie 2）合作的結(jié)晶。

實時、互動的世界模型有諸多潛在應(yīng)用。

不過，應(yīng)用并非推動研究的主要動力，它們是在用戶使用模型的過程中自然產(chǎn)生的。

Genie 3可保留長達一分鐘的空間記憶。

物理規(guī)律是模型的「自然產(chǎn)物」，會隨訓(xùn)練數(shù)據(jù)的規(guī)模和深度不斷提升。

目前還沒有一個「終極模型」能同時具備Veo 3和Genie 3的所有能力。

Genie 3：AI新魔法

如果說LLM的原生圖像編輯功能「動動嘴PS」是「言出法隨」，那Genie 3這次的新特性該怎么形容呢？只需輸入文本提示，Genie 3就能生成動態(tài)世界，用戶可以實時探索，每秒可達24幀，分辨率為720p。

十多年來，谷歌DeepMind一直專注于模擬環(huán)境的研究。Genie 3是他們最新、最強的「世界模型」，是通向通用人工智能（AGI）的關(guān)鍵一步，因為它能讓AI智能體在無限豐富的模擬環(huán)境中訓(xùn)練。

去年，他們推出了首批基礎(chǔ)世界模型Genie 1和Genie 2，能為智能體生成全新環(huán)境。此外，他們還通過Veo 2和Veo 3等視頻生成模型，不斷提升對直觀物理的理解能力。

這些模型在世界模擬的不同能力上都有進步。Genie 3是谷歌首個支持實時交互的世界模型，同時提升了一致性和真實感。

Genie 3在生成視頻時長、世界一致性、內(nèi)容多樣性、特殊記憶等方面都實現(xiàn)了突破。它甚至能讓個人創(chuàng)造自己的游戲世界、訓(xùn)練強化學(xué)習(xí)的智能體、用于機器人研究等。所有這些應(yīng)用都源于一個核心能力：只用幾句話就能生成一個完整的世界。

最關(guān)鍵的新特性是：特殊記憶。

比如，一個角色拿著刷子在墻上刷漆，然后移動到墻的另一邊刷，再回到原來位置，之前刷的痕跡依然存在。特殊記憶是DeepMind團隊有意設(shè)計的目標，最終效果好得超出預(yù)期。就連Genie 3的內(nèi)部成員，第一次看到刷墻示例時都不敢相信，要再三觀看、逐幀檢查才確定是模型生成的。

其實，Genie 2就有一些「記憶能力」，但當時AI界有很多令人激動的模型發(fā)布，谷歌主打的賣點是「可以生成新的世界」，所以記憶能力未被重點強調(diào)。到了Genie 3，谷歌DeepMind明確把「增強記憶能力」作為核心目標之一。

當時設(shè)定的目標是：

超過一分鐘的記憶、

支持「實時生成」、

還能提升「分辨率」。

這幾個目標相互矛盾，但谷歌毫不畏懼。直到項目快結(jié)束，看到最終樣本時，他們?nèi)愿械秸鸷?。畢竟，研究項目沒有百分百的確定性。

在設(shè)計上，他們明確不采用「顯式表示法」。市面上有些方法，如用NeRF或Gaussian Splatting等技術(shù)構(gòu)建明確的3D世界結(jié)構(gòu)來達到一致性，效果不錯。但他們堅持讓模型「逐幀生成」，這種方式更有助于模型的泛化能力和適應(yīng)多樣世界的能力。

智能涌現(xiàn)，驚喜不斷

和其他生成式模型一樣，隨著規(guī)模擴大，效果會提升，這已不是秘密。盡管Genie 3在推理能力的涌現(xiàn)表現(xiàn)不如語言模型，但它依然涌現(xiàn)出一些令人驚喜的行為。比如，一個角色靠近門時，模型可能會「推測」角色應(yīng)打開門；這類符合人類直覺的行為，模型現(xiàn)在能一定程度上表現(xiàn)出來。

而且，模型對語言的理解不斷提升，生成內(nèi)容更真實，視覺效果更自然。從Genie 2到Genie 3的提升很明顯，特別是在「模擬現(xiàn)實世界能力」上有巨大飛躍。

比如物理效果的表現(xiàn)，像水的模擬、光照的變化都很驚艷，現(xiàn)在非專業(yè)人士看了也會覺得是真實拍攝的視頻。而在Genie 2時代，一眼就能看出是AI生成的。

現(xiàn)在的視頻真假難辨，進步顯著。

在「地形多樣性」方面，模型需要理解在沙地上行走、下坡滑雪、水中游泳等不同動作和物理反饋。谷歌團隊發(fā)現(xiàn)這些行為大多是規(guī)模和數(shù)據(jù)廣度帶來的「涌現(xiàn)能力」，即模型通過豐富的訓(xùn)練數(shù)據(jù)掌握了「世界」的通用常識，多數(shù)時候表現(xiàn)良好。

比如，滑雪時角色下坡速度變快，上坡變慢甚至爬不上去；下水后角色會游泳或濺起水花；靠近水坑時，模型會讓角色穿上雨靴。這些行為自然，與人類對真實世界的理解一致，就像魔法一樣。

這里還有一個有趣的權(quán)衡：既能保持世界的「物理一致性」，又能忠實地執(zhí)行用戶的提示詞。對視頻模型來說，「低概率事件」很難，但Genie 3表現(xiàn)不錯。即便現(xiàn)實中不太可能發(fā)生的場景，Genie 3也能讓人身臨其境，而不是生成無聊的視頻。

在「指令跟隨/文本對齊」方面，Genie 3也有提升，這得益于DeepMind內(nèi)部不同項目（特別是Veo項目）的經(jīng)驗遷移和知識共享，跨團隊協(xié)作是DeepMind的優(yōu)勢。世界模型是讓智能體走向現(xiàn)實世界的捷徑，Genie 3朝著這個目標邁進了一大步。那么，Genie 4、Genie 5會有哪些新特性呢？

未來的關(guān)鍵，真實感和交互性

總體而言，Genie 3團隊最關(guān)注的是讓模型更強大，產(chǎn)生更廣泛影響，然后把創(chuàng)造應(yīng)用的機會交給其他團隊。他們表示最終會開放Genie 3模型。

誠然，世界模型距離「準確模擬現(xiàn)實世界」還有很大差距。比如，把人放進生成的世界里隨心所欲做事，目前還做不到。要讓虛擬世界的真實感和自由度接近現(xiàn)實，還有很多工作要做。

應(yīng)用有很多，關(guān)鍵在于能否準確模擬世界，并把人放進去。也許還能從「第三視角」觀察自己，或與虛擬智能體互動。

他們還透露真實感和交互性是未來的關(guān)鍵。目前機器人領(lǐng)域最大的瓶頸之一是數(shù)據(jù)有限，而Genie 3能生成幾乎無限的場景，機器人可以在虛擬世界里學(xué)習(xí)，不再局限于現(xiàn)實采集的視頻，這一想法令人興奮。

最后一個問題：人類是否生活在某種模擬中？這個問題被多次提及，得到了「哲學(xué)化」的回答：如果是模擬，那它運行在完全不同的硬件之上。如果人類真生活在模擬世界，那絕不是運行在現(xiàn)在的硬件上，因為我們的世界是連續(xù)的，不是數(shù)字化的，所有感知都是連續(xù)信號。也許在量子層面有「硬件限制」，但和現(xiàn)在的計算機完全不同?；蛟S未來量子計算機才是運行我們這個模擬世界的真正平臺。

本文來自微信公眾號“新智元”，作者：新智元，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

扎克伯格去年安保費達1.9億，超黃仁勛與庫克

李國慶婚禮現(xiàn)場大揭秘：郎才女貌，讓人重拾對愛情的信心

“馬路股市沙龍”再掀熱潮，股民百態(tài)盡顯

50億打造賽道，599元暢享仰望U9，比亞迪欲擺脫技術(shù)宅標簽

羅永浩爆料董宇輝年收入超20億，東方甄選股價飆升

<bdo id="g2kei"><tbody id="g2kei"></tbody></bdo>

<span id="g2kei"></span>

<label id="g2kei"></label>

<li id="g2kei"></li>

<bdo id="g2kei"></bdo>