亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

谷歌推出最強機器人大腦,解鎖垃圾分類等復(fù)雜任務(wù),關(guān)鍵技術(shù)揭秘

09-27 06:54

智東西9月26日報道,今天,谷歌DeepMind推出Gemini Robotics 1.5系列機器人模型,借助思維鏈機制和模型協(xié)作,進一步增強機器人的自主性,使其能夠感知、計劃、思考、使用工具并行動,從而更好地解決復(fù)雜的多步驟任務(wù)。谷歌將其視為把AI agents帶入物理世界的重要一步。


谷歌DeepMind此次發(fā)布的兩款模型分別為Gemini Robotics 1.5和Gemini Robotics - ER 1.5。前者是谷歌目前最強大的VLA(視覺 - 語言 - 動作)模型,能把視覺信息和文本指令轉(zhuǎn)化為機器人的控制命令,主要充當機器人的小腦。該模型在行動前會思考并展示思考過程,還能在不同的機器人本體上學(xué)習(xí),提高學(xué)習(xí)效率。


Gemini Robotics - ER 1.5則是谷歌迄今為止最強大的VLM模型(視覺語言模型),能對物理世界進行推理,更像是機器人的大腦。它天生具備調(diào)用數(shù)字工具并創(chuàng)建詳細多步驟計劃以完成任務(wù)的能力。該模型在空間理解基準測試中表現(xiàn)出最先進的性能,具身推理能力遠超GPT - 5、Gemini 2.5 Flash等模型。



搭載這兩款新模型的機器人,因此獲得了完成復(fù)雜長鏈路任務(wù)的能力。比如,你可以讓機器人查詢當?shù)乩诸愐?,將桌面上的物品放到正確的垃圾桶中。模型能準確理解這一復(fù)雜需求,并驅(qū)動機器人完成任務(wù)。



開發(fā)者可通過Google AI Studio中的Gemini API使用Gemini Robotics - ER 1.5模型,而Gemini Robotics 1.5目前僅供部分合作伙伴使用。谷歌還發(fā)布了Gemini Robotics 1.5系列模型的技術(shù)報告


技術(shù)報告:


https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf


模型鏈接:


https://deepmind.google/models/gemini-robotics/gemini-robotics/


01.基于Gemini基礎(chǔ)模型打造,訓(xùn)練數(shù)據(jù)來自3款機器人


對機器人來說,大多數(shù)日常任務(wù)都需要上下文信息和多個步驟才能完成,這對當前的機器人而言是個挑戰(zhàn)。為幫助機器人完成復(fù)雜、多步驟的任務(wù),谷歌DeepMind讓Gemini Robotics 1.5和Gemini Robotics - ER 1.5兩款模型在同一個Agent框架中協(xié)同工作。


具身推理模型Gemini Robotics - ER 1.5像大腦一樣協(xié)調(diào)機器人的活動。該模型擅長在物理環(huán)境中進行規(guī)劃和做出邏輯決策,具有先進的空間理解能力,能以自然語言與用戶交互,評判任務(wù)是否成功和任務(wù)進展,還可以調(diào)用谷歌搜索等工具查找信息,或使用任何第三方用戶定義的函數(shù)。


Gemini Robotics - ER 1.5為每個步驟提供自然語言指令,而Gemini Robotics 1.5利用其視覺和語言理解直接執(zhí)行特定動作。Gemini Robotics 1.5還幫助機器人思考其行動,以更好地解決語義復(fù)雜的任務(wù),甚至可以用自然語言解釋其思維過程,使決策更透明。



這兩個模型都基于Gemini系列模型構(gòu)建,這使它們能夠繼承Gemini的多模態(tài)世界知識、先進推理以及工具使用的通用能力。之后,兩款模型使用不同的數(shù)據(jù)集進行微調(diào),以專注于各自的角色。當它們結(jié)合時,可以提高機器人泛化到長任務(wù)和多樣化環(huán)境的能力。


Gemini Robotics 1.5系列模型共同使用的訓(xùn)練數(shù)據(jù)集由三種模態(tài)組成:圖像、文本,以及機器人傳感器與動作數(shù)據(jù)。


訓(xùn)練所用的機器人數(shù)據(jù)集是多本體(multi - embodiment)的,涵蓋數(shù)千個多樣化任務(wù),從抓取與操控,到雙臂協(xié)作,再到人形機器人執(zhí)行日常復(fù)雜任務(wù)。這些數(shù)據(jù)采集自多個異構(gòu)機器人平臺,包括ALOHA、Bi - arm Franka和Apollo人形機器人。



Gemini Robotics 1.5系列模型能直接完成跨本體任務(wù)


除了機器人專屬數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)中還包含來自互聯(lián)網(wǎng)的公開文本、圖像和視頻數(shù)據(jù)集,使模型不僅具備機器人相關(guān)技能,還能借助大規(guī)模世界知識提升泛化能力。


為確保訓(xùn)練的高質(zhì)量與安全性,所有數(shù)據(jù)在使用前都要經(jīng)過嚴格處理。谷歌DeepMind通過多階段篩選,確保數(shù)據(jù)遵循相關(guān)政策,去除低質(zhì)量樣本與不符合規(guī)范的內(nèi)容。


數(shù)據(jù)集中每張圖像都配有原始描述與合成描述,這些合成描述由Gemini和FlexCap模型生成,幫助模型捕捉圖像中的細節(jié)與上下文語義。


訓(xùn)練過程中使用了最新一代硬件,包括TPU v4、v5p與v6e,并結(jié)合JAX與ML Pathways框架,以實現(xiàn)高效并行訓(xùn)練與跨平臺擴展。


02.靠動作遷移機制實現(xiàn)跨本體,讓機器人學(xué)會“三思而后行”


作為一款VLA模型,Gemini Robotics 1.5的任務(wù)是“理解指令并將其轉(zhuǎn)化為動作”。為實現(xiàn)這一目標,研究者在訓(xùn)練中引入了關(guān)鍵機制——動作遷移(Motion Transfer, MT)。


MT的作用是打破不同機器人之間的“壁壘”。在傳統(tǒng)方法中,一個機器人學(xué)會某項技能后,往往需要額外訓(xùn)練才能遷移到另一個機器人。


而在MT的支持下,Gemini Robotics 1.5能夠在不同實體之間直接實現(xiàn)零樣本遷移(Zero - shot Transfer)。也就是說,即便模型只在ALOHA機器人平臺上學(xué)過“打開抽屜”,它也能在Apollo人形機器人上完成同樣的任務(wù)。


這一能力源于MT機制對動作與物理的統(tǒng)一建模,它能對齊不同平臺的數(shù)據(jù)并提取其中的共性。


此外,Gemini Robotics 1.5還具備具身思考(Embodied Thinking)的能力。它在執(zhí)行動作前,會生成一條以自然語言形式呈現(xiàn)的“思考軌跡”。這條軌跡幫助模型將復(fù)雜任務(wù)拆解為更細致的步驟。


例如,當接到“幫我收拾桌子”的指令時,模型可能會先在思考中分解為“拿起杯子”、“移動到水槽”、“放下杯子”等小步驟。這種方式不僅降低了從語言到動作的直接映射難度,也讓模型在執(zhí)行過程中更具魯棒性。


如果杯子在移動過程中掉落,它會立刻調(diào)整思考軌跡,改為“重新拾起杯子”,而不是簡單判定任務(wù)失敗。


與Gemini Robotics 1.5不同,Gemini Robotics - ER 1.5并不直接操控機器人執(zhí)行具體動作,而是專注于具身推理(Embodied Reasoning),負責(zé)高層次的任務(wù)規(guī)劃與決策。


在訓(xùn)練中,Gemini Robotics - ER 1.5針對機器人任務(wù)所需的關(guān)鍵能力進行了特別優(yōu)化。首先,它能夠完成復(fù)雜的任務(wù)規(guī)劃,把長遠目標拆解成一系列合理的子任務(wù)。


其次,它具備較強的空間推理能力,可以結(jié)合視覺與時間信息,理解物體的相對位置與運動軌跡。最后,它還能夠進行任務(wù)進度估計,實時判斷任務(wù)是否成功、完成度如何,并據(jù)此調(diào)整后續(xù)動作。



Gemini Robotics - ER 1.5能完成的部分任務(wù)


Gemini Robotics - ER 1.5在15個學(xué)術(shù)具身推理基準測試中實現(xiàn)了最高的綜合性能,超過Gemini Robotics - ER 1.0和GPT - 5等模型。



它能夠?qū)⒄Z言描述準確地映射到視覺目標上,比如“指向桌子左下角的藍色杯子”,或是基于多視角信息實時判斷機器人動作是否達成目標,這對長序列任務(wù)的穩(wěn)定執(zhí)行至關(guān)重要。


在整個體系中,Gemini Robotics - ER 1.5的定位是編排器(Orchestrator)。它接收人類指令與環(huán)境反饋,制定總體計劃,再將這些計劃轉(zhuǎn)化為Gemini Robotics 1.5能執(zhí)行的具體動作指令。它還具備調(diào)用外部工具(如網(wǎng)絡(luò)搜索)的能力,確保機器人在面對復(fù)雜場景時能靈活應(yīng)對。


不過,具備更高自主性和執(zhí)行能力的機器人,也可能帶來安全風(fēng)險。為此,谷歌DeepMind已經(jīng)開發(fā)了新型的安全和對齊方法,包括頂層的安全判斷機制和更為底層的安全子系統(tǒng)(如用于避免碰撞的系統(tǒng))。


谷歌DeepMind還發(fā)布了機器人安全基準測試ASIMOV的升級版,這是一個用于評估和改進語義安全性的綜合數(shù)據(jù)集,具有更好的邊緣場景覆蓋率、改進的注釋、新的安全問題類型和新的視頻模式。


在ASIMOV基準測試中,Gemini Robotics - ER 1.5顯示出最先進的性能,其思維能力極大地有助于提高對語義安全的理解,更好地遵守物理安全約束。


03.結(jié)語:機器人模型跨本體化共識逐漸形成


與傳統(tǒng)依賴單一數(shù)據(jù)和特定平臺的訓(xùn)練方式不同,Gemini Robotics 1.5系列模型通過多本體數(shù)據(jù)、動作遷移機制,以及具身思考與推理范式,讓機器人能夠跨平臺遷移技能,并在復(fù)雜環(huán)境中展現(xiàn)出類似人類的適應(yīng)能力,擴展了機器人模型的通用性。


而這也成為不少廠商打造機器人模型的目標之一。日前,宇樹開源的機器人世界大模型UnifoLM - WMA - 0,雖采用了不同的架構(gòu),但也具備適配多種機器人本體的能力??绫倔w化,或許已逐漸成為行業(yè)的共識與新賽道。


本文來自微信公眾號“智東西”(ID:zhidxcom),作者:陳駿達,編輯:云鵬,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com