谷歌推出機(jī)器人新“大腦”模型,具備思考與跨形態(tài)學(xué)習(xí)能力
谷歌發(fā)布了Gemini Robotics 1.5,讓機(jī)器人學(xué)會(huì)思考協(xié)作,還能跨不同具身形態(tài)學(xué)習(xí)技能。未來,機(jī)器人有望成為能與人類協(xié)作、主動(dòng)完成復(fù)雜任務(wù)的智能伙伴。
谷歌又為機(jī)器人“換大腦”了。DeepMind剛發(fā)布了針對(duì)機(jī)器人和具身智能的Gemini Robotics 1.5系列家族模型,這是專為機(jī)器人和具身智能打造的新一代“大腦”。
Gemini Robotics 1.5系列包含Gemini Robotics 1.5和Gemini Robotics - ER 1.5。
- Gemini Robotics 1.5是最先進(jìn)的視覺 - 語言 - 行動(dòng)模型,可將視覺信息和指令轉(zhuǎn)化為機(jī)器人的運(yùn)動(dòng)指令以執(zhí)行任務(wù)。
- Gemini Robotics - ER 1.5是最強(qiáng)大的視覺 - 語言模型,能對(duì)物理世界進(jìn)行推理,直接調(diào)用數(shù)字工具,并創(chuàng)建詳細(xì)的多步驟計(jì)劃來完成任務(wù)。
二者結(jié)合構(gòu)建出一個(gè)強(qiáng)大的智能體框架。

在一個(gè)1分40秒的視頻中,谷歌研究科學(xué)家讓兩個(gè)機(jī)器人完成了兩個(gè)不同任務(wù)。
第一個(gè)任務(wù)是垃圾分類。讓Aloha根據(jù)舊金山的垃圾分類標(biāo)準(zhǔn),把物品分到堆肥(綠桶)、回收(藍(lán)桶)和垃圾(黑桶)里。Aloha通過查閱規(guī)則并觀察物品,完成了分類任務(wù)。
第二個(gè)任務(wù)是打包行李。讓Apollo幫忙打包去倫敦旅行的行李,并放入針織帽。Apollo還主動(dòng)查詢天氣,提醒倫敦多天會(huì)下雨,并貼心地把雨傘也放進(jìn)包里。
整體來看,在最新系列模型的加持下,機(jī)器人越來越有科幻電影里的感覺了。
為實(shí)體任務(wù)開啟智能體體驗(yàn)
想象一下,一個(gè)機(jī)器人不僅能看懂你家客廳的雜物,還能規(guī)劃、思考并親手收拾干凈。Gemini Robotics 1.5朝著這個(gè)目標(biāo)邁出了關(guān)鍵一步。
它讓機(jī)器人具備“思考后行動(dòng)”的能力,能在復(fù)雜環(huán)境中像人類一樣理解、推理并完成多步驟任務(wù)。這一突破,有望開啟通用機(jī)器人的新時(shí)代。
Gemini Robotics - ER 1.5擅長(zhǎng)在物理環(huán)境中進(jìn)行規(guī)劃與邏輯決策,擁有頂尖的空間理解能力,支持自然語言交互,可評(píng)估任務(wù)成功率與進(jìn)度,并能直接調(diào)用谷歌搜索等工具獲取信息或使用任何第三方用戶自定義功能。

隨后,Gemini Robotics - ER 1.5會(huì)為Gemini Robotics 1.5提供每一步的自然語言指令,后者則運(yùn)用其視覺與語言理解能力直接執(zhí)行具體動(dòng)作。
Gemini Robotics 1.5還能協(xié)助機(jī)器人反思自身行為,以更好地解決語義復(fù)雜的任務(wù),甚至能用自然語言解釋其思考過程,這讓它的決策更加透明。
這兩款模型均基于核心Gemini模型家族構(gòu)建,并通過不同數(shù)據(jù)集進(jìn)行微調(diào)以專精于各自職能。當(dāng)它們協(xié)同工作時(shí),可顯著提升機(jī)器人對(duì)長(zhǎng)周期任務(wù)和多樣化環(huán)境的泛化能力。
先理解「環(huán)境」再「行動(dòng)」
Gemini Robotics - ER 1.5是首個(gè)為具身推理優(yōu)化的思維模型,在學(xué)術(shù)和內(nèi)部基準(zhǔn)測(cè)試中均實(shí)現(xiàn)了最先進(jìn)的性能表現(xiàn)。

下面展示了Gemini Robotics - ER 1.5的部分能力,包括物體檢測(cè)與狀態(tài)估計(jì)、分割掩碼、指向識(shí)別、軌跡預(yù)測(cè)以及任務(wù)進(jìn)度評(píng)估與成功檢測(cè)。

三「思」而后「行」
傳統(tǒng)上,視覺 - 語言 - 動(dòng)作模型直接將指令或語言規(guī)劃轉(zhuǎn)化為機(jī)器人的運(yùn)動(dòng)。但Gemini Robotics 1.5不僅能翻譯指令或規(guī)劃,如今還能在行動(dòng)前進(jìn)行思考。
這意味著它能以自然語言生成內(nèi)部推理與分析序列,從而執(zhí)行需要多步驟或更深層語義理解的任務(wù)。
在一段3分40秒的視頻中,谷歌科學(xué)家展示了機(jī)器人如何完成更復(fù)雜的任務(wù)。
比如第一段將不同顏色的水果分類放到對(duì)應(yīng)的盤子里。機(jī)器人需要能感知環(huán)境、分析顏色并逐步完成動(dòng)作。
第二段Apollo被要求幫助分類洗衣物和打包物品。它能自主思考并在執(zhí)行中展現(xiàn)出鏈?zhǔn)饺蝿?wù)規(guī)劃與反應(yīng)能力,例如調(diào)整籃子來更好地?fù)炱鹨挛?,或?qū)εR時(shí)變化作出即時(shí)反應(yīng)。
跨越不同形態(tài)的具身機(jī)器人學(xué)習(xí)
機(jī)器人形態(tài)各異、大小不一,具備不同的感知能力和自由度,這使得將從一個(gè)機(jī)器人學(xué)到的動(dòng)作遷移到另一個(gè)機(jī)器人變得困難。
Gemini Robotics 1.5展現(xiàn)出卓越的跨具身學(xué)習(xí)能力,它能將從一個(gè)機(jī)器人學(xué)到的動(dòng)作遷移到另一個(gè)機(jī)器人,無需針對(duì)每種新形態(tài)專門調(diào)整模型。
這一突破加速了新行為的學(xué)習(xí)進(jìn)程,助力機(jī)器人變得更智能、更實(shí)用。
在一段2分鐘的視頻里,谷歌科學(xué)家展示了不同“物種”機(jī)器人之間如何泛化學(xué)習(xí)。在Gemini Robotics 1.5中,一個(gè)模型可以跨多個(gè)機(jī)器人使用。
比如Aloha在衣柜場(chǎng)景中已有經(jīng)驗(yàn),而Apollo從未見過,卻能通過遷移學(xué)習(xí)完成開門、拿衣服等全新動(dòng)作。這展示了“跨具身學(xué)習(xí)”的潛力。
未來,不同場(chǎng)景中的機(jī)器人(如物流、零售)可互相學(xué)習(xí),從而大大加快通用機(jī)器人研發(fā)的進(jìn)程。
參考資料:
https://deepmind.google/discover/blog/gemini - robotics - 15 - brings - ai - agents - into - the - physical - world/
本文來自微信公眾號(hào)“新智元”,作者:定慧,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





