波士頓動力機(jī)器狗“五條腿”協(xié)同發(fā)力,高效搬運輪胎
波士頓動力的機(jī)器狗gogo回歸,這次它展現(xiàn)出驚人的“五條腿”協(xié)同發(fā)力技能,甚至還能實現(xiàn)面部代償發(fā)力!
機(jī)器狗搬輪胎時,“五只腿”一同使勁。
在波士頓動力人工智能研究所的最新方法——結(jié)合采樣與學(xué)習(xí)的動態(tài)全身操作中,波士頓動力的機(jī)器狗Spot表現(xiàn)出色,最快僅用3.7秒就能搬起輪胎。
搬運的輪胎重達(dá)15公斤,這相當(dāng)于Spot自身重量(32.7千克)的一半,并且遠(yuǎn)超其最大臂力。
而且,搬起輪胎后,它還能將輪胎滾動到指定位置。
甚至還能把一個輪胎疊到另一個輪胎上面,過程中還會用頭幫忙頂一下。
這一方法克服了傳統(tǒng)操作策略在不同機(jī)器人形態(tài)學(xué)結(jié)構(gòu)上的遷移限制,通過分層控制實現(xiàn)了機(jī)器狗四肢與全身的協(xié)調(diào)動力學(xué)操作。
網(wǎng)友調(diào)侃道,狗子快去回收站搬輪胎吧!
那么,這是怎么做到的呢?
結(jié)合采樣與學(xué)習(xí)的動態(tài)全身操作
總的來說,結(jié)合采樣與學(xué)習(xí)的動態(tài)全身操作利用強(qiáng)化學(xué)習(xí)與基于采樣的控制相結(jié)合的方法,使機(jī)器人能夠執(zhí)行需要手臂、雙腿和軀干協(xié)同配合的動態(tài)力交互任務(wù)。
為應(yīng)對復(fù)雜的操作任務(wù),研究采用了分層控制方法,將控制問題劃分為兩個互補(bǔ)且同步的層級。
在低層,基于強(qiáng)化學(xué)習(xí)的運動策略直接控制電機(jī)力矩,以實現(xiàn)平衡、穩(wěn)定性與運動執(zhí)行。
高層控制則根據(jù)任務(wù)類型而有所不同:
對于輪胎扶正、拖拽與堆疊等任務(wù),系統(tǒng)采用基于采樣的控制,通過模擬潛在的未來情境來發(fā)現(xiàn)最優(yōu)操作策略。
對于輪胎滾動任務(wù),則使用強(qiáng)化學(xué)習(xí)來捕捉維持物體穩(wěn)定運動所需的細(xì)微動力學(xué)特征與反應(yīng)性控制機(jī)制。
所有的高層方法,最終都會輸出包括底盤速度、姿態(tài)參數(shù)(包括滾轉(zhuǎn)、俯仰、高度 )、腿部控制以及手臂動作等指令。
在采樣控制中,采樣控制器通過并行模擬多個未來情境,尋找最有效的操作策略,從而選擇最能實現(xiàn)任務(wù)目標(biāo)的動作。
對于那些需要精確施力和多接觸協(xié)調(diào)的任務(wù),系統(tǒng)會運行32個并行CPU線程,每個線程使用MuJoCo模擬未來幾秒內(nèi)的不同動作序列。
與直接采樣原始軌跡不同,研究在樣條曲線空間中進(jìn)行采樣,這種方式能生成更平滑、更自然的運動軌跡,同時降低搜索空間的維度。
該控制器展現(xiàn)出源自物理仿真的機(jī)會性行為。在輪胎扶正過程中,控制器自主發(fā)現(xiàn)了復(fù)雜的操作策略:機(jī)器人通過Spot Arm與前腿動作的協(xié)調(diào),產(chǎn)生足夠的杠桿力以抬起沉重的輪胎。
為了適應(yīng)多樣的初始構(gòu)型,機(jī)器人可能使用手臂、前腿、身體,或這些部位的組合來靈活調(diào)整操作策略。
值得一提的是,系統(tǒng)并未預(yù)設(shè)任何固定的操作模式。這種多肢體、多接觸的行為,是在采樣過程中優(yōu)化自然涌現(xiàn)的結(jié)果,而非通過顯式編程設(shè)定接觸順序?qū)崿F(xiàn)的。
此外,控制器會根據(jù)實驗室空間中機(jī)器人與輪胎的當(dāng)前構(gòu)型動態(tài)調(diào)整策略。
在具體的強(qiáng)化學(xué)習(xí)策略方面,研究通過PPO算法在IsaacLab中訓(xùn)練得到的運動策略。
這一策略為高層控制提供了穩(wěn)健的低層控制抽象,能夠在多種操作場景中保持平衡,從而使高層控制問題更易處理。
在輪胎滾動任務(wù)中,研究利用強(qiáng)化學(xué)習(xí)來應(yīng)對難以精確建模的復(fù)雜摩擦與接觸動力學(xué)。
其采用非對稱演員 - 評論家方法,在單塊GPU上經(jīng)過約24小時訓(xùn)練,得到高層技能策略。
該策略接收的觀測狀態(tài)包括機(jī)器人、輪胎與目標(biāo)之間的相對姿態(tài),以及關(guān)節(jié)位置與速度。獎勵函數(shù)則根據(jù)物體幾何形狀及其與環(huán)境的空間關(guān)系,計算期望的軀干與末端執(zhí)行器位置,引導(dǎo)策略學(xué)習(xí)達(dá)到目標(biāo)姿態(tài)。
訓(xùn)練得到的輪胎滾動策略使機(jī)器人能夠動態(tài)調(diào)整其軀干與Spot Arm的位置,以穩(wěn)定控制滾動的輪胎,防止其傾倒,并將其引導(dǎo)至目標(biāo)位置。
最后,為解決從仿真到現(xiàn)實的差距,訓(xùn)練過程中引入了隨機(jī)化,包括對物體的質(zhì)量、摩擦系數(shù)與形狀等屬性進(jìn)行隨機(jī)變化。
實測表現(xiàn)
正如開頭提到的,在輪胎扶正任務(wù)中,機(jī)器人最佳成績?yōu)?.7秒,平均每個輪胎用時5.9秒,幾乎達(dá)到人類在該任務(wù)中的操作速度。
這一表現(xiàn)遠(yuǎn)超傳統(tǒng)的準(zhǔn)靜態(tài)假設(shè)。
在準(zhǔn)靜態(tài)假設(shè)下,機(jī)器人操作物體時速度很慢,加速度產(chǎn)生的慣性被忽略,關(guān)節(jié)驅(qū)動力矩主要依賴靜態(tài)平衡。
而在這篇研究中,機(jī)器狗能夠高效搬運重達(dá)15千克的輪胎,遠(yuǎn)超其夾持器的峰值舉升能力(11 千克)和持續(xù)能力(5 千克)。
這說明機(jī)器人通過動態(tài)協(xié)調(diào)全身動作,將運動與操作緊密耦合,拓展了操作范圍,超越了傳統(tǒng)的拾取與放置方式。
此外,研究表明,將高層控制與低層控制分離能夠顯著簡化控制問題。
高層控制器無需在擁有數(shù)十個自由度的系統(tǒng)中推理關(guān)節(jié)力矩、接觸力以及穩(wěn)定性約束,而是僅在一個簡化的動作空間中工作,該空間由底盤速度和姿態(tài)參數(shù)構(gòu)成,其將執(zhí)行細(xì)節(jié)交由運動控制器處理,從而極大降低了復(fù)雜度。
分層控制架構(gòu)使得高層控制器能夠?qū)W⒂谌蝿?wù)完成,而無需顯式地推理平衡約束或地面接觸。
由此,學(xué)習(xí)得到的運動抽象層讓高層控制更簡單、計算更可行,控制器只需專注于“在哪里”和“如何操作物體”,無需處理復(fù)雜的低層動力學(xué)細(xì)節(jié)。
參考鏈接:
[1]https://rai-inst.com/resources/blog/combining-sampling-and-learning-for-dynamic-whole-body-manipulation/
[2]https://x.com/rai_inst/status/1978113805604258161
本文來自微信公眾號“量子位”,作者:henry,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com