宇樹(shù)科技王興興言論引關(guān)注,對(duì)智駕有何參考價(jià)值?
宇樹(shù)科技創(chuàng)始人王興興稱(chēng)VLA模型是“相對(duì)傻瓜式”的架構(gòu),同時(shí)認(rèn)為視頻生成模型有前景。這一觀點(diǎn)在智能駕駛領(lǐng)域引發(fā)了關(guān)注和爭(zhēng)議。
“VLA模型是相對(duì)傻瓜式的架構(gòu)?!?/strong>
2025年8月9日,在北京舉辦的2025世界機(jī)器人大會(huì)上,宇樹(shù)科技的創(chuàng)始人、CEO兼CTO王興興在演講中表達(dá)了這一觀點(diǎn)。盡管他是針對(duì)具身智能大模型發(fā)表看法,但這也讓人對(duì)當(dāng)前智能駕駛最熱門(mén)的模型方向產(chǎn)生了思考。包括極佳視界的CEO黃冠也吐槽他的觀點(diǎn)“太業(yè)余”。
王興興認(rèn)為,世界模型可能是更好的技術(shù)方向。不過(guò),在短期的未來(lái)2 - 5年,“最大的肯定還是一個(gè)端到端的具身智能AI模型”。在大會(huì)上,他從核心瓶頸、新興技術(shù)引擎及未來(lái)技術(shù)重心三個(gè)方面,對(duì)具身智能機(jī)器人的發(fā)展態(tài)勢(shì)進(jìn)行了梳理與分析。下面我們來(lái)看看他的觀點(diǎn)有何啟發(fā)。
核心瓶頸:模型不夠好
很多人認(rèn)為機(jī)器人未大規(guī)模應(yīng)用是因?yàn)橛布阅懿蛔慊虺杀具^(guò)高,但王興興指出,當(dāng)前機(jī)器人硬件(包括人形機(jī)器人的靈巧手、整機(jī)等)已基本夠用。從技術(shù)層面講,人形機(jī)器人的硬件能滿足基本需求,雖工程實(shí)施有挑戰(zhàn),但可支撐基礎(chǔ)功能實(shí)現(xiàn)。
他認(rèn)為,限制其大規(guī)模應(yīng)用的核心瓶頸是具身智能的AI大模型尚未成熟。
王興興覺(jué)得目前的機(jī)器人大模型(具身智能)發(fā)展階段,類(lèi)似ChatGPT發(fā)布前的1 - 3年,業(yè)界明確了方向和技術(shù)路線,但未突破關(guān)鍵臨界點(diǎn)。他認(rèn)為沒(méi)達(dá)到臨界點(diǎn),主要是行業(yè)對(duì)“數(shù)據(jù)”關(guān)注過(guò)高,忽視了模型本身的問(wèn)題。
王興興指出,具身智能發(fā)展的關(guān)鍵問(wèn)題是模型架構(gòu)不完善、缺乏統(tǒng)一性和泛用性,導(dǎo)致能力受限,數(shù)據(jù)也不能充分利用。以VLA模型為例,他認(rèn)為其是“相對(duì)傻瓜式的架構(gòu)”,在真實(shí)世界交互中對(duì)數(shù)據(jù)質(zhì)量依賴過(guò)高,適應(yīng)性不足,所以他對(duì)VLA模型的應(yīng)用前景持懷疑態(tài)度。
此外,“VLA模型 + RL訓(xùn)練”是常見(jiàn)的優(yōu)化思路,但他認(rèn)為實(shí)踐證明這還不夠,“模型架構(gòu)必須進(jìn)一步升級(jí),不能停留在簡(jiǎn)單組合層面”。
他還指出,“RL Scaling law(縮放定律)”的缺失也是限制發(fā)展的因素,導(dǎo)致機(jī)器人學(xué)習(xí)新任務(wù)時(shí)要從零開(kāi)始,訓(xùn)練效率低下。具身智能的理想狀態(tài)是“新任務(wù)訓(xùn)練基于舊有基礎(chǔ),速度越來(lái)越快、效果越來(lái)越好”,這在語(yǔ)言模型中已得到驗(yàn)證,在機(jī)器人運(yùn)動(dòng)控制領(lǐng)域雖處于起步階段,但潛力巨大,值得深入探索。
新技術(shù)方向:視頻生成模型
既然VLA模型不夠優(yōu)秀,那什么模型才是方向呢?王興興認(rèn)為,現(xiàn)階段視頻生成模型的路線可能比VLA模型更快,收斂概率更大。其核心邏輯是利用視頻生成模型預(yù)先“模擬生成機(jī)器人動(dòng)作序列的視頻”,指導(dǎo)實(shí)體機(jī)器人執(zhí)行動(dòng)作。例如,指令為“整理房間”,模型可先生成虛擬視頻,再轉(zhuǎn)化為控制信號(hào)。
不過(guò),王興興也指出,當(dāng)前視頻生成模型過(guò)度關(guān)注“視頻質(zhì)量”,導(dǎo)致GPU消耗較高,而機(jī)器人只需能驅(qū)動(dòng)動(dòng)作的視頻,這一矛盾有待解決。
未來(lái)技術(shù)重心:模型、硬件與算力網(wǎng)絡(luò)
王興興預(yù)判,未來(lái)2 - 5年,具身智能機(jī)器人的發(fā)展將聚焦三大方向:
一是統(tǒng)一的端到端智能機(jī)器人大模型。端到端模型是提升機(jī)器人能力的關(guān)鍵,未來(lái)要重點(diǎn)推動(dòng)其研發(fā),實(shí)現(xiàn)“基于既有訓(xùn)練基礎(chǔ)快速學(xué)習(xí)新技能”,提升通用性和效率。
二是更低成本、更高壽命的硬件及批量制造。硬件優(yōu)化很重要,汽車(chē)行業(yè)發(fā)展百年仍有工程難題,對(duì)于未來(lái)可能大規(guī)模應(yīng)用的人形機(jī)器人,必須解決“低成本、高壽命”及“超大批量制造”的工程挑戰(zhàn)。
三是低成本、大規(guī)模的分布式算力網(wǎng)絡(luò)。機(jī)器人本體受尺寸和電池容量限制,無(wú)法部署大規(guī)模算力,其峰值功耗通常僅100瓦左右。未來(lái)需構(gòu)建分布式算力網(wǎng)絡(luò),如工業(yè)場(chǎng)景可在工廠部署局部服務(wù)器集群,民用場(chǎng)景可建立區(qū)域級(jí)算力集群,降低成本,保障延遲和安全性。
會(huì)后采訪中,媒體提到機(jī)器人的價(jià)格預(yù)期,王興興表示,當(dāng)機(jī)器人具備大規(guī)模作業(yè)能力時(shí),甚至可能免費(fèi),因?yàn)椤懊颗_(tái)機(jī)器人出廠后都可以繳稅”。他舉例說(shuō),若企業(yè)派遣機(jī)器人開(kāi)墾荒蕪之地,機(jī)器人創(chuàng)造的部分價(jià)值將轉(zhuǎn)化為稅收。
“這個(gè)過(guò)程快的話可能要2 - 3年,慢的話可能3 - 5年,但是我覺(jué)得這波浪潮(的到來(lái))大概率不會(huì)超過(guò)10年?!蓖跖d興說(shuō)道。
王興興的發(fā)言引發(fā)了爭(zhēng)議。當(dāng)前智能汽車(chē)行業(yè),VLA + RL是熱門(mén)方向,理想汽車(chē)、小鵬、華為、文遠(yuǎn)知行等企業(yè)采用了這一路線或近似路線。同時(shí),華為、蔚來(lái),以及理想、小鵬也采用了世界模型,不過(guò)表述和功能有區(qū)別。具身智能和智能駕駛開(kāi)發(fā)邏輯未必一致,王興興的意見(jiàn)只是一家之言,后續(xù)技術(shù)路線之爭(zhēng)還需在實(shí)戰(zhàn)中見(jiàn)分曉。
本文來(lái)自微信公眾號(hào)“賽博汽車(chē)”(ID:Cyber - car),作者:王凌方,編輯:邱鍇俊,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com