亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

宇樹科技王興興發(fā)“暴論”,對智駕有什么參考?

商界觀察
08-13 09:50

VLA是“相對傻瓜式”的架構(gòu),視頻生成模型有前景。

“VLA模型是相對傻瓜式的架構(gòu)?!?/strong>

 

2025年8月9日,在北京舉辦的2025世界機(jī)器人大會上,宇樹科技的創(chuàng)始人、CEO兼CTO王興興在演講中這樣說道。

 

盡管他是針對具身智能大模型發(fā)表這一看法的,但對于當(dāng)前智能駕駛最熱門模型方向,不得不讓人有些錯(cuò)愕。

 

包括極佳視界的CEO黃冠也在吐槽他的觀點(diǎn)“太業(yè)余”。

 

 

王興興認(rèn)為,世界模型可能是更好的技術(shù)方向。不過,短期的未來2~5年,“最大的肯定還是一個(gè)端到端的具身智能AI模型”。

 

大會上,他從核心瓶頸、新興技術(shù)引擎及未來技術(shù)重心三個(gè)方面,對具身智能機(jī)器人的發(fā)展態(tài)勢進(jìn)行梳理與分析。我們不妨看看,這位大紅人的觀點(diǎn),有什么啟發(fā)。

 

核心瓶頸:模型不夠好

 

談及機(jī)器人未大規(guī)模應(yīng)用的原因,很多人誤認(rèn)為是硬件性能不足或成本過高。但王興興指出,當(dāng)前機(jī)器人硬件(包括人形機(jī)器人的靈巧手、整機(jī)等)已基本夠用。

 

從技術(shù)層面而言,人形機(jī)器人的硬件,諸如靈巧手和整機(jī)等,已足夠滿足基本需求,盡管在工程實(shí)施上仍存在諸多挑戰(zhàn),但已能夠支撐基礎(chǔ)功能的實(shí)現(xiàn)。

 

他認(rèn)為,限制其大規(guī)模應(yīng)用的核心瓶頸,在于具身智能的AI 大模型尚未成熟。

 

 

王興興認(rèn)為,目前的機(jī)器人大模型(具身智能)發(fā)展階段,類似ChatGPT 發(fā)布前的1~3年,即業(yè)界已明確方向和技術(shù)路線,但尚未突破關(guān)鍵臨界點(diǎn)。

 

在王興興看來,之所以沒達(dá)到關(guān)鍵臨界點(diǎn),主要是由于行業(yè)對“數(shù)據(jù)” 的關(guān)注度過高,卻忽視了模型本身的問題。

 

 

王興興認(rèn)為,具身智能發(fā)展的關(guān)鍵問題在于模型架構(gòu)不夠完善、缺乏統(tǒng)一性、泛用性,導(dǎo)致能力受限,而且數(shù)據(jù)還不能完全利用起來。

 

 

以當(dāng)前較受關(guān)注的VLA模型為例,王興興認(rèn)為其是 “相對傻瓜式的架構(gòu)”,其 在真實(shí)世界交互中,對數(shù)據(jù)質(zhì)量的依賴過高,但適應(yīng)性不足。因此,他對VLA 模型的應(yīng)用前景持懷疑態(tài)度。

 

此外,“VLA模型+RL 訓(xùn)練”也是行業(yè)常見的優(yōu)化思路,但他認(rèn)為,實(shí)踐表明折讓仍然不夠?!澳P图軜?gòu)必須進(jìn)一步升級,不能停留在簡單組合層面?!蓖跖d興這樣說道。

 

 

在王興興看來,另一個(gè)限制發(fā)展因素是“RL Scaling law(縮放定律)”的缺失,這導(dǎo)致機(jī)器人尚未解決“從零開始”的魔咒。王興興認(rèn)為,目前機(jī)器人在學(xué)習(xí)新任務(wù)時(shí),例如學(xué)習(xí)一支新的舞蹈或完成一項(xiàng)新的工作,往往需要從零開始訓(xùn)練,這導(dǎo)致了訓(xùn)練效率的顯著低下。這是由于機(jī)器人控制中“RL Scaling law(縮放定律)” 的缺失造成的。

 

在王興興看來,具身智能的理想狀態(tài)是“新任務(wù)訓(xùn)練基于舊有基礎(chǔ),速度越來越快、效果越來越好”。這一規(guī)律在語言模型中已得到充分驗(yàn)證,而在機(jī)器人運(yùn)動控制領(lǐng)域,尚處于起步階段,不過展現(xiàn)出巨大的潛力,是值得行業(yè)深入探索的關(guān)鍵領(lǐng)域。

 

新技術(shù)方向:視頻生成模型

 

既然VLA模型模型還不足夠優(yōu)秀,那么什么模型才是方向呢?

 

王興興認(rèn)為,現(xiàn)階段看視頻生成模型的路線可能比VLA模型更快,收斂概率更大。

 

其核心邏輯在于:利用視頻生成模型預(yù)先“模擬生成機(jī)器人動作序列的視頻”,進(jìn)而直接指導(dǎo)實(shí)體機(jī)器人執(zhí)行相應(yīng)動作。例如,若指令為“整理房間”,模型可先生成機(jī)器人整理房間的虛擬視頻,再將視頻中的動作轉(zhuǎn)化為實(shí)體機(jī)器人的控制信號。

 

 

不過,王興興指出,這一路線也存在一個(gè)現(xiàn)實(shí)問題:當(dāng)前視頻生成模型過度關(guān)注“視頻質(zhì)量”,導(dǎo)致 GPU 消耗較高;但對機(jī)器人而言,無需高精度視頻,只要能驅(qū)動動作即可,目前看這一矛盾仍需解決。

 

未來技術(shù)重心:模型、硬件與算力網(wǎng)絡(luò)

 

王興興預(yù)判,未來2-5 年,具身智能機(jī)器人的發(fā)展將聚焦三大方向:

 

一是,統(tǒng)一的端到端智能機(jī)器人大模型。端到端模型是提升機(jī)器人能力的關(guān)鍵。未來需重點(diǎn)推動端到端模型的研發(fā),實(shí)現(xiàn)“基于既有訓(xùn)練基礎(chǔ)快速學(xué)習(xí)新技能”,提升模型的通用性和效率。

 

二是,更低成本、更高壽命的硬件及批量制造。硬件的優(yōu)化亦是不可或缺的一環(huán)。即便是歷經(jīng)百年發(fā)展的汽車行業(yè),也仍需不斷攻克工程領(lǐng)域的重重難關(guān);對于未來可能達(dá)到“數(shù)百萬、數(shù)千萬臺” 量級的人形機(jī)器人,必須解決 “低成本、高壽命” 及 “超大批量制造” 的工程挑戰(zhàn),才能支撐大規(guī)模應(yīng)用。

 

三是,低成本、大規(guī)模的分布式算力網(wǎng)絡(luò)。機(jī)器人本體受限于尺寸和電池容量,無法部署大規(guī)模算力,因?yàn)椤捌浞逯倒耐ǔH 100 瓦左右,相當(dāng)于幾部手機(jī)的算力?!?/p>

 

因此,未來需要構(gòu)建分布式算力網(wǎng)絡(luò),例如,工業(yè)場景中,可在工廠內(nèi)部署局部服務(wù)器集群,供100 臺級機(jī)器人就近連接,降低通信延遲;再如,民用場景(如小區(qū))中,可建立區(qū)域級算力集群,減少用戶的算力建設(shè)成本,同時(shí)保障延遲和安全性。

 

 

在會后采訪中,有媒體提到了機(jī)器人的價(jià)格預(yù)期。對此,王興興表示,當(dāng)機(jī)器人具備大規(guī)模作業(yè)能力時(shí),機(jī)器人甚至將會是免費(fèi)的狀態(tài),因?yàn)椤懊颗_機(jī)器人出廠后都可以繳稅?!?/strong>

 

對此,他舉了個(gè)例子:一臺機(jī)器人是干什么活的?就可以從它生產(chǎn)的價(jià)值中直接扣稅。譬如,若有一片荒蕪之地,企業(yè)派遣機(jī)器人前去開墾耕作,那么機(jī)器人所創(chuàng)造的部分價(jià)值將直接轉(zhuǎn)化為稅收。

 

這個(gè)過程快的話可能要2~3年,慢的話可能3~5年,但是我覺得這波浪潮(的到來)大概率不會超過10年。”王興興說道。

 

王興興的發(fā)言引起了不小的爭議。對于智能汽車行業(yè)而言,當(dāng)前VLA+RL是最熱門的方向,理想汽車、小鵬、華為、文遠(yuǎn)知行等多家企業(yè)都采用了這一路線或者近似路線。同時(shí),華為、蔚來,以及理想、小鵬也采用了世界模型,不過表述和功能有所區(qū)別,有的僅用于模擬訓(xùn)練,有的則直接表述為自動駕駛模型的基座模型。

 

當(dāng)然,具身智能的開發(fā)邏輯和智能駕駛開發(fā)邏輯未必一致,王興興的意見也僅僅是一家之眼,后續(xù)的技術(shù)路線之爭,也還需要在實(shí)戰(zhàn)中見高下。

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com