當一家成立11年的AI公司投身具身智能戰(zhàn)場
宇泛進軍具身智能,手里握了哪些牌
今年被稱為具身智能元年,這一領域當下已成為AI落地最火熱的戰(zhàn)場。
近日,有著11年的知名視覺AI公司宇泛智能發(fā)布了兩款具身智能產品,并宣布“智能+硬件”全棧自研,全面擁抱具身智能時代。
看起來跨度不小,但在行業(yè)內看宇泛落子具身智能卻是順理成章。
一方面,視覺能力已經成為機器理解物理世界的核心入口,也是多模態(tài)智能的基礎。視覺出身的團隊已經成為具身智能領域的一支中堅力量。進軍具身智能,是這家企業(yè)能力進化的必然指向。
另外,在“智能+硬件”這條路上,宇泛也有長久的軟硬件一體研發(fā)經驗。視覺AI時代,當時各類設備端的計算性能尚不能支撐AI算法直接落地,而宇泛最早在行業(yè)里基于端側芯片性能重構算法,降低了算法對硬件的消耗,實現了端到端性能優(yōu)化。
這一整套從底層硬件適配到上層AI算法優(yōu)化的軟硬協(xié)同開發(fā)經驗,讓宇泛在視覺 AI 時代吃到了紅利,在此基礎上快速走通了商業(yè)化落地和規(guī)?;桓吨?。具身智能時代,智能機器人落地同樣非??简炣浻矃f(xié)同,宇泛的過往歷程無疑為此提供了助力。
“我們想明白了具身智能怎么做,決心利用過去十年積累,在具身智能機器人賽里迅速做到行業(yè)頭部。這一波AI,不僅要讓機器人看得見、聽得懂、會交流、能行動,更要讓它們真正學會自主思考與決策。”宇泛智能董事長趙弘毅說。
01 為什么全面擁抱具身智能?
具身智能賽道,又添一名新玩家。
幾天前,視覺AI領域知名企業(yè)宇泛智能召開11周年慶暨合作伙伴大會。會上除了發(fā)布新一代視覺AI硬件與Agent新品,宇泛還正式推出了兩款具身智能產品——空間認知大模型Manas和四足機器狗,宣告這家有著11年發(fā)展歷程的人工智能企業(yè)正式步入具身智能時代。
空間認知大模型Manas今年7月已經在宇泛智能的公眾號上對外亮相,這是一個多模態(tài)語言模型(Multimodal Large Language Model,MLLM)。根據宇泛提供的信息,Manas在業(yè)界流行的空間理解數據集VSI-Bench,SQA3D上的表現,相比業(yè)界同等規(guī)模模型,取得SOTA成績。
此次正式發(fā)布,外界觀察到,Manas在宇泛的具身智能戰(zhàn)略里的角色進一步明確。未來它將作為宇泛智能旗下具身智能硬件的大腦,扮演空間認知底座角色,讓智能硬件能感知真實物理世界,具備自主決策能力。
而新發(fā)布的四足機器狗,是宇泛智能推出的第一款具身智能機器人。據介紹,它的機械結構、電機、運動控制平臺及能力均由宇泛團隊自研。
這兩款產品的發(fā)布,也讓宇泛智能在具身智能時代的戰(zhàn)略浮出水面——延續(xù)“智能+硬件”基因,全棧自研大腦、小腦和本體,全面擁抱Physical AI。
宇泛選擇在當下入局具身智能賽道,對業(yè)界而言并不算突兀之舉。
實際上隨著大語言模型技術的進步,廣義的各類硬件的智能程度已經迎來了升級。機器視覺行業(yè)頭部玩家如??档榷荚趯⒍嗄B(tài)的模型植入設備里來提升硬件的智能水平。
在機器人領域,隨著機器人與大模型技術深度融合,多模態(tài)大模型能力的發(fā)展,尤其是視覺能力帶來了更強的泛化能力,機器人的“大腦”也在進化。原來的機器人只能完成單體、單一場景任務,現在有望演進為具備更強泛化能力的“通才”。
業(yè)界不乏視覺AI領域企業(yè)進入具身智能賽道,比如上個月底商湯在WAIC上就發(fā)布了具身智能大腦,布局具身智能賽道。
同時,視覺領域的研究者和從業(yè)者已經是具身智能領域的一支重要力量。清華大學孫富春教授今年6月在2025北京智源大會的演講中更是談到,具身智能歷來是兩路人在做,一路是計算機視覺派,以視覺為中心,李飛飛是典型代表,另一路是原來機器人領域的從業(yè)者。
趙弘毅在演講中闡述了此次發(fā)布背后的戰(zhàn)略考量,他強調多模態(tài)尤其是視覺能力對具身智能發(fā)展至關重要。
趙弘毅指出,宇泛智能當下投身具身智能賽道,既是有著11年技術積累的人工智能公司在產業(yè)變革前夜順應大勢的戰(zhàn)略抉擇,也是公司創(chuàng)始團隊做機器人初心“念念不忘”最終在內外部技術條件成熟后迎來的回響。
他透露了一個宇泛創(chuàng)業(yè)歷程里此前鮮少被外界關注到的細節(jié)。2014年,宇泛是用家用機器人的Demo融來了第一筆天使輪投資,“我們最初的創(chuàng)業(yè)夢想,就是做智能機器人。”
當時,機器人技術橫跨圖像識別(感知)、語音交互(理解與對話)、運動控制(行動)三大技術高峰。在技術條件和團隊規(guī)模等現實條件限制下,最終宇泛選擇了最擅長的圖像識別賽道來完成商業(yè)落地閉環(huán)。但這個團隊始終未曾放下對智能機器人的夢想和初心。
隨著這波大模型浪潮興起,人工智能也在從AI 1.0向AI 2.0時代演進,具身智能領域已經成為AI落地的主戰(zhàn)場之一。機器人在“能看、能聽、能說、能動”基礎上,在向真正具備自主決策能力進化。其中,視覺正成為機器人具備認知和決策的關鍵支撐。
“在所有感知方式中,視覺信息密度最高、通用性最強,是機器理解物理世界的核心入口,也是多模態(tài)智能的基礎。在具身智能場景中,視覺不僅決定機器看到什么,還決定機器下一步做什么?!?/p>
這次發(fā)布,在趙弘毅看來更像是宇泛的戰(zhàn)略進化。視覺在 AI 1.0時代是最清晰的落地方向,而當下視覺有望成為更智能的機器人的入口,加上創(chuàng)始團隊始終懷揣機器人夢想,一旦技術儲備成熟,他們必然要邁出這一步。
02 擁抱Physical AI,宇泛做了什么
除了視覺基因,宇泛此次一口氣拿出兩款具身智能產品,也顯示了這家人工智能企業(yè)在多模態(tài)和智能硬件能力上的技術儲備。
以多模態(tài)能力為例,宇泛過去一年圍繞著如何讓智能體具備空間理解能力,有不少思考和工作成果。
當下,圍繞著如何讓機器人具備更智能的大腦,行業(yè)內仍處在探索期,技術路線尚未“收斂”,有行業(yè)人士認為存在端到端的VLA模型(Vision-Language-Action)、大小腦架構,以及世界模型等多種路線。
技術路線雖有不同,但一個共識是機器人需要具備多模態(tài)推理能力,這也被視作AI能夠像人類一樣綜合感知、理解和決策的關鍵。而多模態(tài)的視覺-語言模型又被認為是實現多模態(tài)推理的核心基礎。因為它能把像素、3D結構、文字都映射到同一高維向量空間,形成“跨模態(tài)對齊”。
這里面自然語言是推理過程的顯式中間層,既供人類閱讀,又供下游策略網絡調用。視覺語言模型就扮演了具身智能中連接感知、決策與人類指令的核心控制中樞角色。
但不是所有的多模態(tài)模型都適合做大腦。一位行業(yè)人士看到,GPT-4o做機器人大腦就不理想,因為缺乏長程規(guī)劃和空間理解能力。這也是市面上許多多模態(tài)語言模型的問題。雖然在圖像識別、語言理解等感知任務上表現出色,在它們在空間感知方面仍存在明顯短板,比如在細粒度、局部、幾何信息的感知,并不如傳統(tǒng)純視覺模型那么精準。
而具身智能場景,機器人需要準確地抓取物體。模型不僅要“看懂”圖像的語義內容,更需要具備對三維空間的準確感知能力。比如物體的實際尺寸、相對方位、空間布局等幾何信息,都是后續(xù)機器人的路徑規(guī)劃、物體操作、環(huán)境理解等復雜任務的支撐。
宇泛智能CTO王濤介紹,這意味著機器人“大腦”必須將語言模型與空間感知能力深度融合,才能在真實世界中實現穩(wěn)健的操作與交互。只有當語義理解與空間推理能力同時具備時,具身智能才有可能真正走向大規(guī)模應用。
今年7月亮相的Manas就是一個經過具身智能場景強化的多模態(tài)語言模型(Multimodal Large Language Model,MLLM),底座是一個開源大語言模型,他們又專門對其進行了空間理解層面的誘導訓練和強化工作,它凝結了宇泛技術團隊對具身智能的空間認知以及多模態(tài)技術上多項成果。
首先,是去年年底宇泛自研的多模態(tài)推理架構UUMM,它參考了大語言模型的架構并使之適配具身智能場景,接收人類的語言和視覺輸入,輸出行動指令,形成快速迭代優(yōu)化的閉環(huán)。
在此之上,今年3月,宇泛團隊又發(fā)布了HiMTok,這與宇泛VLA項目一脈相承,通過創(chuàng)新方法實現了大模型圖像分割能力的內生式集成,在保持模型結構和參數規(guī)?;静蛔兊那疤嵯?,實現了圖像理解、圖像分割、目標檢測等多任務的有機融合。這項工作推動大模型從單一文本輸出向圖像、機器人動作(Robot Action)等多模態(tài)升級上又往前走了一步。
之后他們又基于強化學習技術提升了模型的多模態(tài)輸出能力。
這一系列的工作使得宇泛的MLLM模型Manas在目標計數、絕對/相對距離、物理尺寸、路徑規(guī)劃以及自我視角的空間關系等空間理解相關的 Benchmark上表現優(yōu)異。Manas發(fā)布,意味著宇泛在具身智能大腦的能力儲備走向成熟。
而另一款發(fā)布產品自研四足機器狗,意味著宇泛也已具備了機器人本體和小腦能力?!案鞣N機器人的零部件鏈條很成熟的情況下,我們自研了電機和控制平臺等核心部件,經過多次迭代,也踩過不少坑,現在已經迭代到了第三代產品”。
宇泛產研團隊透露,接下來他們將加速推進機器人的大腦和小腦融合工作 。
03 延續(xù)“智能+硬件”基因,走全棧自研之路
全棧自研機器人的大腦、小腦和本體,對任何一家新進入的企業(yè)都是一個不小的挑戰(zhàn)。為什么宇泛會選擇走一條全棧自研之路?
數智前線觀察,這既與當下具身智能的產業(yè)現狀相關,宇泛智能過往的企業(yè)基因和發(fā)展歷程又使得這只團隊強化了“智能+硬件”的路線認知。
從產業(yè)現狀看,當下圍繞著具身智能的各種技術路線尚未收斂,各類硬件標準尚未統(tǒng)一。有智能算法能力的廠商很難不考慮硬件本體因素,專注于機器人大腦研發(fā)。
一位行業(yè)人士此前就提到,現在具身智能廠商這么多,不同廠商的本體的自由度、傳感器數量都不一樣,數據根本不通用。這使得基于數據訓練出來的算法就很難跨越本體遷移,也意味著當下廠商們在算法研發(fā)時需要充分考慮如何與具身智能硬件之間的配合問題。
宇泛團隊告訴數智前線,他們當下走全棧自研路線,就是為了能更好地確保具身智能的產品質量、品控和效果,“大腦、小腦需要融合,這個雙系統(tǒng)又都需要和本體之間配合,如果采購外部團隊產品,當下階段很難把這個東西做到極致”。
另一方面,當下產業(yè)鏈條相比前幾年已經有了長足的發(fā)展。國內雄厚的制造業(yè)基礎,使得機器人相關的硬件零部件產業(yè)鏈已經十分成熟。除了核心的電機控制零部件自研,其他都可以從產業(yè)鏈獲得支撐,這也為宇泛這樣的創(chuàng)業(yè)公司走全棧自研路線奠定了基礎。
同時,宇泛過往的基因,也讓他們堅定地在選擇了具身智能時代走“智能+硬件”路線。
“‘智能+硬件’是我們的定式,在AI1.0時代,基于‘智能+硬件’路線,我們已經成功地將視覺AI技術深度嵌入安防、工地、社區(qū)、酒店等特定場景,實現了技術快速商業(yè)化和規(guī)?;桓??!壁w弘毅說。
這背后就離不開宇泛在軟硬件協(xié)同上的能力積累。趙弘毅透露,早期的攝像頭硬件里無法支撐好的算法應用,因為端側的算力不夠,當時許多做人臉識別的廠商還會專門設備里加一個加速棒來支撐應用落地。
而宇泛則選擇了軟硬件適配協(xié)同和算法創(chuàng)新來解決問題。他們基于硬件性能限制,用類似量化交易領域的“以整型壓縮替代浮點、逐層逼近硬件極限”的做法,把模型算法從浮點計算改寫為整形計算,并在算子層針對硬件做深度適配與誤差補償,實現了端到端性能優(yōu)化。
當下具身智能行業(yè)快速演進,外界普遍認為這一領域接下來將面臨激烈的競爭和洗牌。而宇泛此前的“智能+硬件”協(xié)同積累,也為他們參與接下來的行業(yè)競爭儲備了實力。
趙弘毅進一步認為,在具身智能時代只做算法并不能走遠。一方面基礎模型需要巨額資源投入,創(chuàng)業(yè)公司難與國內外巨頭抗衡。更重要的是,根據AI 1.0時代的經驗,在國內市場環(huán)境下,只基于MLLM來推進機器人大腦,企業(yè)很難走通商業(yè)落地閉環(huán)。
這場角逐同時也十分考驗具身智能企業(yè)產品驗證和量產落地的速度。外界觀察到,宇泛過去十一年在智能硬件領域落地的積累,在AI 1.0時代所沉淀的豐富的渠道、供應鏈、產品化、量產能力和全球銷售體系,都有助于這家公司能更好應對市場競爭。
“宇泛有過去十幾年積累的經驗、資源和人才,團隊既年輕又有實戰(zhàn)經驗,理解大模型的前沿機制,也懂得如何讓它們在真實世界高效運行,我們想明白了具身智能怎么做,才來做這件事”,面向新征程趙弘毅很堅定。
宇泛智能成立已有十一年,但這家公司從創(chuàng)始人到核心技術骨干都很年輕,數智前線獲悉他們還在繼續(xù)招兵買馬,全力擁抱具身智能新時代。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com