亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

成立11年的AI公司宇泛投身具身智能戰(zhàn)場,手握哪些王牌?

08-20 07:06

今年被譽(yù)為具身智能元年,這一領(lǐng)域如今已成為AI落地最為火熱的戰(zhàn)場。


近日,有著11年發(fā)展歷史的知名視覺AI公司宇泛智能發(fā)布了兩款具身智能產(chǎn)品,并且宣布“智能 + 硬件”全棧自研,全面擁抱具身智能時代。


乍看之下跨度較大,但在行業(yè)內(nèi)看來,宇泛布局具身智能是順理成章的事。


一方面,視覺能力已成為機(jī)器理解物理世界的核心入口,也是多模態(tài)智能的基礎(chǔ)。以視覺為出身的團(tuán)隊(duì),成為了具身智能領(lǐng)域的中堅(jiān)力量。進(jìn)軍具身智能,是宇泛企業(yè)能力進(jìn)化的必然方向。


另一方面,在“智能 + 硬件”這條道路上,宇泛擁有長期的軟硬件一體研發(fā)經(jīng)驗(yàn)。在視覺AI時代,當(dāng)時各類設(shè)備端的計(jì)算性能無法支撐AI算法直接落地,而宇泛最早在行業(yè)內(nèi)基于端側(cè)芯片性能重構(gòu)算法,降低了算法對硬件的消耗,實(shí)現(xiàn)了端到端性能優(yōu)化。


這一整套從底層硬件適配到上層AI算法優(yōu)化的軟硬協(xié)同開發(fā)經(jīng)驗(yàn),讓宇泛在視覺AI時代收獲了紅利,在此基礎(chǔ)上快速實(shí)現(xiàn)了商業(yè)化落地和規(guī)?;桓?。在具身智能時代,智能機(jī)器人的落地同樣考驗(yàn)軟硬協(xié)同能力,宇泛的過往經(jīng)歷無疑為此提供了助力。


宇泛智能董事長趙弘毅表示:“我們想清楚了具身智能該怎么做,決心利用過去十年的積累,在具身智能機(jī)器人領(lǐng)域迅速躋身行業(yè)頭部。這一波AI浪潮,不僅要讓機(jī)器人看得見、聽得懂、會交流、能行動,更要讓它們真正學(xué)會自主思考與決策?!?/p>


01 為何全面擁抱具身智能?


具身智能賽道迎來了一位新玩家。


幾天前,視覺AI領(lǐng)域的知名企業(yè)宇泛智能召開了11周年慶暨合作伙伴大會。會上,宇泛除了發(fā)布新一代視覺AI硬件與Agent新品,還正式推出了兩款具身智能產(chǎn)品——空間認(rèn)知大模型Manas和四足機(jī)器狗,宣告這家有著11年發(fā)展歷程的人工智能企業(yè)正式邁入具身智能時代。


空間認(rèn)知大模型Manas今年7月已在宇泛智能的公眾號上亮相,它是一個多模態(tài)語言模型(Multimodal Large Language Model,MLLM)。據(jù)宇泛提供的信息,Manas在業(yè)界流行的空間理解數(shù)據(jù)集VSI - Bench、SQA3D上的表現(xiàn),相比業(yè)界同等規(guī)模模型,取得了SOTA成績。


此次正式發(fā)布,外界發(fā)現(xiàn)Manas在宇泛的具身智能戰(zhàn)略中的角色更加明確。未來,它將作為宇泛智能旗下具身智能硬件的大腦,扮演空間認(rèn)知底座的角色,讓智能硬件能夠感知真實(shí)物理世界,具備自主決策能力。


新發(fā)布的四足機(jī)器狗,是宇泛智能推出的第一款具身智能機(jī)器人。據(jù)悉,它的機(jī)械結(jié)構(gòu)、電機(jī)、運(yùn)動控制平臺及能力均由宇泛團(tuán)隊(duì)自研。


這兩款產(chǎn)品的發(fā)布,也讓宇泛智能在具身智能時代的戰(zhàn)略浮出水面——延續(xù)“智能 + 硬件”基因,全棧自研大腦、小腦和本體,全面擁抱Physical AI。


宇泛選擇在當(dāng)下進(jìn)入具身智能賽道,在業(yè)界看來并非突兀之舉。


實(shí)際上,隨著大語言模型技術(shù)的進(jìn)步,廣義上各類硬件的智能程度已經(jīng)得到升級。機(jī)器視覺行業(yè)的頭部企業(yè)如海康等,都在將多模態(tài)模型植入設(shè)備以提升硬件的智能水平。


在機(jī)器人領(lǐng)域,隨著機(jī)器人與大模型技術(shù)的深度融合,多模態(tài)大模型能力不斷發(fā)展,尤其是視覺能力帶來了更強(qiáng)的泛化能力,機(jī)器人的“大腦”也在不斷進(jìn)化。原來的機(jī)器人只能完成單體、單一場景任務(wù),現(xiàn)在有望發(fā)展成為具備更強(qiáng)泛化能力的“通才”。


業(yè)界有不少視覺AI領(lǐng)域的企業(yè)進(jìn)入具身智能賽道,比如上個月底商湯在WAIC上就發(fā)布了具身智能大腦,布局具身智能賽道。


同時,視覺領(lǐng)域的研究者和從業(yè)者已成為具身智能領(lǐng)域的重要力量。清華大學(xué)孫富春教授今年6月在2025北京智源大會的演講中提到,具身智能歷來由兩撥人在做,一撥是計(jì)算機(jī)視覺派,以視覺為中心,李飛飛是典型代表,另一撥是原來機(jī)器人領(lǐng)域的從業(yè)者。


趙弘毅在演講中闡述了此次發(fā)布背后的戰(zhàn)略考量,他強(qiáng)調(diào)多模態(tài)尤其是視覺能力對具身智能發(fā)展至關(guān)重要。



趙弘毅指出,宇泛智能當(dāng)下投身具身智能賽道,既是有著11年技術(shù)積累的人工智能公司在產(chǎn)業(yè)變革前夜順應(yīng)大勢的戰(zhàn)略抉擇,也是公司創(chuàng)始團(tuán)隊(duì)做機(jī)器人的初心在內(nèi)外技術(shù)條件成熟后的回響。


他透露了宇泛創(chuàng)業(yè)歷程中此前鮮為人知的細(xì)節(jié)。2014年,宇泛憑借家用機(jī)器人的Demo獲得了第一筆天使輪投資,“我們最初的創(chuàng)業(yè)夢想就是做智能機(jī)器人。”


當(dāng)時,機(jī)器人技術(shù)涵蓋圖像識別(感知)、語音交互(理解與對話)、運(yùn)動控制(行動)三大技術(shù)難題。在技術(shù)條件和團(tuán)隊(duì)規(guī)模等現(xiàn)實(shí)因素的限制下,宇泛最終選擇了最擅長的圖像識別賽道來實(shí)現(xiàn)商業(yè)落地閉環(huán)。但這個團(tuán)隊(duì)始終沒有放棄對智能機(jī)器人的夢想和初心。


隨著這波大模型浪潮的興起,人工智能正從AI 1.0向AI 2.0時代演進(jìn),具身智能領(lǐng)域已成為AI落地的主要戰(zhàn)場之一。機(jī)器人在“能看、能聽、能說、能動”的基礎(chǔ)上,正朝著真正具備自主決策能力的方向進(jìn)化。其中,視覺正成為機(jī)器人具備認(rèn)知和決策能力的關(guān)鍵支撐。


“在所有感知方式中,視覺信息密度最高、通用性最強(qiáng),是機(jī)器理解物理世界的核心入口,也是多模態(tài)智能的基礎(chǔ)。在具身智能場景中,視覺不僅決定機(jī)器看到什么,還決定機(jī)器下一步做什么?!?/p>


在趙弘毅看來,這次發(fā)布更像是宇泛的戰(zhàn)略進(jìn)化。在AI 1.0時代,視覺是最明確的落地方向,而如今視覺有望成為更智能機(jī)器人的入口,加上創(chuàng)始團(tuán)隊(duì)始終懷揣著機(jī)器人夢想,一旦技術(shù)儲備成熟,他們必然會邁出這一步。


02 擁抱Physical AI,宇泛做了什么


除了視覺基因,宇泛此次一口氣推出兩款具身智能產(chǎn)品,也顯示了這家人工智能企業(yè)在多模態(tài)和智能硬件能力方面的技術(shù)儲備。


以多模態(tài)能力為例,宇泛過去一年圍繞如何讓智能體具備空間理解能力,進(jìn)行了諸多思考并取得了成果。


當(dāng)下,在如何讓機(jī)器人擁有更智能大腦的問題上,行業(yè)仍處于探索階段,技術(shù)路線尚未確定,有行業(yè)人士認(rèn)為存在端到端的VLA模型(Vision - Language - Action)、大小腦架構(gòu)以及世界模型等多種路線。


盡管技術(shù)路線不同,但業(yè)界達(dá)成的共識是機(jī)器人需要具備多模態(tài)推理能力,這被視為AI能夠像人類一樣綜合感知、理解和決策的關(guān)鍵。而多模態(tài)的視覺 - 語言模型又被認(rèn)為是實(shí)現(xiàn)多模態(tài)推理的核心基礎(chǔ)。因?yàn)樗軐⑾袼亍?D結(jié)構(gòu)、文字映射到同一高維向量空間,實(shí)現(xiàn)“跨模態(tài)對齊”。



自然語言是推理過程的顯式中間層,既可供人類閱讀,也可供下游策略網(wǎng)絡(luò)調(diào)用。視覺語言模型在具身智能中扮演著連接感知、決策與人類指令的核心控制中樞角色。


但并非所有多模態(tài)模型都適合作為機(jī)器人的大腦。有行業(yè)人士指出,GPT - 4o作為機(jī)器人大腦并不理想,因?yàn)樗狈﹂L程規(guī)劃和空間理解能力。這也是市面上許多多模態(tài)語言模型存在的問題。雖然它們在圖像識別、語言理解等感知任務(wù)上表現(xiàn)出色,但在空間感知方面存在明顯短板,比如在細(xì)粒度、局部、幾何信息的感知上,不如傳統(tǒng)純視覺模型精準(zhǔn)。


在具身智能場景中,機(jī)器人需要準(zhǔn)確抓取物體。模型不僅要“看懂”圖像的語義內(nèi)容,還需要具備對三維空間的準(zhǔn)確感知能力。比如物體的實(shí)際尺寸、相對方位、空間布局等幾何信息,是機(jī)器人進(jìn)行路徑規(guī)劃、物體操作、環(huán)境理解等復(fù)雜任務(wù)的基礎(chǔ)。


宇泛智能CTO王濤介紹,這意味著機(jī)器人“大腦”必須將語言模型與空間感知能力深度融合,才能在真實(shí)世界中實(shí)現(xiàn)穩(wěn)定的操作與交互。只有當(dāng)語義理解與空間推理能力同時具備時,具身智能才有可能真正實(shí)現(xiàn)大規(guī)模應(yīng)用。


今年7月亮相的Manas是一個經(jīng)過具身智能場景強(qiáng)化的多模態(tài)語言模型(Multimodal Large Language Model,MLLM),其底座是一個開源大語言模型,宇泛團(tuán)隊(duì)還專門對其進(jìn)行了空間理解層面的誘導(dǎo)訓(xùn)練和強(qiáng)化工作,它凝聚了宇泛技術(shù)團(tuán)隊(duì)在具身智能空間認(rèn)知和多模態(tài)技術(shù)方面的多項(xiàng)成果。



首先,去年年底宇泛自研的多模態(tài)推理架構(gòu)UUMM,參考了大語言模型的架構(gòu)并使其適配具身智能場景,它接收人類的語言和視覺輸入,輸出行動指令,形成快速迭代優(yōu)化的閉環(huán)。


在此基礎(chǔ)上,今年3月,宇泛團(tuán)隊(duì)發(fā)布了HiMTok,這與宇泛VLA項(xiàng)目一脈相承,通過創(chuàng)新方法實(shí)現(xiàn)了大模型圖像分割能力的內(nèi)生式集成,在保持模型結(jié)構(gòu)和參數(shù)規(guī)?;静蛔兊那闆r下,實(shí)現(xiàn)了圖像理解、圖像分割、目標(biāo)檢測等多任務(wù)的有機(jī)融合。這項(xiàng)工作推動大模型從單一文本輸出向圖像、機(jī)器人動作(Robot Action)等多模態(tài)升級邁進(jìn)了一步。


之后,他們又基于強(qiáng)化學(xué)習(xí)技術(shù)提升了模型的多模態(tài)輸出能力。


這一系列工作使得宇泛的MLLM模型Manas在目標(biāo)計(jì)數(shù)、絕對/相對距離、物理尺寸、路徑規(guī)劃以及自我視角的空間關(guān)系等空間理解相關(guān)的Benchmark上表現(xiàn)出色。Manas的發(fā)布,意味著宇泛在具身智能大腦的能力儲備已經(jīng)成熟。


另一款發(fā)布的產(chǎn)品——自研四足機(jī)器狗,表明宇泛已經(jīng)具備了機(jī)器人本體和小腦能力?!霸诟鞣N機(jī)器人零部件產(chǎn)業(yè)鏈成熟的情況下,我們自研了電機(jī)和控制平臺等核心部件,經(jīng)過多次迭代,也遇到了不少困難,現(xiàn)在已經(jīng)發(fā)展到第三代產(chǎn)品。”


宇泛產(chǎn)研團(tuán)隊(duì)透露,接下來他們將加速推進(jìn)機(jī)器人的大腦和小腦融合工作。


03 延續(xù)“智能 + 硬件”基因,走全棧自研之路


全棧自研機(jī)器人的大腦、小腦和本體,對任何一家新進(jìn)入的企業(yè)來說都是巨大的挑戰(zhàn)。宇泛為何選擇走全棧自研之路呢?


數(shù)智前線觀察發(fā)現(xiàn),這既與當(dāng)下具身智能的產(chǎn)業(yè)現(xiàn)狀有關(guān),宇泛智能過往的企業(yè)基因和發(fā)展歷程也強(qiáng)化了團(tuán)隊(duì)對“智能 + 硬件”路線的認(rèn)知。


從產(chǎn)業(yè)現(xiàn)狀來看,當(dāng)下具身智能的各種技術(shù)路線尚未確定,各類硬件標(biāo)準(zhǔn)也未統(tǒng)一。有智能算法能力的廠商很難不考慮硬件本體因素,專注于機(jī)器人大腦的研發(fā)。


有行業(yè)人士指出,目前具身智能廠商眾多,不同廠商的本體自由度、傳感器數(shù)量不同,數(shù)據(jù)無法通用。這使得基于數(shù)據(jù)訓(xùn)練的算法難以在不同本體間遷移,也意味著當(dāng)下廠商在算法研發(fā)時需要充分考慮與具身智能硬件的配合問題。


宇泛團(tuán)隊(duì)告訴數(shù)智前線,他們選擇全棧自研路線,是為了更好地確保具身智能產(chǎn)品的質(zhì)量、品控和效果?!按竽X、小腦需要融合,這個雙系統(tǒng)又需要與本體配合,如果采購?fù)獠繄F(tuán)隊(duì)的產(chǎn)品,在現(xiàn)階段很難做到極致?!?/p>


另一方面,當(dāng)下產(chǎn)業(yè)鏈相比前幾年有了很大發(fā)展。國內(nèi)雄厚的制造業(yè)基礎(chǔ),使得機(jī)器人相關(guān)的硬件零部件產(chǎn)業(yè)鏈?zhǔn)殖墒?。除了核心的電機(jī)控制零部件自研外,其他都可以從產(chǎn)業(yè)鏈獲得支持,這也為宇泛這樣的創(chuàng)業(yè)公司走全棧自研路線奠定了基礎(chǔ)。


同時,宇泛過往的基因,讓他們堅(jiān)定地在具身智能時代選擇“智能 + 硬件”路線。


趙弘毅表示:“‘智能 + 硬件’是我們的既定路線,在AI1.0時代,基于‘智能 + 硬件’路線,我們成功將視覺AI技術(shù)深度應(yīng)用于安防、工地、社區(qū)、酒店等特定場景,實(shí)現(xiàn)了技術(shù)的快速商業(yè)化和規(guī)?;桓??!?/p>



這背后離不開宇泛在軟硬件協(xié)同方面的能力積累。趙弘毅透露,早期的攝像頭硬件無法支持優(yōu)秀算法的應(yīng)用,因?yàn)槎藗?cè)算力不足,當(dāng)時許多做人臉識別的廠商還會專門在設(shè)備中添加加速棒來支持應(yīng)用落地。


而宇泛則通過軟硬件適配協(xié)同和算法創(chuàng)新來解決問題。他們基于硬件性能限制,采用類似量化交易領(lǐng)域“以整型壓縮替代浮點(diǎn)、逐層逼近硬件極限”的方法,將模型算法從浮點(diǎn)計(jì)算改寫為整形計(jì)算,并在算子層針對硬件進(jìn)行深度適配和誤差補(bǔ)償,實(shí)現(xiàn)了端到端性能優(yōu)化。


當(dāng)下具身智能行業(yè)發(fā)展迅速,外界普遍認(rèn)為該領(lǐng)域?qū)⒚媾R激烈的競爭和洗牌。而宇泛此前在“智能 + 硬件”協(xié)同方面的積累,為他們參與未來的行業(yè)競爭儲備了實(shí)力。


趙弘毅認(rèn)為,在具身智能時代只做算法是行不通的。一方面,基礎(chǔ)模型需要巨額資源投入,創(chuàng)業(yè)公司難以與國內(nèi)外巨頭競爭。更重要的是,根據(jù)AI 1.0時代的經(jīng)驗(yàn),在國內(nèi)市場環(huán)境下,僅基于MLLM來發(fā)展機(jī)器人大腦,企業(yè)很難實(shí)現(xiàn)商業(yè)落地閉環(huán)。


這場競爭也考驗(yàn)著具身智能企業(yè)產(chǎn)品驗(yàn)證和量產(chǎn)落地的速度。外界發(fā)現(xiàn),宇泛過去十一年在智能硬件領(lǐng)域的落地經(jīng)驗(yàn),以及在AI 1.0時代積累的豐富渠道、供應(yīng)鏈、產(chǎn)品化、量產(chǎn)能力和全球銷售體系,都有助于該公司更好地應(yīng)對市場競爭。


“宇泛擁有過去十幾年積累的經(jīng)驗(yàn)、資源和人才,團(tuán)隊(duì)年輕且富有實(shí)戰(zhàn)經(jīng)驗(yàn),既理解大模型的前沿機(jī)制,又懂得如何讓它們在現(xiàn)實(shí)世界中高效運(yùn)行。我們想清楚了具身智能該怎么做,才決定投身其中?!泵嫦蛐抡鞒蹋w弘毅充滿信心。


宇泛智能已經(jīng)成立十一年,但從創(chuàng)始人到核心技術(shù)骨干都很年輕,數(shù)智前線了解到他們還在持續(xù)招募人才,全力擁抱具身智能新時代。


本文來自微信公眾號 “數(shù)智前線”(ID:szqx1991),作者:徐鑫,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com