群核科技發(fā)布空間大模型,深化開源戰(zhàn)略布局
群核科技發(fā)布空間大模型SpatialLM 1.5及SpatialGen,以開源方式推動(dòng)3D場景生成與AI視頻應(yīng)用發(fā)展。
8月25日,在首屆技術(shù)開放日(TechDay)上,群核科技正式發(fā)布空間大模型的最新成果:新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen,并現(xiàn)場公布新模型后續(xù)的開源計(jì)劃。群核空間大模型作為業(yè)界首個(gè)專注于3D室內(nèi)場景認(rèn)知與生成的大模型體系,在真實(shí)感全息漫游、結(jié)構(gòu)化可交互以及復(fù)雜室內(nèi)場景處理方面優(yōu)勢明顯。
除了開源模型,群核科技還首次展示了其AI團(tuán)隊(duì)基于SpatialGen探索的AI視頻生成解決方案,旨在用新方法解決時(shí)空一致性難題。
SpatialLM 1.5:一句話生成結(jié)構(gòu)化3D場景,緩解機(jī)器人訓(xùn)練數(shù)據(jù)困境
此次發(fā)布的SpatialLM 1.5是基于大語言模型訓(xùn)練的空間語言模型,用戶可通過對話交互系統(tǒng)SpatialLM - Chat實(shí)現(xiàn)可交互場景的端到端生成。與傳統(tǒng)大語言模型相比,SpatialLM 1.5不僅能理解文本指令,還能輸出包含空間結(jié)構(gòu)、物體關(guān)系、物理參數(shù)的“空間語言”。例如,用戶輸入簡單文本描述,它就能自動(dòng)生成結(jié)構(gòu)化場景腳本,智能匹配家具模型并完成布局,還支持后續(xù)用自然語言進(jìn)行問答或編輯。
圖說:空間語言模型SpatialLM1.5能力示意圖
更重要的是,SpatialLM 1.5生成的場景有物理正確的結(jié)構(gòu)化信息,能快速批量輸出大量符合要求的多樣化場景,可用于機(jī)器人路徑規(guī)劃、避障訓(xùn)練、任務(wù)執(zhí)行等,有效解決當(dāng)前機(jī)器人訓(xùn)練“缺數(shù)據(jù)”的問題?,F(xiàn)場,群核科技首席科學(xué)家周子寒演示了機(jī)器人養(yǎng)老場景應(yīng)用,輸入“去客廳餐桌拿藥”指令后,模型理解相關(guān)物體對象,自動(dòng)規(guī)劃出最優(yōu)行動(dòng)路徑,展現(xiàn)了機(jī)器人在復(fù)雜家庭環(huán)境中執(zhí)行任務(wù)的潛力。
值得注意的是,其前代版本SpatialLM 1.0今年3月開源后,迅速登上Hugging Face趨勢榜前三,已有初創(chuàng)企業(yè)基于其代碼和架構(gòu)訓(xùn)練出自有模型,證明了開源模式的技術(shù)影響力。
SpatialGen:攻克AI視頻“時(shí)空一致性”難題,構(gòu)建可自由漫游的3D世界
如果說SpatialLM解決的是“理解與交互”問題,那么SpatialGen專注于“生成與呈現(xiàn)”。作為基于擴(kuò)散模型架構(gòu)的多視角圖像生成模型,SpatialGen可根據(jù)文字描述、參考圖像和3D空間布局,生成具有時(shí)空一致性的多視角圖像,還支持生成3D高斯(3DGS)場景并渲染漫游視頻。
SpatialGen依托群核科技海量室內(nèi)3D場景數(shù)據(jù)與多視角擴(kuò)散模型技術(shù),生成的多視角圖像能保證同一物體在不同鏡頭下空間屬性和物理關(guān)系準(zhǔn)確?;赟patialGen生成的3D高斯場景和真實(shí)感全息漫游視頻,用戶能在生成場景中自由穿梭,獲得沉浸式體驗(yàn)。
圖說:群核空間生成模型SpatialGen數(shù)據(jù)集情況
群核科技AI產(chǎn)品總監(jiān)龍?zhí)鞚杀硎荆骸澳壳?,AIGC文生視頻與圖生視頻工具推動(dòng)了全民視頻創(chuàng)作潮流,但受時(shí)空一致性問題限制,離真正商業(yè)化應(yīng)用還有距離。我們正在研發(fā)基于3D技術(shù)的AI視頻生成產(chǎn)品,計(jì)劃今年內(nèi)正式發(fā)布,或許是全球首款深度融合3D能力的AI視頻生成Agent。通過構(gòu)建3D渲染與視頻增強(qiáng)一體化的生成管線,有望彌補(bǔ)當(dāng)前AIGC視頻生成中時(shí)空一致性不足的問題?!?/p>
現(xiàn)有的AI視頻創(chuàng)作常因視角切換出現(xiàn)物體位置偏移、空間邏輯混亂、遮擋錯(cuò)誤等問題,原因是多數(shù)視頻生成模型基于圖像或視頻數(shù)據(jù)訓(xùn)練,缺乏對3D空間結(jié)構(gòu)和物理法則的理解和推演能力。
開啟空間智能飛輪戰(zhàn)略,持續(xù)開源共建技術(shù)生態(tài)
群核科技聯(lián)合創(chuàng)始人兼董事長黃曉煌稱:“對于中國這一代企業(yè)家來說,擁抱開源能發(fā)揮更大價(jià)值。只要技術(shù)有價(jià)值,賽道蓬勃發(fā)展,就能從中受益?!?/p>
圖說:群核科技創(chuàng)始人黃曉煌分享空間智能戰(zhàn)略攝影人/黃航
活動(dòng)現(xiàn)場,黃曉煌分享了群核科技在空間智能布局上的新思考。基于酷家樂這一全球最大的空間設(shè)計(jì)平臺(tái),群核科技構(gòu)建了“空間編輯工具 - 空間合成數(shù)據(jù) - 空間大模型”的空間智能飛輪,讓工具沉淀數(shù)據(jù),用數(shù)據(jù)加速模型訓(xùn)練,用模型提升工具體驗(yàn),再在工具廣泛應(yīng)用中沉淀更豐富的場景數(shù)據(jù)。資料顯示,截至2025年6月30日,群核科技擁有超4.41億個(gè)3D模型及超5億個(gè)結(jié)構(gòu)化3D空間場景。
“開源是我們戰(zhàn)略的重要部分。群核科技從2018年開始實(shí)施開源戰(zhàn)略,逐步開放數(shù)據(jù)和算法能力。當(dāng)前空間大模型還處于初級(jí)階段,我們希望通過開源推動(dòng)全球空間智能技術(shù)發(fā)展,成為全球空間智能服務(wù)提供商,推動(dòng)空間大模型的‘DeepSeek時(shí)刻’早日到來。”
本次技術(shù)開放日分享的兩款模型將逐步在HuggingFace、GitHub、魔搭社區(qū)等平臺(tái)向全球開發(fā)者開源。其中,空間生成模型SpatialGen在技術(shù)開放日當(dāng)天已可在開源網(wǎng)站下載使用,空間語言模型SpatialLM 1.5未來也將以“SpatialLM - Chat”形式完成開源。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com