商湯林達(dá)華:破解圖文交錯(cuò)思維鏈技術(shù),商湯的“兩步走”方案
在2025世界人工智能大會(huì)上,商湯發(fā)布的日日新V6.5多模態(tài)模型,率先突破了“圖文交錯(cuò)思維鏈”技術(shù),成為國內(nèi)首個(gè)擁有形象思維,實(shí)現(xiàn)圖文交錯(cuò)思維的商業(yè)級(jí)大模型。
日前,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學(xué)家林達(dá)華特別撰寫深度長文《邁向多模態(tài)通用智能:商湯的思考》,系統(tǒng)闡釋了多模態(tài)智能的底層邏輯、技術(shù)路徑,以及破解“圖文交錯(cuò)思維鏈”技術(shù)的關(guān)鍵。以下摘自文章,在不改變?cè)獾幕A(chǔ)上有刪減。
為什么多模態(tài)是通向AGI的必經(jīng)之路?
人工智能的核心目標(biāo)是通過計(jì)算來構(gòu)建智能。智能的核心是與外界進(jìn)行自主交互的能力。語言只是人類智能演進(jìn)的產(chǎn)物,并非智能的本源;它是描述世界的工具,而非世界本身。所以,單靠語言模型無法構(gòu)建真正的AGI。
大模型浪潮源于語言模型,得益于海量語料積累。這是邁向AGI的重要一步,但非最終目標(biāo)。人工智能若要具備通用性,需像人類通過感官接收信息一樣。因此,多模態(tài)信息感知與處理能力是AGI的核心要求,也是從語言模型邁向AGI的必由之路。
而且,在實(shí)際場(chǎng)景中,實(shí)現(xiàn)完整價(jià)值離不開對(duì)不同模態(tài)信息的有效處理、融合分析和判斷。從商業(yè)應(yīng)用角度看,多模態(tài)也是必然選擇。
商湯沿著什么路徑構(gòu)建多模態(tài)智能?
從根本上說,人工智能的發(fā)展由數(shù)據(jù)驅(qū)動(dòng),其能力邊界由數(shù)據(jù)定義。人工智能的每次躍遷,都源于數(shù)據(jù)邊界的打破。
智能的演進(jìn)是漸進(jìn)過程,會(huì)經(jīng)歷四次破壁:Transformer實(shí)現(xiàn)長序列建模;語言和視覺會(huì)合實(shí)現(xiàn)多模態(tài)理解;邏輯思維和形象思維結(jié)合實(shí)現(xiàn)真正的多模態(tài)推理;最終,智能體突破數(shù)字與物理空間邊界,實(shí)現(xiàn)與真實(shí)世界交互。
商湯依據(jù)智能階段演進(jìn)認(rèn)知展開技術(shù)研發(fā)布局,推動(dòng)對(duì)智能邊界的探索。早在2023年初就推出我國最早的多模態(tài)模型,邁出多模態(tài)智能探索重要一步。2024年突破原生多模態(tài)融合訓(xùn)練技術(shù),國內(nèi)最早將語言模型和圖文多模態(tài)模型融合為一個(gè)模型。最近,在多模態(tài)推理上取得重要進(jìn)展,實(shí)現(xiàn)圖文交錯(cuò)思維鏈,在此基礎(chǔ)上訓(xùn)練的日日新6.5具備真正的多模態(tài)思考能力,綜合推理性能顯著提升。同時(shí),展開開悟世界模型探索,打通數(shù)字與物理空間連接通道。
商湯為何選擇做原生多模態(tài)?
多模態(tài)模型訓(xùn)練有兩種典型方式:
1.適應(yīng)訓(xùn)練:給定訓(xùn)練好的大語言模型和預(yù)訓(xùn)練的視覺編碼器,后訓(xùn)練階段微調(diào)視覺編碼器和投影器,實(shí)現(xiàn)視覺和語言表征對(duì)齊。這是國內(nèi)多模態(tài)大模型常用方式,能低成本快速獲得多模態(tài)能力。
2.原生訓(xùn)練:預(yù)訓(xùn)練階段融合多種模態(tài)數(shù)據(jù)訓(xùn)練,模型從“原生”就具備多模態(tài)能力,而非“后補(bǔ)”。Google和OpenAI等頂尖機(jī)構(gòu)采用這種方式。
只經(jīng)過適應(yīng)訓(xùn)練的多模態(tài)模型,未深入掌握語言和視覺模態(tài)內(nèi)在關(guān)聯(lián),只是僵硬遵循后訓(xùn)練范例模式。商湯開始思考是否應(yīng)走原生多模態(tài)道路。但原生訓(xùn)練所需資源遠(yuǎn)超適應(yīng)訓(xùn)練,還面臨兩個(gè)重要問題:有了原生多模態(tài)模型后,是否還需單獨(dú)的語言模型?語言和其他模態(tài)應(yīng)何時(shí)融合?
2024年,經(jīng)過幾個(gè)月實(shí)驗(yàn),商湯得出明確結(jié)論,確定融合模型技術(shù)路徑:預(yù)訓(xùn)練中段開始多模態(tài)融合訓(xùn)練,最終形成統(tǒng)一的原生多模態(tài)模型,不再生產(chǎn)單獨(dú)的語言模型。
2024年第三季度完成融合訓(xùn)練的數(shù)據(jù)配方和訓(xùn)練超參驗(yàn)證,第四季度完成第一版千億參數(shù)級(jí)別的融合多模態(tài)模型訓(xùn)練。該模型在國內(nèi)兩個(gè)權(quán)威第三方評(píng)測(cè)平臺(tái)OpenCompass(司南)和SuperCLUE上位居國內(nèi)模型之首,語言任務(wù)上和當(dāng)時(shí)剛發(fā)布的DeepSeek V3并列。
從日日新6.0開始,包括今年世界人工智能大會(huì)發(fā)布的日日新6.5,都只有多模態(tài)模型,無單獨(dú)語言模型。這與國內(nèi)其他大模型廠商語言模型和圖文模型分立布局有很大區(qū)別。
多模態(tài)推理有何挑戰(zhàn)?如何構(gòu)建圖文交錯(cuò)思維鏈
大模型推理核心途徑是“思維鏈”,主要通過算法自動(dòng)構(gòu)造,因人工構(gòu)造成本高、難規(guī)?;?。
到2025年,主要多模態(tài)模型有一定推理能力,但主流多模態(tài)模型推理思維鏈?zhǔn)羌兾谋镜摹Mㄟ^多模態(tài)理解將輸入圖像轉(zhuǎn)換為文本描述,再用語言推理模型推理。但人的思考是跨模態(tài)的,是邏輯思維和形象思維結(jié)合。從技術(shù)角度,形象思維能為邏輯思維提供互補(bǔ)路徑,拓寬思路。
邏輯,思維和形象思維結(jié)合主要通過圖文交錯(cuò)思維鏈實(shí)現(xiàn)。商湯選擇兩步走路徑:第一步,通過調(diào)用工具進(jìn)行圖像編輯構(gòu)建圖文交錯(cuò)思維鏈,可高效精準(zhǔn)實(shí)現(xiàn)構(gòu)圖目標(biāo),本質(zhì)是構(gòu)建“對(duì)內(nèi)”智能體;第二步,基于多模態(tài)理解生成統(tǒng)一機(jī)制實(shí)現(xiàn)內(nèi)生的圖文混合思考。
模型設(shè)計(jì)有何思考?模型尺寸和架構(gòu)未來如何演進(jìn)?
模型架構(gòu)設(shè)計(jì)核心是效率。好的模型架構(gòu)能以更低代價(jià)實(shí)現(xiàn)數(shù)據(jù)到模型能力的轉(zhuǎn)化。
商湯重新思考視覺編碼器和MLLM主干功能定位,認(rèn)為“眼睛”和“大腦”設(shè)計(jì)有本質(zhì)區(qū)別,前者捕捉連續(xù)受分辨率影響的視覺信號(hào),后者在離散的語言和語義層面計(jì)算。這決定了視覺感知和語言模型應(yīng)有不同結(jié)構(gòu)和學(xué)習(xí)方式。視覺編碼器應(yīng)聚焦感知功能,對(duì)視覺信號(hào)更敏感,專注視覺編碼;涉及語義處理應(yīng)及早與LLM主干融合。
架構(gòu)更新后,日日新6.5模型能更快捷處理高分辨率大圖和長視頻;優(yōu)化訓(xùn)練數(shù)據(jù)后,模型同樣性能下效率提升超3倍。架構(gòu)優(yōu)化使性能成本曲線顯著優(yōu)化,實(shí)現(xiàn)比Gemini 2.5系列更優(yōu)的效費(fèi)比。
從多模態(tài)走向具身智能會(huì)面臨哪些挑戰(zhàn),商湯如何解決?
AI從數(shù)字空間走向物理空間與真實(shí)世界交互,首先要解決交互學(xué)習(xí)效率問題。
通過虛擬系統(tǒng)模擬現(xiàn)實(shí)世界交互,讓智能體在系統(tǒng)中每個(gè)動(dòng)作獲合適接近真實(shí)的反饋。該虛擬系統(tǒng)核心是“世界模型”,交互效率遠(yuǎn)高于真實(shí)環(huán)境。
世界模型構(gòu)建需海量數(shù)據(jù)支撐。商湯開悟世界模型基于多模態(tài)模型能力構(gòu)建,該多模態(tài)模型壓縮了世界海量數(shù)據(jù)。通過智能汽車業(yè)務(wù)獲大量真實(shí)場(chǎng)景數(shù)據(jù)加強(qiáng),世界模型具備強(qiáng)模擬和生成能力,可按指定路徑生成不同視角視頻。該模型為智能駕駛系統(tǒng)訓(xùn)練提供有效交互反饋,助其更高效訓(xùn)練。
商湯如何平衡技術(shù)突破和商業(yè)落地關(guān)系?
通向通用人工智能(AGI)是長跑,非一蹴而就的沖刺。商湯堅(jiān)定追尋AGI,但技術(shù)理想需商業(yè)價(jià)值護(hù)航。
在商湯,不把技術(shù)和商業(yè)視為爭奪資源雙方,而是互為因果的兩個(gè)環(huán)節(jié)。更關(guān)注兩者如何實(shí)現(xiàn)有效正向循環(huán)。
基于此認(rèn)知,確立“基礎(chǔ)設(shè)施 - 模型 - 應(yīng)用”三位一體總體戰(zhàn)略。一方面,在大裝置基礎(chǔ)設(shè)施支撐下,打造業(yè)界領(lǐng)先的通用多模態(tài)大模型,融匯跨模態(tài)跨領(lǐng)域數(shù)據(jù),持續(xù)技術(shù)創(chuàng)新,在感知、理解、推理、交互等能力維度不斷突破;另一方面,應(yīng)用聚焦生產(chǎn)力和交互,在真實(shí)場(chǎng)景牽引下,構(gòu)建端到端產(chǎn)品技術(shù)競爭力。
在三位一體戰(zhàn)略和技術(shù)與業(yè)務(wù)正向循環(huán)驅(qū)動(dòng)下,過去一年取得很多進(jìn)展。一方面,基礎(chǔ)技術(shù)體系創(chuàng)新勢(shì)頭更強(qiáng),業(yè)內(nèi)率先取得原生融合訓(xùn)練、圖文交錯(cuò)思維鏈、多模態(tài)融合強(qiáng)化學(xué)習(xí)、無限時(shí)長視頻交互記憶、開悟世界模型等創(chuàng)新成果;另一方面,技術(shù)創(chuàng)新支撐下,商業(yè)化局面迅速打開,生產(chǎn)力AI性能領(lǐng)先,裝機(jī)量從百萬量級(jí)走向千萬量級(jí);交互AI廣泛落地新型智能硬件和機(jī)器人,重塑用戶與世界交互形態(tài)。商湯生成式AI板塊業(yè)績持續(xù)高速成長顯示了這些成果的商業(yè)回報(bào)。
商湯對(duì)未來路徑有自主思考和認(rèn)知,戰(zhàn)略上高度聚焦、長期堅(jiān)持,技術(shù)路徑和產(chǎn)品業(yè)務(wù)鼓勵(lì)創(chuàng)新、敏捷迭代,逐漸建立技術(shù) - 商業(yè)閉環(huán)。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com