國產(chǎn)多模態(tài)AI新開源:GLM-4.6V實(shí)測截圖轉(zhuǎn)網(wǎng)頁、搜圖購物表現(xiàn)亮眼,價(jià)格減半仍存圖文創(chuàng)作短板

智東西12月9日消息,智譜昨晚正式開源GLM-4.6V系列多模態(tài)大模型,該系列包含面向云端與高性能集群場景的基礎(chǔ)版GLM-4.6V(106B-A12B),以及適配本地部署與低延遲應(yīng)用的輕量版GLM-4.6V-Flash(9B)。
同日上午,智譜還開源了AutoGLM智能體,這款曾在去年10月被業(yè)內(nèi)稱作“全球首個(gè)具備手機(jī)操作能力的AI Agent”的工具,此次開源進(jìn)一步豐富了其AI生態(tài)。


據(jù)官方說明,GLM-4.6V可實(shí)現(xiàn)智能圖文混排與內(nèi)容創(chuàng)作、識圖購物與導(dǎo)購、前端復(fù)刻與多輪視覺交互開發(fā),以及長上下文文檔與視頻理解等功能。智東西第一時(shí)間對該模型進(jìn)行了體驗(yàn)測試。
實(shí)測發(fā)現(xiàn),GLM-4.6V在圖像搜索、全網(wǎng)比價(jià)、長文本及視頻理解方面表現(xiàn)穩(wěn)定,文字與網(wǎng)頁生成速度快、內(nèi)容準(zhǔn)確。不過其圖文混排能力存在不足,生成的圖片始終無法顯示;面對模糊指令時(shí),理解也會出現(xiàn)些許偏差。
GLM-4.6V系列模型將訓(xùn)練時(shí)的上下文窗口提升至128k tokens,且首次在模型架構(gòu)中把Function Call(工具調(diào)用)能力原生融入視覺模型。
性能層面,同等參數(shù)規(guī)模下,GLM-4.6V系列在多模態(tài)交互、邏輯推理和長上下文等關(guān)鍵能力上達(dá)到SOTA水平。
其中,9B參數(shù)的GLM-4.6V-Flash在覆蓋通用視覺問答、多模態(tài)推理、多智能體、多模態(tài)長文本、圖表識別及空間定位能力的34項(xiàng)測試中,有22項(xiàng)分?jǐn)?shù)超過Qwen3-VL-8B;106B參數(shù)12B激活的GLM-4.6V,表現(xiàn)則與參數(shù)量達(dá)其2倍的Qwen3-VL-235B相近。

價(jià)格方面,GLM-4.6V系列較GLM-4.5V降價(jià)50%,API調(diào)用價(jià)低至輸入1元/百萬tokens、輸出3元/百萬tokens,而GLM-4.6V-Flash則全面免費(fèi)。

GLM-4.6V開源地址:
GitHub:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-46v
魔搭社區(qū): https://modelscope.cn/collections/GLM-46V-37fabc27818446
GLM-4.6V體驗(yàn)地址: https://chat.z.ai/
01.智能圖文混排:可生成推文大綱,圖片顯示功能缺失
在智能圖文混排與內(nèi)容創(chuàng)作能力上,GLM-4.6V具備原生多模態(tài)工具調(diào)用能力,能直接理解圖像、截圖、文檔頁面等多模態(tài)數(shù)據(jù),無需先轉(zhuǎn)換為文字描述再解析。
測試中上傳GLM-4.5V技術(shù)報(bào)告,要求生成圖文并茂的微信公眾號文章。約1-2分鐘后,GLM-4.6V完成文檔閱讀與理解,輸出包含標(biāo)題、導(dǎo)語、五個(gè)章節(jié)及結(jié)語的完整文章,但多次嘗試后,生成的圖片仍無法顯示。

▲智能圖文混排
02.識圖購物與導(dǎo)購:自動比價(jià)流暢,模糊搜索理解待優(yōu)化
為體驗(yàn)識圖購物與導(dǎo)購功能,輸入指令“幫我搜索現(xiàn)在iPhone 17 Pro Max在各平臺的價(jià)格”。
GLM-4.6V自動調(diào)用工具全網(wǎng)搜索,形成包含商品名、平臺、品牌、商品圖、商品鏈接及店鋪名的比價(jià)表格,點(diǎn)擊鏈接可直接跳轉(zhuǎn)至購買頁面。
對比購買頁面信息,搜索出的產(chǎn)品名和價(jià)格準(zhǔn)確,但對比商品均來自京東平臺,且商品名直接提取自電商頁面,存在冗余信息未做進(jìn)一步整理。
另外,要求搜索《瘋狂動物城2》中尼克狐的同款眼鏡,模型通過圖像搜索功能找到同款眼鏡實(shí)拍圖,但未提供購買鏈接。

▲模糊搜索導(dǎo)購
03.網(wǎng)頁復(fù)刻:截圖生成代碼絲滑,圖標(biāo)更換出現(xiàn)錯(cuò)誤
上傳X平臺登錄頁面截圖,要求生成HTML代碼和網(wǎng)頁預(yù)覽。

▲截圖生成網(wǎng)頁代碼

▲生成網(wǎng)頁預(yù)覽
收到指令后,GLM-4.6V立即逐行生成HTML代碼并顯示預(yù)覽頁面,生成的“仿X”登錄網(wǎng)頁與原網(wǎng)頁幾乎一致。
此外,GLM-4.6V支持多輪視覺交互,可通過自然語言指令修改網(wǎng)頁色彩、調(diào)整按鈕位置等。
例如,在上一輪輸出基礎(chǔ)上要求將網(wǎng)頁主題色改為天藍(lán)色、圖標(biāo)X改為Z并保持原風(fēng)格。結(jié)果顯示,主題色修改完善,但圖標(biāo)更換指令被誤解,生成了“向上箭頭”形狀。

▲修改網(wǎng)頁元素
04.長上下文文檔理解:多語種論文同步處理,內(nèi)容理解準(zhǔn)確
GLM-4.6V將視覺編碼器與語言模型的上下文對齊能力提升至128k,實(shí)際應(yīng)用中,128k上下文約相當(dāng)于150頁文檔、200頁P(yáng)PT或一小時(shí)視頻。
為驗(yàn)證長上下文文檔理解能力,向GLM-4.6V提交三篇網(wǎng)絡(luò)平臺治理領(lǐng)域論文(含兩篇中文、一篇英文),要求閱讀后生成學(xué)習(xí)筆記。
生成結(jié)果顯示,圖片依舊未顯示,但文字部分內(nèi)容完整、邏輯清晰,每篇文獻(xiàn)的核心觀點(diǎn)與結(jié)論均被清晰羅列,英文文獻(xiàn)處理也無錯(cuò)漏。
05.視頻理解:內(nèi)容解析快速,文件大小有限制
GLM-4.6V還可理解長視頻內(nèi)容,用戶可上傳200M以內(nèi)的MP4影片,要求分析拍攝手法、內(nèi)容結(jié)構(gòu)等。
例如,上傳一段6分48秒的視頻制作技巧分享視頻,要求總結(jié)思路內(nèi)容并給出攝影類自媒體建議。

▲視頻內(nèi)容理解
GLM-4.6V在幾秒內(nèi)給出包含視頻思路、敘事技巧、鏡頭運(yùn)用和設(shè)備選用的完整詳解,還提供了四條循序漸進(jìn)的攝影博主發(fā)展建議,回答準(zhǔn)確清晰。
06.結(jié)語:GLM-4.6V降低視覺模型接入門檻
從實(shí)測體驗(yàn)看,GLM-4.6V在日常工作中已能提供不少幫助,但生成效果尚不穩(wěn)定,如公眾號文章圖片無法顯示、網(wǎng)頁細(xì)節(jié)修改存在瑕疵。不過其價(jià)格降至上一版本的一半,輕量版免費(fèi),對想嘗試多模態(tài)AI的個(gè)人或小團(tuán)隊(duì)而言,接入門檻顯著降低。
當(dāng)前AI領(lǐng)域各家能力逐漸趨同,誰能優(yōu)化體驗(yàn)、降低成本,誰就更可能吸引開發(fā)者。
智譜團(tuán)隊(duì)在官方推文中表示本周為開源發(fā)布周,將有更多成果開源,值得期待。
本文來自微信公眾號 “智東西”(ID:zhidxcom),作者:王涵,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




