亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

<label id="m9wbq"></label>

<rt id="m9wbq"></rt>

<label id="m9wbq"></label>

<center id="f924a"></center>

<style id="f924a"><delect id="f924a"></delect></style>

國產(chǎn)多模態(tài)AI新開源：GLM-4.6V實(shí)測截圖轉(zhuǎn)網(wǎng)頁、搜圖購物表現(xiàn)亮眼，價(jià)格減半仍存圖文創(chuàng)作短板

1天前

原生工具調(diào)用、128K上下文加持，智譜新模型開源引關(guān)注。

智東西12月9日消息，智譜昨晚正式開源GLM-4.6V系列多模態(tài)大模型，該系列包含面向云端與高性能集群場景的基礎(chǔ)版GLM-4.6V（106B-A12B），以及適配本地部署與低延遲應(yīng)用的輕量版GLM-4.6V-Flash（9B）。

同日上午，智譜還開源了AutoGLM智能體，這款曾在去年10月被業(yè)內(nèi)稱作“全球首個(gè)具備手機(jī)操作能力的AI Agent”的工具，此次開源進(jìn)一步豐富了其AI生態(tài)。

據(jù)官方說明，GLM-4.6V可實(shí)現(xiàn)智能圖文混排與內(nèi)容創(chuàng)作、識圖購物與導(dǎo)購、前端復(fù)刻與多輪視覺交互開發(fā)，以及長上下文文檔與視頻理解等功能。智東西第一時(shí)間對該模型進(jìn)行了體驗(yàn)測試。

實(shí)測發(fā)現(xiàn)，GLM-4.6V在圖像搜索、全網(wǎng)比價(jià)、長文本及視頻理解方面表現(xiàn)穩(wěn)定，文字與網(wǎng)頁生成速度快、內(nèi)容準(zhǔn)確。不過其圖文混排能力存在不足，生成的圖片始終無法顯示；面對模糊指令時(shí)，理解也會出現(xiàn)些許偏差。

GLM-4.6V系列模型將訓(xùn)練時(shí)的上下文窗口提升至128k tokens，且首次在模型架構(gòu)中把Function Call（工具調(diào)用）能力原生融入視覺模型。

性能層面，同等參數(shù)規(guī)模下，GLM-4.6V系列在多模態(tài)交互、邏輯推理和長上下文等關(guān)鍵能力上達(dá)到SOTA水平。

其中，9B參數(shù)的GLM-4.6V-Flash在覆蓋通用視覺問答、多模態(tài)推理、多智能體、多模態(tài)長文本、圖表識別及空間定位能力的34項(xiàng)測試中，有22項(xiàng)分?jǐn)?shù)超過Qwen3-VL-8B；106B參數(shù)12B激活的GLM-4.6V，表現(xiàn)則與參數(shù)量達(dá)其2倍的Qwen3-VL-235B相近。

價(jià)格方面，GLM-4.6V系列較GLM-4.5V降價(jià)50%，API調(diào)用價(jià)低至輸入1元/百萬tokens、輸出3元/百萬tokens，而GLM-4.6V-Flash則全面免費(fèi)。

GLM-4.6V開源地址：

GitHub：https://github.com/zai-org/GLM-V

Hugging Face：https://huggingface.co/collections/zai-org/glm-46v

魔搭社區(qū)： https://modelscope.cn/collections/GLM-46V-37fabc27818446

GLM-4.6V體驗(yàn)地址： https://chat.z.ai/

01.智能圖文混排：可生成推文大綱，圖片顯示功能缺失

在智能圖文混排與內(nèi)容創(chuàng)作能力上，GLM-4.6V具備原生多模態(tài)工具調(diào)用能力，能直接理解圖像、截圖、文檔頁面等多模態(tài)數(shù)據(jù)，無需先轉(zhuǎn)換為文字描述再解析。

測試中上傳GLM-4.5V技術(shù)報(bào)告，要求生成圖文并茂的微信公眾號文章。約1-2分鐘后，GLM-4.6V完成文檔閱讀與理解，輸出包含標(biāo)題、導(dǎo)語、五個(gè)章節(jié)及結(jié)語的完整文章，但多次嘗試后，生成的圖片仍無法顯示。

▲智能圖文混排

02.識圖購物與導(dǎo)購：自動比價(jià)流暢，模糊搜索理解待優(yōu)化

為體驗(yàn)識圖購物與導(dǎo)購功能，輸入指令“幫我搜索現(xiàn)在iPhone 17 Pro Max在各平臺的價(jià)格”。

GLM-4.6V自動調(diào)用工具全網(wǎng)搜索，形成包含商品名、平臺、品牌、商品圖、商品鏈接及店鋪名的比價(jià)表格，點(diǎn)擊鏈接可直接跳轉(zhuǎn)至購買頁面。

對比購買頁面信息，搜索出的產(chǎn)品名和價(jià)格準(zhǔn)確，但對比商品均來自京東平臺，且商品名直接提取自電商頁面，存在冗余信息未做進(jìn)一步整理。

另外，要求搜索《瘋狂動物城2》中尼克狐的同款眼鏡，模型通過圖像搜索功能找到同款眼鏡實(shí)拍圖，但未提供購買鏈接。

▲模糊搜索導(dǎo)購

03.網(wǎng)頁復(fù)刻：截圖生成代碼絲滑，圖標(biāo)更換出現(xiàn)錯(cuò)誤

上傳X平臺登錄頁面截圖，要求生成HTML代碼和網(wǎng)頁預(yù)覽。

▲截圖生成網(wǎng)頁代碼

▲生成網(wǎng)頁預(yù)覽

收到指令后，GLM-4.6V立即逐行生成HTML代碼并顯示預(yù)覽頁面，生成的“仿X”登錄網(wǎng)頁與原網(wǎng)頁幾乎一致。

此外，GLM-4.6V支持多輪視覺交互，可通過自然語言指令修改網(wǎng)頁色彩、調(diào)整按鈕位置等。

例如，在上一輪輸出基礎(chǔ)上要求將網(wǎng)頁主題色改為天藍(lán)色、圖標(biāo)X改為Z并保持原風(fēng)格。結(jié)果顯示，主題色修改完善，但圖標(biāo)更換指令被誤解，生成了“向上箭頭”形狀。

▲修改網(wǎng)頁元素

04.長上下文文檔理解：多語種論文同步處理，內(nèi)容理解準(zhǔn)確

GLM-4.6V將視覺編碼器與語言模型的上下文對齊能力提升至128k，實(shí)際應(yīng)用中，128k上下文約相當(dāng)于150頁文檔、200頁P(yáng)PT或一小時(shí)視頻。

為驗(yàn)證長上下文文檔理解能力，向GLM-4.6V提交三篇網(wǎng)絡(luò)平臺治理領(lǐng)域論文（含兩篇中文、一篇英文），要求閱讀后生成學(xué)習(xí)筆記。

生成結(jié)果顯示，圖片依舊未顯示，但文字部分內(nèi)容完整、邏輯清晰，每篇文獻(xiàn)的核心觀點(diǎn)與結(jié)論均被清晰羅列，英文文獻(xiàn)處理也無錯(cuò)漏。

05.視頻理解：內(nèi)容解析快速，文件大小有限制

GLM-4.6V還可理解長視頻內(nèi)容，用戶可上傳200M以內(nèi)的MP4影片，要求分析拍攝手法、內(nèi)容結(jié)構(gòu)等。

例如，上傳一段6分48秒的視頻制作技巧分享視頻，要求總結(jié)思路內(nèi)容并給出攝影類自媒體建議。

▲視頻內(nèi)容理解

GLM-4.6V在幾秒內(nèi)給出包含視頻思路、敘事技巧、鏡頭運(yùn)用和設(shè)備選用的完整詳解，還提供了四條循序漸進(jìn)的攝影博主發(fā)展建議，回答準(zhǔn)確清晰。

06.結(jié)語：GLM-4.6V降低視覺模型接入門檻

從實(shí)測體驗(yàn)看，GLM-4.6V在日常工作中已能提供不少幫助，但生成效果尚不穩(wěn)定，如公眾號文章圖片無法顯示、網(wǎng)頁細(xì)節(jié)修改存在瑕疵。不過其價(jià)格降至上一版本的一半，輕量版免費(fèi)，對想嘗試多模態(tài)AI的個(gè)人或小團(tuán)隊(duì)而言，接入門檻顯著降低。

當(dāng)前AI領(lǐng)域各家能力逐漸趨同，誰能優(yōu)化體驗(yàn)、降低成本，誰就更可能吸引開發(fā)者。

智譜團(tuán)隊(duì)在官方推文中表示本周為開源發(fā)布周，將有更多成果開源，值得期待。

本文來自微信公眾號 “智東西”（ID：zhidxcom），作者：王涵，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

三方聯(lián)手的“國民好車”為何爭議不斷？

星巴克中國聯(lián)動哈利·波特推魔法主題系列，能否撬動消費(fèi)者的“魔法”消費(fèi)欲？

國貨走心直播間：溫暖經(jīng)濟(jì)的煥新之路

當(dāng)憤怒蔓延：游戲與創(chuàng)作者身處的不確定時(shí)代

36氪2026 CES現(xiàn)場特別策劃：深度專訪與創(chuàng)業(yè)者投資人社交盛宴

項(xiàng)目推薦

迪瓜租機(jī)

愛親母嬰連鎖品牌

<rt id="sxqfs"></rt>

<label id="sxqfs"><samp id="sxqfs"></samp></label>

<rt id="sxqfs"></rt>