英偉達Dynamo對決華為UCM!專家解讀AI大模型推理優(yōu)化
電子發(fā)燒友網(wǎng)報道(文 / 章鷹)近日,在2025金融AI推理應(yīng)用落地與發(fā)展論壇上,中國信息通信研究院人工智能研究所平臺與工程化部主任曹峰表示,在關(guān)注AI大模型落地時,一方面要看落地效果,另一方面,在行業(yè)應(yīng)用中,AI大模型推理優(yōu)化的價值日益受到關(guān)注。

大模型落地重心從訓(xùn)練轉(zhuǎn)向推理,AI推理需求暴漲,推理算力需求爆發(fā)
中國信通院人工智能研究平臺與工程化部主任曹峰分析稱:“ChatGPT訪問量呈線性增長,最新訪問量達4億。受益于中國AI大模型DeepSeek爆發(fā),日均調(diào)用量快速上升。2025年1月起,中國AI推理需求增長20倍,未來三年算力需求將爆發(fā)。IDC表示,2024年算力需求60%用于訓(xùn)練,40%用于推理,到2027年中國用于推理的算力需求——工作負(fù)載將達72.6%。”

從消費端來看,AI手機、AI PC領(lǐng)域的AI模型調(diào)用量迅速上升。ChatGPT、豆包等APP軟件,以及地圖類、聊天類應(yīng)用都接入了大模型能力。以Agent(智能體)為代表的消費類應(yīng)用,還有基于大模型應(yīng)用的AI硬件誕生,這些都帶來了對大模型Token的海量需求和推理需求的上升。
此外,AI大模型在中國企業(yè)的使用率持續(xù)上升,智慧醫(yī)療、金融等行業(yè)的使用率也在增加。
推理復(fù)雜度不斷上升,從簡單的文本生成變?yōu)閺?fù)雜的推理問題,如讓AI分析7 - 8個PDF的核心觀點。視頻生成質(zhì)量提高,短視頻推薦從簡單算法推薦變?yōu)樯墒紸I推薦,這些都促使推理算力爆發(fā)式增長。AI大模型推理在行業(yè)的落地越來越廣泛,涵蓋銷售客服、辦公助手和供應(yīng)鏈管理等場景。
推理目標(biāo):從單點優(yōu)化和功能完備,轉(zhuǎn)向?qū)τ诔杀尽⑿阅芎托Ч膮f(xié)同優(yōu)化
2025年起,多模態(tài)AI大模型發(fā)布增多,國內(nèi)主流廠商支持智譜、通義千問等原生多模態(tài)開發(fā),RGA、Agent等多模態(tài)引發(fā)了長序列推理需求。
曹峰分析道:“我們不僅需要推理,還需要高質(zhì)量的推理。大模型產(chǎn)業(yè)化落地需要平衡成本與性能,針對不同場景進行推理優(yōu)化是核心問題。大模型進入推理時代,多模態(tài)、長序列、MoE等模型趨勢以及復(fù)雜落地場景要求推理優(yōu)化?!?/strong>
今年3月,英偉達在GTC上推出了NVIDIA Dynamo。它是一個高吞吐量、低延遲的開源推理服務(wù)框架,用于在大規(guī)模分布式環(huán)境中部署生成式AI和推理模型。通過分布式管理器,可提升長文本上下文推理效率。英偉達稱,在NVIDIA Blackwell上運行開源DeepSeek - R1模型時,該框架最多可將請求數(shù)量提升30倍。

華為推出AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器)和管理系統(tǒng)的算法。UCM是以KKV Cache為中心的推理加速套件,集成了多類型緩存加速算法工具,形成底層從南向北的開放式生態(tài)架構(gòu),有效提升了Token的吞吐率。銀聯(lián)的實際案例和大量測試顯示,UCM顯著降低首Token的時延,最高降低90%,系統(tǒng)吞吐率最大提升22倍,上下文的推理窗口可擴展10倍以上。我們需要在系統(tǒng)層面統(tǒng)籌考慮如何提高系統(tǒng)的推理效率。
如今,企業(yè)不再聚焦AI大模型的訓(xùn)練,而是將重心轉(zhuǎn)向應(yīng)用部署,如何高效率、低成本地部署和進行推理,以適配核心業(yè)務(wù)場景成為關(guān)鍵。華為剛推出的KV Cache已成為架構(gòu)優(yōu)化的焦點,以KV Cache為核心的推理方案不斷涌現(xiàn),背后依賴的高性能存儲、先進調(diào)度策略的重要性愈發(fā)凸顯。
更多熱點文章閱讀
點擊關(guān)注 星標(biāo)我們
將我們設(shè)為星標(biāo),不錯過每一次更新!

喜歡就獎勵一個"在看"吧!
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com