華為突破HBM依賴!AI推理新技術(shù)UCM上線,9月開(kāi)源
電子發(fā)燒友網(wǎng)報(bào)道(文 /章鷹)8月12日,在2025金融AI推理應(yīng)用落地與發(fā)展論壇上,華為公司副總裁、數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周越峰宣布,華為與銀聯(lián)聯(lián)合創(chuàng)新,推出AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理其器)和管理系統(tǒng)的算法。這一突破性成果降低了對(duì)HBM技術(shù)的依賴,提升了國(guó)內(nèi)AI大模型的推理能力。

該技術(shù)是以KV Cache為中心的推理加速套件,UCM集成了多類型緩存加速算法工具,能實(shí)現(xiàn)推理過(guò)程中KV Cache記憶數(shù)據(jù)的分級(jí)管理,進(jìn)而擴(kuò)大推理上下文窗口,提升推理效率。周越峰指出:“銀聯(lián)的實(shí)際案例和大量測(cè)試顯示,UCM顯著降低首Token的時(shí)延,最高降低90%,系統(tǒng)吞吐率最大提升22倍,上下文的推理窗口可以擴(kuò)展10倍以上,這是AI推理系統(tǒng)的巨大進(jìn)步。”

華為UCM技術(shù)已率先應(yīng)用在中國(guó)銀聯(lián)“客戶之聲”“營(yíng)銷策劃”和“辦公助手”三大業(yè)務(wù)場(chǎng)景,開(kāi)展智慧金融AI推理加速應(yīng)用試點(diǎn),并取得成果。華為表示,計(jì)劃于2025年9月正式開(kāi)源UCM,將在魔擎社區(qū)首發(fā),并共享給業(yè)內(nèi)所有Share Everything (共享架構(gòu))存儲(chǔ)廠商和生態(tài)伙伴。
AI大模型推理給存儲(chǔ)帶來(lái)了哪些挑戰(zhàn)?UCM的創(chuàng)新之處如何解讀?本文結(jié)合中國(guó)信通院人工智能研究平臺(tái)與工程化部主任曹峰、華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線AI存儲(chǔ)首席架構(gòu)師李國(guó)杰的觀點(diǎn),進(jìn)行詳細(xì)分析。
AI大模型推理給存儲(chǔ)帶來(lái)三重挑戰(zhàn)
中國(guó)信通院人工智能研究平臺(tái)與工程化部主任曹峰分析說(shuō):“ChatGPT的訪問(wèn)量呈線性增長(zhǎng),最新訪問(wèn)量達(dá)到4億。受益于中國(guó)AI大模型DeepSeek爆發(fā),日均調(diào)用量也在快速上升。2025年1月開(kāi)始,中國(guó)AI推理的需求增長(zhǎng)20倍,未來(lái)三年算力需求將爆發(fā)。IDC表示,2024年算力需求60%是訓(xùn)練,40%是推理,到2027年中國(guó)用于推理的算力需求——工作負(fù)載將達(dá)到72.6%?!?/p>
當(dāng)下,AI大模型推理應(yīng)用落地遇到推不懂、推得慢和推得貴三大挑戰(zhàn)。一是長(zhǎng)文本增多,輸入超過(guò)模型上下文窗口的內(nèi)容,推理窗口小就無(wú)法推動(dòng);二是由于中美在AI基礎(chǔ)設(shè)施上存在差距,中國(guó)互聯(lián)網(wǎng)大模型首Token時(shí)延普遍是美國(guó)頭部廠商的兩倍;三是美國(guó)大模型的推理吞吐率是中國(guó)大模型的10倍。

華為公司副總裁、數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周越峰指出,AI時(shí)代,模型訓(xùn)練、推理效率與體驗(yàn)都以Token數(shù)為表征,Token經(jīng)濟(jì)已經(jīng)到來(lái)。
在AI基礎(chǔ)設(shè)施投資方面,中美存在差距。為保障流暢的推理體驗(yàn),企業(yè)需加大算力投入,但如何改善AI推理的效率和體驗(yàn),在推理效率與成本間找到最佳平衡點(diǎn)?華為推出UCM,以KV Cache和記憶管理為中心,提供全場(chǎng)景化系列化推理加速能力。
UCM兩大關(guān)鍵能力和創(chuàng)新算法,破解HBM受困難題
HBM是解決“數(shù)據(jù)搬運(yùn)”的關(guān)鍵技術(shù)。HBM不足時(shí),用戶使用AI推理的體驗(yàn)會(huì)明顯下降,出現(xiàn)任務(wù)卡頓、響應(yīng)慢等問(wèn)題。華為此次技術(shù)突破有望緩解這一瓶頸。
華為推出UCM推理記憶數(shù)據(jù)管理器,包括對(duì)接不同引擎與算力的推理引擎插件(Connector)、支持多級(jí)KV Cache管理及加速算法的功能庫(kù)(Accelerator)、高性能KV Cache存取適配器(Adapter)三大組件。通過(guò)推理框架、算力、存儲(chǔ)三層協(xié)同,實(shí)現(xiàn)AI推理“更優(yōu)體驗(yàn)、更低成本”。
UCM的創(chuàng)新之處在于,能根據(jù)記憶熱度在HBM、DRAM、SSD等存儲(chǔ)介質(zhì)中按需流動(dòng),同時(shí)融合多種稀疏注意力算法實(shí)現(xiàn)存算深度協(xié)同,使長(zhǎng)序列場(chǎng)景下TPS(每秒處理token數(shù))提升2至22倍,降低每個(gè)Token的推理成本。

華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線AI存儲(chǔ)首席架構(gòu)師李國(guó)杰表示:“實(shí)時(shí)數(shù)據(jù)放在HBM中,短期記憶數(shù)據(jù)放在DRAM中,其他數(shù)據(jù)放在共享存儲(chǔ)SSD中,可極大提高系統(tǒng)效率和AI推理能力。針對(duì)AI推理平衡成本和效能的挑戰(zhàn),華為推出UCM統(tǒng)一的記憶數(shù)據(jù)管理器,從兩個(gè)層面以系統(tǒng)化方案解決問(wèn)題?!?/p>
在底層的框架和機(jī)制上,UCM提供多級(jí)緩存空間,構(gòu)建智能管理以及智能流動(dòng)的基礎(chǔ)框架能力。在此基礎(chǔ)上,華為還構(gòu)筑了一系列創(chuàng)新的推理加速算法和加速特性,如自適應(yīng)的全局Prefix Cache,可降低首Token時(shí)延與單位Token成本。
采用動(dòng)態(tài)的Training稀疏加速算法,能倍數(shù)級(jí)提升長(zhǎng)序列吞吐和體驗(yàn)。還有后綴檢索、預(yù)測(cè)加速算法、PD檢索加速和Agent原生記憶加速。
UCM將超長(zhǎng)序列Cache分層卸載至外置專業(yè)存儲(chǔ),通過(guò)算法創(chuàng)新突破模型和資源限制,實(shí)現(xiàn)推理上下文窗口的10倍級(jí)擴(kuò)展,滿足長(zhǎng)文本處理需求。
中國(guó)銀聯(lián)執(zhí)行副總裁涂曉軍分享,在華為與中國(guó)銀聯(lián)的聯(lián)合創(chuàng)新技術(shù)試點(diǎn)中,在中國(guó)銀聯(lián)的“客戶之聲”業(yè)務(wù)場(chǎng)景下,借助UCM技術(shù)及工程化手段,大模型推理速度提升125倍,僅需10秒就能精準(zhǔn)識(shí)別客戶高頻問(wèn)題,促進(jìn)了服務(wù)質(zhì)量提升。
目前,AI大模型訓(xùn)練對(duì)內(nèi)存帶寬需求呈指數(shù)級(jí)增長(zhǎng),傳統(tǒng)DDR內(nèi)存已無(wú)法滿足需求。HBM(高帶寬內(nèi)存)是一種專用內(nèi)存技術(shù),用于AI處理器、GPU和HPC系統(tǒng),在這些系統(tǒng)中,帶寬和能效比原始容量更重要。HBM3每堆??商峁└哌_(dá)819GB/s的傳輸速度,對(duì)支持大型語(yǔ)言模型(LLM)、神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理工作負(fù)載至關(guān)重要。
但自去年12月以來(lái),美國(guó)將HBM2E列入對(duì)中國(guó)的禁售清單,國(guó)產(chǎn)廠商HBM的突破仍在推進(jìn)中。華為推出UCM的重大意義在于加速推進(jìn)國(guó)產(chǎn)AI推理生態(tài),其核心價(jià)值是實(shí)現(xiàn)更快的推理響應(yīng)、更長(zhǎng)的推理序列以及更優(yōu)化的成本。
中國(guó)信通院人工智能研究平臺(tái)與工程化部主任曹峰認(rèn)為,國(guó)產(chǎn)化AI推理生態(tài)建設(shè)應(yīng)加速,KV Cache已成為架構(gòu)優(yōu)化的焦點(diǎn),以KV Cache為核心的推理方案不斷涌現(xiàn),背后依賴的高性能存儲(chǔ)、先進(jìn)調(diào)度策略的重要性愈發(fā)凸顯。
李國(guó)杰強(qiáng)調(diào),AI是快速發(fā)展的行業(yè),每6個(gè)月就會(huì)迎來(lái)新一輪技術(shù)革新。UCM不僅著眼于當(dāng)下解決AI推理問(wèn)題,未來(lái)還將從KV Cache分層管理走向Agentic AI原生記憶管理和應(yīng)用加速。
更多熱點(diǎn)文章閱讀
點(diǎn)擊關(guān)注 星標(biāo)我們
將我們?cè)O(shè)為星標(biāo),不錯(cuò)過(guò)每一次更新!

喜歡就獎(jiǎng)勵(lì)一個(gè)“在看”吧!
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com