華為推出AI推理技術(shù)UCM:減少HBM依賴,9月將正式開(kāi)源
快科技8月13日消息,據(jù)媒體報(bào)道,在2025金融AI推理應(yīng)用落地與發(fā)展論壇上,華為重磅發(fā)布了其AI推理創(chuàng)新技術(shù)——UCM(推理記憶數(shù)據(jù)管理器)。這項(xiàng)技術(shù)被業(yè)內(nèi)看作是有望重塑國(guó)內(nèi)AI推理格局的關(guān)鍵突破。
UCM技術(shù)的核心是其先進(jìn)的KV Cache系統(tǒng),它融合了多種緩存加速算法工具和精細(xì)的分級(jí)管理策略,能高效處理推理過(guò)程中產(chǎn)生的大量記憶數(shù)據(jù)。這帶來(lái)了諸多明顯優(yōu)勢(shì),比如能有效擴(kuò)大上下文窗口,保證推理過(guò)程具備高吞吐量和低延遲,還能顯著降低每個(gè)Token的推理成本。
特別重要的是,UCM技術(shù)有望緩解當(dāng)前因HBM(高帶寬內(nèi)存)資源短缺導(dǎo)致的任務(wù)停滯和響應(yīng)延遲問(wèn)題,為AI應(yīng)用提供更流暢的體驗(yàn),進(jìn)而減少行業(yè)對(duì)HBM的過(guò)度依賴。
此次論壇不僅是UCM技術(shù)的首次亮相,華為還宣布將和中國(guó)銀聯(lián)攜手,共同發(fā)布雙方在AI推理領(lǐng)域的最新應(yīng)用成果。論壇還邀請(qǐng)了來(lái)自信通院、清華大學(xué)、科大訊飛等機(jī)構(gòu)的專家,他們分享了在優(yōu)化大模型推理速度及提升用戶體驗(yàn)方面的前沿經(jīng)驗(yàn)。
華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線副總裁樊杰在演講中強(qiáng)調(diào)了高質(zhì)量行業(yè)數(shù)據(jù)與高性能存儲(chǔ)對(duì)AI發(fā)展的重要性。他指出,未來(lái)的AI飛躍將在很大程度上依賴于此,高性能AI存儲(chǔ)系統(tǒng)能把數(shù)據(jù)加載時(shí)間從數(shù)小時(shí)縮短至幾分鐘,同時(shí)讓算力集群的效率翻倍。
華為計(jì)劃在2025年9月正式開(kāi)源UCM技術(shù),首發(fā)平臺(tái)是魔擎社區(qū)。后續(xù),華為會(huì)逐步將該技術(shù)貢獻(xiàn)給業(yè)界主流的推理引擎社區(qū),并向所有采用“共享一切”(Share Everything)架構(gòu)的存儲(chǔ)廠商及生態(tài)伙伴開(kāi)放共享。

本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com