亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

阿里云創(chuàng)新方案:英偉達H20 GPU用量大減82%

1天前

電子發(fā)燒友網(wǎng)綜合報道,在當下人工智能AI)領(lǐng)域,高效利用算力資源成了各大科技公司的追求目標。近日,阿里云提出的創(chuàng)新計算池化解決方案“Aegaeon”成功入選頂級學(xué)術(shù)會議SOSP2025。


SOSP(操作系統(tǒng)原理研討會)由ACM SIGOPS主辦,是計算機系統(tǒng)領(lǐng)域的頂級學(xué)術(shù)會議,每年僅收錄數(shù)十篇論文,被譽為計算機操作系統(tǒng)領(lǐng)域的“奧斯卡”。


過去幾個月,阿里云對Aegaeon系統(tǒng)進行了超三個月的Beta測試。結(jié)果表明,在服務(wù)參數(shù)量高達720億的大型AI模型時,所需的英偉達H20 GPU數(shù)量從1192個減至213個,削減比例達82%。


這一顯著減少意義重大,不僅讓阿里云大幅降低硬件采購成本,也為依賴大量GPU進行模型服務(wù)的大型企業(yè)提供了借鑒。比如服務(wù)數(shù)十個720億參數(shù)大模型,原本需1192張GPU,現(xiàn)在僅213張就能完成任務(wù),硬件成本銳減超80%。


阿里云通過數(shù)據(jù)分析發(fā)現(xiàn),現(xiàn)有模型市場中,少數(shù)熱門模型(如阿里的Qwen)承載了絕大多數(shù)用戶請求,而大量不常被調(diào)用的“長尾”模型卻各自占用大量GPU資源。曾有17.7%的GPU算力僅用于處理1.35%的請求,資源閑置嚴重。


Aegaeon系統(tǒng)采用GPU資源池化方式,打破了傳統(tǒng)“一個模型綁定一個GPU”的低效模式,實現(xiàn)了更高效的資源配置。它將多個GPU的計算、內(nèi)存等抽象成一個資源池,按需分配給不同任務(wù),避免了單個任務(wù)獨占資源導(dǎo)致的閑置。


Aegaeon系統(tǒng)的核心創(chuàng)新點是Token級調(diào)度。其多模型混合服務(wù)功能能在每次生成下一個token時動態(tài)決定是否切換模型,實現(xiàn)精細化管理。通過組件復(fù)用、顯存精細化管理以及KV緩存同步優(yōu)化等全棧技術(shù),Aegaeon將模型切換的開銷降低了97%。


這一技術(shù)確保了token級調(diào)度的實時性,使模型切換響應(yīng)時間能支持亞秒級快速反應(yīng)。據(jù)悉,Aegaeon系統(tǒng)支持單個GPU同時服務(wù)多達7個不同模型,相比現(xiàn)有主流方案,有效吞吐量提升了1.5至9倍,處理能力提高了2至2.5倍。


Aegaeon的落地會推動算力租賃行業(yè)從“按卡計費”轉(zhuǎn)向“按實際使用量計費”,企業(yè)可通過彈性調(diào)度降低閑置成本。測算顯示,采用該技術(shù)的云服務(wù)商可將算力租賃價格降低40% - 60%,加速AI普惠化。


隨著AI技術(shù)發(fā)展,對算力的需求持續(xù)增長。GPU資源的高效利用是實現(xiàn)AI規(guī)?;瘧?yīng)用的關(guān)鍵。阿里云的Aegaeon方案為AI算力效率提升提供了新思路和解決方案,未來有望在更多云計算平臺和AI應(yīng)用場景中推廣應(yīng)用。


更多熱點文章閱讀


點擊關(guān)注 星標我們


將我們設(shè)為星標,不錯過每一次更新!


喜歡就獎勵一個“在看”吧!


本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com