ROCm正式發(fā)布ROCMD 7開(kāi)發(fā)平臺(tái):AI訓(xùn)練,推理性能暴漲3.8倍
快科技 6 月 13 日美圣何塞現(xiàn)場(chǎng)報(bào)道——
AMD 新一代今日正式發(fā)布 AI 加速卡 Instinct MI350 該系列,硬件能力再次突飛猛進(jìn),進(jìn)一步加強(qiáng)了面對(duì)面 NVIDIA 的競(jìng)爭(zhēng)力。
但我們知道,如果硬件性能和技術(shù)想要完全釋放潛力,尤其是在 AI 強(qiáng)大的軟件開(kāi)發(fā)平臺(tái)在加速系統(tǒng)中是不可或缺的。NVIDIA 能在 AI 這個(gè)行業(yè)有現(xiàn)在的地位,最大的功臣和環(huán)城河就是 CUDA。
AMD 還有自己的一套 ROCm 開(kāi)發(fā)平臺(tái),一直和諧 NVIDIA CUDA 大家都有一定的差距,好在最近的進(jìn)步幅度也很喜人,包括對(duì)諸多人來(lái)說(shuō)。 AI 實(shí)時(shí)支持大模型,框架,全方位開(kāi)源。
現(xiàn)在,我們又迎來(lái)了一個(gè)全新的 ROCm 7 版本,支持最新模型和算法,高級(jí)模型, AI 特性、新硬件支持、集群管理、企業(yè)級(jí)特性等各個(gè)方面,都再一次取得了長(zhǎng)足的進(jìn)步。
訓(xùn)練方面,ROCm 7 支持一系列新的特性,包括多個(gè)特性 AMD 開(kāi)源模型,強(qiáng)化模型 AI 框架,增強(qiáng)內(nèi)核和算法,新的數(shù)據(jù)類(lèi)型 ( BF16/FP8 ) 等等。
官方聲稱(chēng)比較 ROCm 6,實(shí)測(cè)在 Llama 2/3.1、千問(wèn) 1.5 在多種模型中,性能提升普遍達(dá)到。 3 倍數(shù)甚至更高。
在推理方面,也有許多新的變化,包括增強(qiáng)框架,Serving 推廣,核心和算法改進(jìn),高級(jí)數(shù)據(jù)類(lèi)型 ( FP8/FP6/FP4/FP4/ 混和 ) 等。
性能提升同樣可喜,Llama 3.1、千問(wèn) 2、DeepSeek R1 等待模型實(shí)測(cè)平均值達(dá)到 3.5 倍,最高更可達(dá) 3.8 倍。
有了 ROCm 7 MI355X支持 面對(duì) NVIDIA B200 也是一點(diǎn)也不弱,比如 DeepSeek R1 FP8 吞吐量可以領(lǐng)先到達(dá) 30%。
當(dāng)然,這只是一個(gè)例子,AMD 對(duì)自己的新產(chǎn)品和同行競(jìng)爭(zhēng)產(chǎn)品沒(méi)有更多的比較。
除數(shù)據(jù)中心、企業(yè)端外,ROCm 7 消費(fèi)端也有全面改善,增加了原生支持 Red Hat EPEL、Ubuntu、OpenSUSE 等更多的 Linux 在下半年,系統(tǒng)發(fā)行版實(shí)現(xiàn)了前兩者。
Windows 同時(shí),平臺(tái)也增加了新的支持 PyTorch、ONNX-EP 兩個(gè)框架,各自在第三季度和第三季度 7 每月開(kāi)放瀏覽。
AMD 還順便介紹了下面全線的消費(fèi)級(jí)別。 AI 解決方案,比如移動(dòng)端的銳龍 AI 300 該系列最高可在當(dāng)?shù)囟藗?cè)運(yùn)行 240 一億參數(shù)模型,銳龍 AI Max 300 這個(gè)系列更可以跑到 700 數(shù)億參數(shù),而Cpu是新一代線程撕裂者。、Radeon AI 最高顯卡組合可以搞定最高可以搞定 1280 億參數(shù)。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com




