亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

ROCm正式發(fā)布ROCMD 7開發(fā)平臺(tái):AI訓(xùn)練,推理性能暴漲3.8倍

4天前

快科技 6 月 13 日美圣何塞現(xiàn)場報(bào)道——


AMD 新一代今日正式發(fā)布 AI 加速卡 Instinct MI350 該系列,硬件能力再次突飛猛進(jìn),進(jìn)一步加強(qiáng)了面對面 NVIDIA 的競爭力。


但我們知道,如果硬件性能和技術(shù)想要完全釋放潛力,尤其是在 AI 強(qiáng)大的軟件開發(fā)平臺(tái)在加速系統(tǒng)中是不可或缺的。NVIDIA 能在 AI 這個(gè)行業(yè)有現(xiàn)在的地位,最大的功臣和環(huán)城河就是 CUDA。


AMD 還有自己的一套 ROCm 開發(fā)平臺(tái),一直和諧 NVIDIA CUDA 大家都有一定的差距,好在最近的進(jìn)步幅度也很喜人,包括對諸多人來說。 AI 實(shí)時(shí)支持大模型,框架,全方位開源。


現(xiàn)在,我們又迎來了一個(gè)全新的 ROCm 7 版本,支持最新模型和算法,高級(jí)模型, AI 特性、新硬件支持、集群管理、企業(yè)級(jí)特性等各個(gè)方面,都再一次取得了長足的進(jìn)步。


訓(xùn)練方面,ROCm 7 支持一系列新的特性,包括多個(gè)特性 AMD 開源模型,強(qiáng)化模型 AI 框架,增強(qiáng)內(nèi)核和算法,新的數(shù)據(jù)類型 ( BF16/FP8 ) 等等。


官方聲稱比較 ROCm 6,實(shí)測在 Llama 2/3.1、千問 1.5 在多種模型中,性能提升普遍達(dá)到。 3 倍數(shù)甚至更高。


在推理方面,也有許多新的變化,包括增強(qiáng)框架,Serving 推廣,核心和算法改進(jìn),高級(jí)數(shù)據(jù)類型 ( FP8/FP6/FP4/FP4/ 混和 ) 等。


性能提升同樣可喜,Llama 3.1、千問 2、DeepSeek R1 等待模型實(shí)測平均值達(dá)到 3.5 倍,最高更可達(dá) 3.8 倍。


有了 ROCm 7 MI355X支持 面對 NVIDIA B200 也是一點(diǎn)也不弱,比如 DeepSeek R1 FP8 吞吐量可以領(lǐng)先到達(dá) 30%。


當(dāng)然,這只是一個(gè)例子,AMD 對自己的新產(chǎn)品和同行競爭產(chǎn)品沒有更多的比較。


除數(shù)據(jù)中心、企業(yè)端外,ROCm 7 消費(fèi)端也有全面改善,增加了原生支持 Red Hat EPEL、Ubuntu、OpenSUSE 等更多的 Linux 在下半年,系統(tǒng)發(fā)行版實(shí)現(xiàn)了前兩者。


Windows 同時(shí),平臺(tái)也增加了新的支持 PyTorch、ONNX-EP 兩個(gè)框架,各自在第三季度和第三季度 7 每月開放瀏覽。


AMD 還順便介紹了下面全線的消費(fèi)級(jí)別。 AI 解決方案,比如移動(dòng)端的銳龍 AI 300 該系列最高可在當(dāng)?shù)囟藗?cè)運(yùn)行 240 一億參數(shù)模型,銳龍 AI Max 300 這個(gè)系列更可以跑到 700 數(shù)億參數(shù),而Cpu是新一代線程撕裂者。、Radeon AI 最高顯卡組合可以搞定最高可以搞定 1280 億參數(shù)。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com