亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

英偉達(dá)新開(kāi)源模型:三倍吞吐、單卡運(yùn)行,推理能力達(dá)SOTA

07-30 06:57

大家都知道,英偉達(dá)不僅售賣GPU,還親自投身于模型的研發(fā)。


英偉達(dá)新推出的開(kāi)源模型Llama Nemotron Super v1.5,是專門為復(fù)雜推理和智能體任務(wù)打造的。


該模型在科學(xué)、數(shù)學(xué)、編程及智能體任務(wù)中達(dá)到了SOTA水平,同時(shí)將吞吐量提升到了前代的3倍,還能在單張顯卡上高效運(yùn)行,真正實(shí)現(xiàn)了更準(zhǔn)、更快、更輕的目標(biāo)。



它是如何做到這些的呢?


模型介紹


Llama Nemotron Super v1.5是Llama - 3.3 - Nemotron - Super - 49B - V1.5的簡(jiǎn)稱,它是Llama - 3.3 - Nemotron - Super - 49B - V1的升級(jí)版(此模型是Meta的Llama - 3.3 - 70B - Instruct的衍生模型),主要用于復(fù)雜推理和智能體任務(wù)。


模型架構(gòu)

Llama Nemotron Super v1.5采用了神經(jīng)架構(gòu)搜索(Neural Architecture Search,NAS)技術(shù),這使得模型在準(zhǔn)確率和效率之間取得了很好的平衡,同時(shí)將吞吐量的提升轉(zhuǎn)化為更低的運(yùn)行成本。


(注:NAS的目的是通過(guò)搜索算法從眾多可能的架構(gòu)中找出最優(yōu)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用自動(dòng)化方法替代人工設(shè)計(jì),從而提高模型的性能和效率。)



在Llama Nemotron Super v1.5中,NAS算法生成了非標(biāo)準(zhǔn)、非重復(fù)的網(wǎng)絡(luò)模塊(blocks),與傳統(tǒng)的Transformer相比,有以下兩種變化:


  • 跳過(guò)注意力機(jī)制(Skip attention):在某些模塊中,直接跳過(guò)注意力層,或者用一個(gè)線性層替代。
  • 可變前饋網(wǎng)絡(luò)(Variable FFN):在前饋網(wǎng)絡(luò)(Feedforward Network)中,不同模塊采用了不同的擴(kuò)展/壓縮比。

這樣,模型通過(guò)跳過(guò)注意力機(jī)制或改變前饋網(wǎng)絡(luò)寬度來(lái)減少浮點(diǎn)運(yùn)算次數(shù)(FLOPs),從而在資源有限的情況下更高效地運(yùn)行。


之后,研究團(tuán)隊(duì)對(duì)原始的Llama模型(Llama 3.3 70B Instruct)進(jìn)行了逐模塊的蒸餾(block - wise distillation),通過(guò)為每個(gè)模塊構(gòu)建多個(gè)變體,并在所有模塊結(jié)構(gòu)中搜索組合,構(gòu)建出一個(gè)新模型。


這個(gè)新模型既滿足了單個(gè)H100 80GB顯卡的吞吐量和內(nèi)存要求,又盡可能減少了性能損失。


訓(xùn)練與數(shù)據(jù)集


該模型首先在FineWeb、Buzz - V1.2和Dolma三個(gè)數(shù)據(jù)集共400億個(gè)token的訓(xùn)練數(shù)據(jù)上進(jìn)行了知識(shí)蒸餾(knowledge distillation,KD),重點(diǎn)關(guān)注英語(yǔ)單輪和多輪聊天。


在后訓(xùn)練階段,模型結(jié)合了監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)的方法,進(jìn)一步提升了在代碼、數(shù)學(xué)、推理和指令遵循等關(guān)鍵任務(wù)上的表現(xiàn)。


這些數(shù)據(jù)包括公開(kāi)語(yǔ)料庫(kù)中的題目和人工合成的問(wèn)答樣本,部分題目配有開(kāi)啟和關(guān)閉推理的答案,目的是增強(qiáng)模型對(duì)推理模式的辨別能力。


英偉達(dá)表示數(shù)據(jù)集將在未來(lái)幾周內(nèi)發(fā)布。


總體而言,Llama Nemotron Super V1.5是一個(gè)通過(guò)NAS自動(dòng)優(yōu)化架構(gòu)、精簡(jiǎn)計(jì)算圖的Llama 3.3 70B Instruct變體。它針對(duì)單卡運(yùn)行場(chǎng)景進(jìn)行了結(jié)構(gòu)簡(jiǎn)化、知識(shí)蒸餾訓(xùn)練與后訓(xùn)練,兼顧了高準(zhǔn)確性、高吞吐量和低資源占用,非常適合英語(yǔ)對(duì)話類任務(wù)及編程任務(wù)的部署。


此外,在部署方面,英偉達(dá)延續(xù)了其生態(tài)優(yōu)勢(shì):


我們的AI模型專為在NVIDIA GPU加速系統(tǒng)上運(yùn)行而設(shè)計(jì)和/或優(yōu)化。通過(guò)充分利用NVIDIA的硬件(如GPU核心)和軟件框架(如CUDA庫(kù)),相比僅依賴CPU的方案,模型在訓(xùn)練和推理階段實(shí)現(xiàn)了顯著的速度提升。



該模型現(xiàn)已開(kāi)源。開(kāi)發(fā)者可以在build.nvidia.com體驗(yàn)Llama Nemotron Super v1.5,也可以直接從Hugging Face下載模型。


One more thing


作為英偉達(dá)新發(fā)布的開(kāi)源大語(yǔ)言模型,Llama Nemotron Super v1.5屬于英偉達(dá)Nemotron生態(tài)。該生態(tài)集成了大語(yǔ)言模型、訓(xùn)練與推理框架、優(yōu)化工具和企業(yè)級(jí)部署方案,旨在實(shí)現(xiàn)高性能、可控性強(qiáng)、易于擴(kuò)展的生成式AI應(yīng)用開(kāi)發(fā)。



為了滿足不同場(chǎng)景和用戶的需求,英偉達(dá)在這個(gè)生態(tài)基礎(chǔ)上推出了三個(gè)不同定位的大語(yǔ)言模型系列——Nano、Super和Ultra。



其中,Nano系列注重成本效益和邊緣部署,適合在邊緣設(shè)備(如移動(dòng)端、機(jī)器人、IoT設(shè)備等)或?qū)Τ杀久舾械膱?chǎng)景(如本地運(yùn)行、離線場(chǎng)景、商業(yè)小模型推理)中使用。


Super系列則在單個(gè)GPU上實(shí)現(xiàn)了精度和計(jì)算效率的平衡,它可以在一張高性能GPU(如H100)上運(yùn)行,無(wú)需多卡或大型集群。其精度比Nano系列高,但比Ultra系列小,適合企業(yè)開(kāi)發(fā)者或中型部署。我們前面提到的Llama Nemotron Super v1.5就屬于這個(gè)系列。


Ultra系列致力于在數(shù)據(jù)中心實(shí)現(xiàn)最高精度,專為在數(shù)據(jù)中心、超算集群、多張GPU上運(yùn)行而設(shè)計(jì),適用于復(fù)雜推理、大規(guī)模生成、高保真對(duì)話等對(duì)精度要求極高的任務(wù)。


目前,Nemotron已獲得SAP、ServiceNow、Microsoft、Accenture、CrowdStrike、Deloitte等企業(yè)的支持或集成使用,用于構(gòu)建面向企業(yè)級(jí)流程自動(dòng)化和復(fù)雜問(wèn)題解決的AI智能體平臺(tái)。


此外,在Amazon Bedrock Marketplace中也能通過(guò)NVIDIA NIM微服務(wù)調(diào)用Nemotron模型,簡(jiǎn)化了部署流程,支持云端、混合架構(gòu)等多種運(yùn)營(yíng)方案。


參考鏈接


[1]https://www.marktechpost.com/2025/07/27/nvidia-ai-dev-team-releases-llama-nemotron-super-v1-5-setting-new-standards-in-reasoning-and-agentic-ai/


[2]https://developer.nvidia.com/blog/build-more-accurate-and-efficient-ai-agents-with-the-new-nvidia-llama-nemotron-super-v1-5/


[3]https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5


[4]https://www.nvidia.com/en-us/ai-data-science/foundation-models/nemotron/


本文來(lái)自微信公眾號(hào)“量子位”(ID:QbitAI),作者:henry,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com