亚洲欧美日韩熟女|做爱高潮视频网址|国产一区二区三级片|国产Av中文字幕www.性色av|亚洲婷婷永久免费|国产高清中文字幕|欧美变态网站久re视频精品|人妻AV鲁丝第一页|天堂AV一区二区在线观看|综合 91在线精品

DeepSeek新模型上線:新注意力機制源自北大ACL佳文,價格更親民

10-01 06:33

DeepSeek最新模型V3.2 - Exp發(fā)布,帶來全新注意力機制DeepSeek Sparse Attention(DSA),在提升訓(xùn)練推理效率的同時,API同步降價超50%!

剛剛,DeepSeek最新模型正式上線。

該模型代號為DeepSeek - V3.2 - Exp,被DeepSeek稱為最新的實驗性模型

此次V3.2主要基于DeepSeek - V3.1 - Terminus,并首次引入「DeepSeek稀疏注意力」(DeepSeek Sparse Attention,DSA),實現(xiàn)了長上下文訓(xùn)練與推理的更快、更高效。

值得一提的是,這是第一個「DeepSeek」品牌命名的關(guān)鍵技術(shù)(注意力機制)。

我們發(fā)現(xiàn),DSA是此前與北大合作、梁文鋒署名的ACL 2025最佳論文中,原生稀疏注意力(Native Sparse Attention,NSA)的改進版本。

技術(shù)報告里的引用

全新注意力機制

DeepSeek - V3.2 - Exp的核心是「DeepSeek稀疏注意力」,它首次實現(xiàn)了細(xì)粒度稀疏注意力機制,在幾乎不影響模型輸出效果的情況下,大幅提升了長文本訓(xùn)練和推理效率。

論文地址:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

與之前模型不同的是,DSA不再讓每個Token關(guān)注序列中的所有其他Token,而是引入了名為「閃電索引器」(lightning indexer)的高效組件。

該索引器能快速判斷,對于當(dāng)前處理的Token,序列中哪些歷史Token最重要。

隨后,模型從這些最重要的Token中選取(Top - k)一小部分(如2048個)進行精細(xì)計算。

這樣,核心注意力的計算復(fù)雜度從O(L2)驟降至O(Lk),其中k是遠(yuǎn)小于L的固定值,在處理長文本時效率大幅提升。

更重要的是,這種效率提升并未犧牲性能。

在DeepSeek - V3.1的基礎(chǔ)上,團隊先進行簡短的「密集預(yù)熱」階段初始化閃電索引器,使其學(xué)會模仿原有模型的注意力分布。

接著進入「稀疏訓(xùn)練」階段,讓模型適應(yīng)新的稀疏模式。

最后,沿用與前代模型相同的后訓(xùn)練流程,包括專家蒸餾和混合強化學(xué)習(xí)(GRPO)。

為嚴(yán)謹(jǐn)評估引入稀疏注意力的影響,DeepSeek將DeepSeek - V3.2 - Exp的訓(xùn)練設(shè)置與V3.1 - Terminus嚴(yán)格對齊。

DeepSeek - V3.2 - Exp的架構(gòu)圖,其中DSA在MLA下實例化。

評估結(jié)果顯示,在短文本和長文本任務(wù)上,DeepSeek - V3.2 - Exp與「密集注意力」前身V3.1 - Terminus相比,性能無實質(zhì)性下降。

同時,在實際部署的推理成本測試中,端到端加速效果和成本節(jié)約顯著。

盡管DeepSeek - V3.2 - Exp目前是實驗性模型,但它「性能不降、成本驟減」的特性,為大模型突破長文本瓶頸指明了有希望的工程路徑。

價格更便宜

DeepSeek再次降低了模型價格!

由于新模型服務(wù)成本大幅降低,官方API價格相應(yīng)下調(diào),新價格立即生效。

在新價格政策下,開發(fā)者調(diào)用DeepSeek API的成本將降低50%以上。

目前API的模型版本為DeepSeek - V3.2 - Exp,訪問方式不變。

不得不說,這次DeepSeek很貼心,「發(fā)布節(jié)奏」聽取了網(wǎng)友建議,讓AI界朋友能好好休息。

參考資料:

https://api-docs.deepseek.com/zh-cn/news/news250929

本文來自微信公眾號“新智元”,作者:新智元,編輯:好困 定慧,36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com