剛剛,DeepSeek開(kāi)源V3.2-Exp,公開(kāi)新稀疏注意力機(jī)制DSA
09-30 06:21
還是熟悉的節(jié)奏!在假期前一天,DeepSeek果然搞事了。
最后,有一波小節(jié)奏。在模型發(fā)布前,已經(jīng)有網(wǎng)友在Community里發(fā)帖稱(chēng):國(guó)慶是休息日,請(qǐng)給我們關(guān)注的同學(xué)一點(diǎn)休息時(shí)間。



DeepSeek Sparse Attention(DSA)稀疏注意力機(jī)制
在官方介紹中,DeepSeek表示DeepSeek - V3.2 - Exp是實(shí)驗(yàn)版本。作為邁向下一代架構(gòu)的過(guò)渡,V3.2 - Exp在V3.1 - Terminus的基礎(chǔ)上引入了DeepSeek稀疏注意力機(jī)制(DeepSeek Sparse Attention,DSA)—— 一種旨在探索和驗(yàn)證在長(zhǎng)上下文場(chǎng)景下訓(xùn)練和推理效率優(yōu)化的稀疏注意力機(jī)制。DSA也是3.2版本的唯一架構(gòu)改進(jìn)。


最后,有一波小節(jié)奏。在模型發(fā)布前,已經(jīng)有網(wǎng)友在Community里發(fā)帖稱(chēng):國(guó)慶是休息日,請(qǐng)給我們關(guān)注的同學(xué)一點(diǎn)休息時(shí)間。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com






