DeepSeek新論文再次引發(fā)熱議,它最重要的創(chuàng)新是什么?

伍洋宇2025-02-20 10:34

DeepSeek V3和R1兩款模型帶來的熱度尚未平息,一篇新論文再次引來科技圈對其創(chuàng)新性的集體評估。

2月18日,DeepSeek的研究團(tuán)隊(duì)發(fā)布了一篇新的技術(shù)論文,《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。在X(原推特)平臺(tái)上,DeepSeek這條推文在24小時(shí)內(nèi)的閱讀量已達(dá)168萬。

這是一種可用于超快長上下文訓(xùn)練和推理的稀疏注意力機(jī)制,并具有硬件對齊和本地可訓(xùn)練的特性。其中最核心的內(nèi)容就是NSA(Native Sparse Attention),一種全新的注意力機(jī)制。

簡單概括,憑借這套技術(shù)思路,大模型訓(xùn)練將不僅對硬件要求更低,并且訓(xùn)練效率更高,可能是一次相較MLA更高級(jí)別的創(chuàng)新。

稀疏注意力(Sparse Attention)是相對完全注意力(Full Attention)而言。在完全注意力機(jī)制的技術(shù)框架下,很多技術(shù)都是為了提高計(jì)算速度、減少運(yùn)算成本,例如KV-Cache(鍵值緩存),但對于大模型訓(xùn)練而言仍然可能導(dǎo)致恐怖的運(yùn)算量。

此前,DeepSeek-V2的重要?jiǎng)?chuàng)新MLA——Multi-Head Latent Attention,多頭潛在注意力機(jī)制——就在保證模型性能的情況下,對KV-Cache進(jìn)行了大幅優(yōu)化。 

其中一個(gè)很重要的思路是對KV矩陣進(jìn)行了低秩分解,以低秩矩陣的形態(tài)來保存??梢岳斫鉃閷⑦@個(gè)矩陣從“多維”壓縮至“一維”,這大大降低了對顯存的占用。

但到此為止,這些注意力機(jī)制依然存在一些局限。Monica.im產(chǎn)品合伙人張濤對界面新聞?dòng)浾呓忉尫Q,過去的矩陣“壓縮”技術(shù)是一種無差別壓縮。也就是說,那些有更重要含義的信息,其重要性也被平均降低了。 

NSA針對性化解了這個(gè)問題。它提出了一個(gè)“三合一”方案,對token序列大致分為了三條注意力處理路徑:壓縮(Compression)、選擇性保留(Selection)和滑動(dòng)窗口(Sliding Window)。

簡單理解,Compression跟過去所做的事情類似,即“壓縮”保留粗顆粒度的token模塊。 

在Selection階段,該機(jī)制通過對已壓縮模塊引入qt(query token),得到這些模塊與當(dāng)前要計(jì)算token的相關(guān)程度,以Top N(例如Top 2)的方式選出相關(guān)性最高的N個(gè)模塊,并對照原有的細(xì)顆粒程度token序列進(jìn)行保留。

最后的Sliding Window是指一個(gè)滑動(dòng)窗口,這個(gè)窗口僅獲取局部最近的一段完整token序列。張濤解釋稱,這個(gè)窗口是一個(gè)固定寬度,在時(shí)間軸上進(jìn)行滑動(dòng),但永遠(yuǎn)指向序列的最末尾處?!翱梢岳斫鉃楫?dāng)我要生成一句話時(shí),離它最近的信息也可能提供額外的含義?!?nbsp;

也就是說,在這三條注意力處理路徑下,我們既得到了完整token序列在壓縮下的全局印象,也得到了經(jīng)過篩選的最關(guān)鍵部分信息的細(xì)顆粒度token序列,以及離當(dāng)前計(jì)算token最近的一段token序列。

NSA架構(gòu)(圖片來源:DeepSeek)

“當(dāng)三個(gè)特性結(jié)合到一起,整個(gè)過程就已經(jīng)省了很多顯存占用和運(yùn)算量,并且把壓縮損失掉的信息補(bǔ)充回來了?!睆垵硎?。 

另外,NSA還引入了兩項(xiàng)創(chuàng)新機(jī)制,分別是硬件對齊系統(tǒng),可保證算術(shù)強(qiáng)度平衡,以及訓(xùn)練感知設(shè)計(jì),可支持NSA進(jìn)行高效部署和端到端訓(xùn)練。

至此,這套全新注意力機(jī)制將要驗(yàn)證自己的效果。在過去,很多注意力機(jī)制的調(diào)整可能導(dǎo)致模型表現(xiàn)下降,但NSA以稀疏注意力機(jī)制給模型“減負(fù)”的方式,不僅沒有造成性能下降,反而相較完整注意力機(jī)制在一些基準(zhǔn)測試上實(shí)現(xiàn)了超越表現(xiàn),包括通用和推理等等 

更關(guān)鍵的是,它在解碼(Decode)速度上提升了11.6倍。張濤表示,這可以簡單理解為,運(yùn)用這套機(jī)制的R1其推理速度也可能提升同樣倍數(shù)。

不過,MLA這一創(chuàng)新也可以優(yōu)化解碼速度。在張濤看來,NSA更有意義的效率提升是對于正向和反向階段還將分別提速9倍和6倍。

其中,反向傳播是指模型訓(xùn)練時(shí),每完成一輪運(yùn)行還要做一輪反向傳播,如此模型才能夠在這一輪迭代中學(xué)到“哪些做對了、哪些做錯(cuò)了,以及哪些參數(shù)需要調(diào)整”。 

這意味著NSA不僅對GPU的顯存要求降低,對卡間互聯(lián)通訊能力要求降低,甚至對于模型的訓(xùn)練速度也加快了好幾倍。

“這才是這次創(chuàng)新的關(guān)鍵?!睆垵f,NSA有可能進(jìn)一步解決了國產(chǎn)大模型在GPU芯片上被“卡脖子”的問題。 

總體而言,張濤認(rèn)為雖然這篇論文集中論述了技術(shù)思路,沒有完整披露其中的工程細(xì)節(jié),但對于其他大模型公司來說復(fù)現(xiàn)并不難。 

還有一個(gè)當(dāng)前沒有被注意到的“彩蛋”。張濤指出,在這次論文中,DeepSeek運(yùn)用到了一種叫做Triton的框架。這是由OpenAI開源的一套框架,屬于GPU的中間層語言,它既可以轉(zhuǎn)譯為英偉達(dá)的CUDA(其GPU并行計(jì)算平臺(tái)),AMD的ROCm(其開源計(jì)算平臺(tái)),也可以轉(zhuǎn)譯為華為昇騰的CANN(其AI芯片計(jì)算框架)。 

雖然目前ROCm和CANN在Triton上表現(xiàn)還不夠好,但張濤認(rèn)為這不是不能解決的。 

“這不得不給大家留下一些想象空間?!睆垵f,“這意味著從推理到訓(xùn)練的算力,未來都有可能國產(chǎn)化了。”


來源:界面新聞 作者:伍洋宇

版權(quán)與免責(zé):以上作品(包括文、圖、音視頻)版權(quán)歸發(fā)布者【經(jīng)觀新科技】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù),不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議

熱新聞