最近,DeepSeek-V3.2-Exp版本已经正式推出。这个版本属于实验性质,重点在于对长篇文本处理时的训练和推理性能进行了探索性的改进和测试。
这项发布的主要创新点在于运用了一种与传统不同的注意力模式,即稀疏注意力,在维持原有表现水准的同时,显著增强了效能并削减了开销。
稀疏注意力有什么独特之处?怎样又能提升效率又降低开销?解放日报记者采访了上海交通大学人工智能学院的赵沛霖教授。
【从“一一逐个看”变为“挑重点看”】
稀疏注意力这一技术方向并非DeepSeek首创,但是率先在如此庞大的模型上应用,并且显著降低了计算量和成本,DeepSeek是首个实现这一突破的。赵沛霖谈到,他本人曾在2020年发表的一篇论文中,就运用了这项技术来预测电力供需情况。
要明白稀疏注意力,可以先研究一下常规的自注意力原理。2017年,谷歌在一份具有里程碑意义的文章里介绍了Transformer模型,这个模型的关键就是自注意力原理。
那个时候,谷歌采用了自注意力技术,目的是改进翻译表现,由于单纯着眼于文字内容和邻近信息是远远不够的,偶尔需要考察整体语境才能精确转换。赵沛霖这样解释。
当下所有极具影响力的语言模型,其基础都是Transformer结构。自注意力系统在推算每一个字符时,必须衡量该字符同之前所有字符的关联程度。这种计算方式会引发高昂的运算成本和巨大的内存负担,这一点毋庸置疑。
颇具玩味的是,谷歌撰写的该篇论文已察觉到自注意力机制存在的运算短板。文中作者简略提及,可借助局部关注或稀疏关注方式以削减计算负担。这显示,自Transformer面世伊始,探究如何令关注机制呈现稀疏形态的理念便已萌生。

跟“全方位覆盖”的完整注意力机制不一样,稀疏注意力使人工智能在处理数据时懂得“筛选重点”,从“逐项审视”转变为“优先处理”,因此运算负担显著减轻。
特别需要指出的是,DeepSeek运用了这项稀疏注意力方法,并且是在一个拥有6710亿参数的超大型模型上完成的验证工作。
赵沛霖认为,这是DeepSeek的一种探索,接下来或许会在稀疏注意力机制之外,增加一些代价较低的线性注意力方式。线性注意力同样是一种效率很高的技术,能够弥补稀疏注意力可能忽略重要信息的不足。目前,许多机构都在研究线性注意力,不过成效并不理想,将来“稀疏与线性相结合”或许会是一种更理想的方案。
【仅用1/4算力便可与前代模型能力基本持平】
根据现有各范畴的公开评估数据,DeepSeek最新版本的表现与前作大体相当,不过处理长篇文档的效率比旧型号提升了两到三倍,同时内存消耗减少了三成到四成。
赵沛霖表示,自己初步计算发现,这个新模型能维持前辈产品九成以上的功能表现,同时运算负担降低了大约四分之三,意味着耗费四分之一的处理能力就能达到老款产品的水平。
新版本推出后,DeepSeek也公布了更新的收费方案,每百万个token的生成费用只要3元人民币,大约只有国外大型模型的二十分之一到三十分之一那么贵,开发者在调用API时的开销比以往减少了超过一半。难怪有人称其为新时代的“水电煤”。
效率更高、费用更少,这不仅能直接让小企业和个人程序员得到好处,还会对整个行业产生哪些作用呢?
赵沛霖觉得,其一,这对咱们国家算力的改善有好处。尤其在大模型所需量持续上升的情况下,若能大量节省算力,就能减少对目前仍是弱点的GPU等器件的需求。
另有一些行业应用原本因费用问题采用小型模型,当大型模型的费用下降时,这些场景或许能直接选用大型模型,从而在该领域的准确度也会获得提升。