热门资讯

DeepSeek发布最新NSA技术论文！创始人梁文锋参与引人注目

其它教程来源：快科技 2025-02-19 13:50:03

近日，DeepSeek在海外社交平台发布了一篇纯技术论文报告，其主要内容是关于NSA（即Natively Sparse Attention，原生稀疏注意力）。

与此同时，在论文署名中，第一作者袁景阳是在DeepSeek实习期间完成的这项研究。让人感到惊喜和意外的是，据论文署名排名，DeepSeek创始人梁文锋现身论文著作者之中，在作者排名中位列倒数第二。

根据论文摘要，DeepSeek团队认为，业界越来越认识到长上下文建模对于下一代大型语言模型的重要性。然而，随着序列长度的增加，标准注意力机制的高复杂度成为了关键的延迟瓶颈。

据了解，NSA通过高效的长序列处理能力，使模型能够直接处理整本书籍、代码仓库或多轮对话（如千轮客服场景），扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。

同时，NSA通过针对现代硬件的优化设计，在提高推理速度的同时、降低预训练成本，而不会牺牲性能。

它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。

DeepSeek团队表示，稀疏注意力为提高效率同时保持模型能力，提供了一个有前景的方向。

公开资料显示，NSA（即Natively Sparse Attention，原生稀疏注意力）是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

它专为长文本训练与推理设计，能够利用动态分层稀疏策略等方法，通过针对现代硬件的优化设计，显著优化传统AI模型在训练和推理过程中的表现。

延伸阅读

DeepSeek致谢腾讯技术团队：这是一次“巨大的加速”代码贡献！

DeepSeek致谢腾讯技术团队，这是一次“巨大的加速”代码贡献。据新浪报道，腾讯技术团队针对DeepSeek开源的DeepEP通信框架进行深度优化，使其在多种网络环境下均实现显著性能提升。经测试，优
刘慈欣谈DeepSeek：完全有可能替代科幻小说作家

日前，2025中国科幻大会在北京举办，主题为“科学梦想创造未来”。在大会论坛上，科幻作家刘慈欣谈到了DeepSeek对科幻文学的驱动和发展。据央视财经报道，对于DeepSeek未来是否有可能替代科幻
DeepSeek推出FlashMLA项目可以显著降低内存占用和计算开销

开源人工智能技术开发商 DeepSeek 上周已经预告将在本周陆续推出 5 个已经在生产环境中使用的技术，目前首个项目 FlashMLA 已经在 GitHub 上公布。FlashMLA 是一种针对 N

关注公众号：拾黑（shiheibook）了解更多

友情链接：

*文章为作者独立观点，不代表文娱排行榜立场

本文由小丝CC发表，转载此文章须经作者同意，并请附上出处( 文娱排行榜 )及本页链接。

原文链接 https ://www.yaorank.com/find/other/31915.html

DeepSeek NSA 梁文锋 Natively Sparse Attention 原生稀疏注意力袁景阳