+
36
-

DeepSeek NSA技术是啥?

DeepSeek NSA技术是啥?


网友回复

+
22
-

DeepSeek的NSA技术(Natively Sparse Attention,原生稀疏注意力)是一种专为超快速长文本训练与推理设计的稀疏注意力机制。

该技术通过硬件对齐优化和动态分层稀疏策略,显著提升了长文本处理的效率,同时降低了预训练成本,而不牺牲性能。

NSA技术的核心特点:

动态分层稀疏策略:结合粗粒度的Token压缩和细粒度的Token选择,既保留了全局上下文感知能力,又兼顾了...

点击查看剩余70%

我知道答案,我要回答