+
79
-

为什么主流大模型架构都在用MoE,而不是传统的Dense?

为什么主流大模型架构都在用MoE,而不是传统的Dense?


网友回复

+
23
-

核心原因在于效率与规模的平衡。MoE模型内部包含多个“专家”子网络,但处理每个输入时,只激活其中的一小部分(例如2个)。...

点击查看剩余70%

我知道答案,我要回答