MoE(Mixture of Experts)架构和PKM(Product Key Memory)架构都是用于构建大型模型的技术,它们在处理大规模计算资源需求方面各有特点和局限性。
以下是它们的主要区别:
计算与参数解耦:
MoE架构:通过稀疏激活专家(expert)的方式,MoE在训练时能够有效减少计算量,因为它不需要同时激活所有专家。这样的设计使得MoE在预训练阶段效率更高,可以用更少的计算资源完成训练。
PKM架构:PKM提出了large memory layer的概念,其中包含大量的稀疏参数value。在推理时,每个tok...
点击查看剩余70%