近日,人工智能领域迎来一项重要突破——DeepSeek团队提出了一种名为Engram的新型“条件记忆”机制,为混合专家模型(MoE)的发展开辟了新路径。该机制旨在让MoE模型在保持海量参数的同时,更高效地处理语言信息,实现性能与成本的双重优化。
传统MoE模型通过稀疏激活机制扩展模型容量,但存在路由成本高、训练不稳定等问题。DeepSeek团队观察到,现有Transformer架构缺乏真正的知识检索机制,导致模型不得不重复计算常见的事实性内容,如固定表达、历史名词等,造成计算资源的浪费。为此,他们提出将静态知识存储与动态计算解耦,通过外接记忆库提升模型效率。
Engram架构的核心创新在于引入条件记忆模块,该模块通过分词器压缩、多头哈希、上下文感知门控等技术,构建了可扩展的静态知识库。实验表明,在相同算力条件下,Engram-27B模型在32768个token的长上下文任务中,RULER基准测试性能超越同参数量MoE模型,且训练计算量减少18%。更引人注目的是,其1000亿参数记忆表卸载后,H800硬件推理吞吐量降幅不足3%,展现了极高的系统效率。
研究团队通过大量实验验证了Engram与MoE的互补性。当资源分配比例为75%-80%给MoE、20%-25%给Engram时,模型性能达到最优。进一步扩展记忆容量发现,验证损失持续稳定下降,且性能提升严格遵循幂律分布,这为模型的可预测扩展提供了新思路。相比传统记忆方法,Engram在知识密集型任务和通用推理任务中均表现出更显著的优势。
机制分析显示,Engram模块在模型浅层效果最佳,能够尽早卸载局部模式重建任务,使深层网络专注于复杂推理。功能敏感性测试表明,关闭Engram会导致事实性知识任务性能灾难性下降,而阅读理解任务几乎不受影响,这验证了其作为知识存储主要仓库的角色。门控机制激活分析进一步揭示,Engram在处理多词实体、固定短语等静态模式时自动启用,与注意力机制形成有机互补。
与外部记忆检索增强(RAG)相比,Engram将知识内化于参数化记忆表中,实现了更低的延迟和更强的知识一致性。该架构还支持高效的硬件优化,通过预取和层次化存储策略,能够扩展至超大规模记忆而保持系统稳定性。研究团队认为,这种解耦设计为知识蒸馏提供了新范式,未来可通过单独更新记忆表来修正模型知识,无需昂贵的微调过程。























