人工智能领域再迎突破性进展,DeepSeek研究团队联合北京大学在GitHub平台发布了代号为“Engram”的最新研究成果,同步公开的学术论文《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》引发学界与产业界的广泛关注。这项研究在传统混合专家模型(MoE)之外开辟了新的技术路径,通过构建显式知识检索机制,为提升大语言模型效率提供了全新范式。
当前主流大模型普遍采用MoE架构,其通过条件计算机制在推理阶段仅激活部分参数,有效降低了计算成本。但研究团队指出,现有架构存在根本性缺陷:模型记忆知识的方式仍依赖隐式存储,回答"法国首都"这类简单问题时,需通过多层注意力机制进行复杂矩阵运算,如同用超级计算机计算加减法。这种设计导致模型被迫用大量算力"死记硬背"固定事实,既浪费资源又限制了复杂逻辑处理能力。
针对这一痛点,Engram架构创新性地将自然语言处理中的N-gram模型与深度学习结合,构建了基于哈希映射的可学习向量检索系统。该模块嵌入Transformer主干网络后,形成"检索-融合"双阶段工作流:首先通过多头哈希将局部上下文压缩为检索键,实现近似O(1)时间复杂度的查表操作;随后利用上下文感知门控机制,将检索到的静态记忆向量与动态隐藏状态进行加权融合。这种设计使模型在处理已知知识时直接调用记忆库,将算力集中于未知问题的逻辑推演。
实验数据显示,在总参数量和计算量恒定的条件下,当20%-25%的稀疏参数分配给Engram模块时,模型性能呈现最优"U型曲线"。基于此发现的Engram-27B模型,在知识密集型任务中表现尤为突出:MMLU基准测试得分提升3.4分,中文CMMLU基准提升4.0分。更令人意外的是,该模型在复杂推理任务中也取得显著进步,BBH基准提升5.0分,代码生成任务Humaneval提升3.0分,展现出记忆模块对逻辑能力的正向促进作用。
进一步的可解释性分析揭示,Engram通过承担基础语言模式记忆任务,有效增加了模型的"有效深度"。传统模型底层网络忙于构建词法组合等浅层特征,而引入Engram后,这些固定模式通过查表直接获取,使主干网络得以将更多资源投入高层语义理解。这种计算与记忆的解耦,使模型在不增加层数的情况下,实现了推理能力的质的飞跃。
在工程实现层面,Engram架构展现出突破性的基础设施适配能力。其确定性哈希检索机制支持预取策略,使系统能在正式计算前确定所需记忆向量。实验证明,1000亿参数的记忆表可完全存储于CPU内存,通过PCIe通道异步传输至GPU,仅增加不到3%的推理延迟。这种存储-计算解耦方案,为构建TB级超大规模记忆库提供了可行路径,有望显著降低算力集群建设成本。
随着Engram与年初发布的流形约束超连接(mHC)技术相继问世,DeepSeek-V4的架构轮廓逐渐清晰。新架构将融合mHC优化专家间通信效率,同时引入Engram作为独立记忆模块,形成"动态计算+静态检索"的协同工作模式。这种仿生设计借鉴了人类大脑"海马体负责记忆、新皮层负责计算"的分工原理,为构建更高效、更博学的人工智能系统指明了方向。





















