2026年1月2日,DeepSeek 在 GitHub 又开源新作。
https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
这两天你可能也刷到不少标题:什么“V4 加载记忆外挂,一次性记得超大上下文”、“记忆插件吊打所有模型”……
抱着疑惑,我找来了一手论文。似乎和媒体带给我们的印象有些许出入。
我的结论是 Engram 不是“外挂知识库”。它更像是改造了大模型的大脑,让大模型学会了一件新鲜事——记忆。
大模型的前世今生
在过去,大模型的产生我们一般叫做训练,这是一个非常贴切的形容。因为大模型从出生到定型,就像一个孩子从上学到毕业一样,经历了无数学习。而大模型原来的学习方法几乎只有一个:训练。你可以把它想象成一个天赋很高但学习方法很“野”的学生:他不背课本、不背单词、不背公式,甚至不记人名地名。他只做一件事——做题。
老师给他一套卷子,他就刷;刷到最后,他对题型有“手感”了:看到类似的题,他会凭经验写出答案。你问他为什么,他并不清楚,只是“感觉应该这样”。于是出现一个很奇怪的现象:你让他做一道很难的证明题,他要动脑。你问他“巴黎是哪个国家的首都”,他也要动脑。同样动脑,同样费劲。不仅费劲,而且吃力不讨好——毕竟凭感觉的记忆是那么的容易出错。
而人类不是这么学的。我们学语文会先认字,学英语会先背单词,学数学会先背乘法口诀。背完这些“死的东西”,脑子才能腾出来去做“活的题”。
论文开宗明义讲的就是这个:语言任务里其实混着两种完全不同的工作。一种叫“组合推理”:要理解、要推导、要灵活变通。另一种叫“知识检索”:就是把已经固定的东西拿出来——人名、地名、习惯用法、固定搭配。
大模型为什么不背书?
大模型为什么不背书?直白点说:以前的大模型大脑里没有“记忆区域”。你让它背,它也背不了。它的记忆方式就是:刷无数的题,直到肌肉记忆代替了大脑记忆。
这就像一个学生:他确实也可能背过公式、背过单词,但方法很粗暴:不是先把知识整理成“书”,而是靠海量刷题把一切都磨成条件反射。你让他把“公式表”默写出来,他未必写不出;可问题是,他之所以能写出来,往往是因为训练量大到几乎覆盖一切——用巨量练习把“记忆”硬塞进做题手感里。于是他的聪明就被浪费在一个很尴尬的地方:为了保证“我别忘”,他必须继续加大训练,把本来可以一翻就有的东西,也用昂贵的脑力和算力去反复磨。
而 Engram 的出现,让大模型的学习过程里,构建了一套更像人类的“记忆组织方式”。在同一个大脑里多了一层更擅长存放固定搭配、专名短语、事实碎片的记忆结构。这些记忆在学习阶段就会和“怎么理解、怎么推理”自然绑在一起;到了思考阶段,在你读到相关上下文时,自己就被唤醒,顺手参与当前的推理。
不得不说一句:有太多用AI解读的文章,误读为给模型再塞一颗脑袋,或者加挂一个外挂数据库。因为我用AI解读的初始也得到了这样的结论
训练和背书,怎么分配精力?
当你理解了“背书”和“做题”是学习中不同的方式。接下来我们就要考虑卡住人类发展的那些问题了——“时间、精力”——对大模型来说,真正限制大模型发展的是“规模”。
更精确一点,在大模型这里分为两种:一是“激活规模”:这是一次推理/训练到底“点亮多少参数”。这决定了计算量,也决定了芯片的负担。二是“总规模”:模型总共有多少参数、多少“等待给出正确答案的神经元”,都是为了第一时间作出响应,即使不被激活,也要全部把它们塞进显存。
MoE 的诞生,就是为了解决“激活规模”这个限制:把一个庞然大物的用量拆分成一群小人(专家),并通过工程方法准确地找出其中擅长解答对应问题的一小撮出来干活。每次推理时只激活对应的小人,于是每一步算力压力就下来了。而 Engram 是更高效地实现一种拟人化的记忆——让“记忆”这件事以更便宜、更规律的方式被组织,在思考时被上下文自然唤起。
如果人类在有限的学习过程中,既要有一部分记忆训练,又要有一部分刷题训练。那么大模型的训练和记忆的比例,要怎么分配?论文给出的结论是:大概7-8成留给专家,2-3成留给记忆。这是一个实验中效率最高、能力最强、结果最好的比例。
能力的提高和思考专注
Engram带来的最关键的一点是:大模型终于不用“理科的方法”去强行学“文科”了。以前它想把人名地名、固定搭配、常识短语学牢,基本靠一个字:刷——把它们刷成做题手感。能学会,但本质还是靠“手感”去猜:不可靠,而且特别浪费计算资源——因为在没有记忆时,只能凭感觉猜一遍、算一遍。
而Engram 的出现,让文科的知识记忆变得准确、可靠。准确率一上来,模型整体就变优秀了。更妙的是:当记忆把基础部分接走,理科计算就不用在这些地方反复耗算力了,可以把火力留给真正的推导和组合推理。
于是结果就出现了:文科知识更准确、理科知识更专注,1+1 真的可能大于 2。而且因为很多东西像“潜意识”一样被自动唤起,模型少了不必要的硬想,也就更不容易走神、想歪。
既是加速,也是减负
现在让我们第一次把目光拉回到“工程问题”。你可以把 Engram 想成大脑里的“潜意识记忆”:平时不怎么占用注意力,也不要求它每一秒都跟上你的高速思考——它就安安静静躺在那里,等你需要的时候再被叫出来。
虽然人类把这一块也放在大脑里,但DeepSeek却不必,而工程结论也很像人类:既然这块记忆不需要一直活跃,那就没必要挤在最贵最快的 GPU 显存里。那不如索性把这份“潜意识记忆”放到更慢但更便宜、更大的 CPU 内存里;当模型在思考中碰到关键片段,需要某段记忆时,再把对应的内容送进“思考层”里用。
就像人类想问题也是一套节奏:思考-回忆-再思考。而 Engram 的工程方法能够高效的预判你大概率会用哪段记忆,尽量减少 GPU 等待。于是你会看到:记忆很丰满,推理却变得轻快、高效。
结语
看到这里,你应该明白:DeepSeek 这篇论文想做的不是“给模型外接一个知识库”,而是让“知识记忆”从大模型的训练时期就写进大模型的大脑结构里,让它别再用昂贵的推理计算去硬刷文科式的固定知识。继MoE 解决了规模问题后;Engram 解决了“记忆问题”。这是AI大时代下,一次小小的划时代。
或许更值得期待的是,论文中 DeepSeek 以V3.X为基模进行的 Engram 研究与测试。那么从头开始学习、训练的V4会给我们带来什么样的惊喜呢?
▽▽▽

