整合长期记忆，探索大模型自我进化的可能 | 追问观察

学术 2024-10-29 18:07 上海

地球上最早的生命证据至少可以追溯到35亿年前，而直到大约25万到40万年前，智人才出现地球上。在这漫长的岁月中，生物不断地兴盛又覆灭，但整体趋势总是越来越复杂，其中最复杂的生物组件莫过于我们智人的大脑。这样的复杂性是我们的意识和智慧的来源。而这一切背后的机制是进化（evolution）。

到了现今的大模型时代，强大的基础模型已经展现出了强大的智能水平，能完成多种多样的任务。但它们也有个缺点，训练之后就基本定型了，难以随着用户的使用而演进。但毫无疑问，这项能力很重要。

近日，天桥脑科学研究院和普林斯顿大学等多所研究机构发布了一篇研究论文，详细阐述了长期记忆对AI自我进化的重要性，并且他们还提出了自己的实现框架——基于多智能体的 Omne，其在GAIA基准上取得了第一名的成绩。

▷Jiang, Xun, et al. "Long Term Memory: The Foundation of AI Self-Evolution." arXiv preprint arXiv:2410.15665 (2024).

首先，该团队将LLM的模型进化过程分成了三个主要阶段

阶段 1：在物理世界中积累认知。
阶段 2：在数字世界中构建基础模型。
阶段 3：模型自我进化，以实现更强大的智能。

▷长期记忆和AI自我进化概述。

现有的研究主要围绕着阶段1和2，即如何构建更好的数据以及将其用于训练更强大的基础模型。目前人们有一个普遍的看法：在这种曲线拟合范式中，架构并不重要，关键的因素是数据集。但到了阶段3，架构就会变得和数据一样重要。核心的难题是如何在统计模型的基础上有效表达少数个体的数据。该研究关注的核心是如何确保在统计模型内有效地表达个体数据。

实现模型自我进化的原理

模型的自我进化能力是模型长期适应和个性化的关键，而这又严重依赖于有效的记忆机制。

在这一理解的基础上，该团队提出：长期记忆（LTM）能为模型的持续进化提供历史数据积累和经验学习能力。正如人类通过经验和记忆来完善认知和行为一样，LTM也能让模型在处理长期、分散和个性化的数据时逐步提升推理和学习能力。

（1）用LTM数据提升模型能力，使其能够自我进化

在传统LLM中，更新模型通常需要调整所有参数，而如果目的是处理个体数据，那这种操作明显不切实际。

一种更优的方法是仅更新局部参数，从而在无损模型全局稳定性的前提下，让模型适应稀疏、个性化的LTM数据。这种方法可解决当前模型中个体数据“被平均化”的问题，使个性化信息能够更全面地表达。使用上下文学习（ICL）的检索增强生成（RAG）和用于微调的低秩适应（LoRA）等技术都可被视为局部更新个体数据的方法。

该团队的做法是采用一种混合策略来整合LTM 数据，从而在实际应用中达到让人满意的结果。但是，该团队也表示，这可能并非一种完美的解决方案，未来可能还会出现更好的方法。

（2）组合LTM数据进行实时权重更新，从而实现自我进化

当前的LLM通常分为训练和推理两个阶段。在推理阶段，模型权重是冻结的，防止模型根据新输入进行调整和学习。这种固定的推理过程会限制模型的适应性，尤其是在处理个性化任务和实时学习方面。

受人脑更新机制的启发，该团队认为未来的 LLM应该将推理和训练与LTM结合起来，使模型能够在接收到新信息时动态调整权重。这就类似于人类的持续学习能力。

此外，这种集成还可以帮助模型在面对复杂的推理任务时自我反思并纠正错误的推理路径，从而提高准确性和效率。

这种动态的自我调整能力将大大提升模型的个性化能力和长期进化潜力。通过长期记忆，模型不仅可以从短期记忆中学习，还可以从历史数据中提取有价值的见解，随着时间的推移能更深入地理解个人偏好和行为模式。这种理解可实现模型的个性化定制和动态调整，使模型能够更有效地进化。特别是在面对新的或极端的情况时，长期记忆使模型能够参考过去的经验，快速做出调整并自我进化，从而获得更大的灵活性和适应性。

长期记忆在模型自我进化中的实现路径

该团队首先将给出AI自我进化和LTM的定义，然后探索LTM在AI自我进化中的关键作用，之后会介绍如何使用LTM来实现AI自我进化。他们做出了以下贡献：

给出了AI自我进化和LTM的定义；
提出了一个用于LTM的数据框架，包括数据收集、分析与合成；
提出了一个用于LTM的多智能体协作开发框架。

AI自我进化的基础

这里简要给出AI自我进化的定义，详情请参阅原论文。

AI自我进化是指AI模型使用个性化数据不断学习和优化，实现多智能体协作和认知方面的突破。该过程基于一个共享式内核架构，其中各个模型通过处理个性化经验和数据不断进化，从而提升自身推理能力和适应能力，最终实现在动态环境中的自主学习和持续进化。

要实现AI自我进化，需要：

多智能体协作机制；
差异化的个性化模型；
自我纠错和评估机制；
长期记忆和学习能力。

用于AI自我进化的LTM

目前，LLM主要通过两种记忆机制来管理信息：上下文存储器和基于压缩的参数存储器。虽然这些机制在短期任务中表现出色，但它们在支持长期自主学习和进化方面仍然存在不足。

正如人类使用LTM来塑造他们的行为和身份一样，人工智能系统也可以采用类似的方法根据“个人数据”定制其响应和行为。这里，“个人数据”不仅限于个人用户，还包括特定的机构和领域，允许模型根据更广泛的个人背景和需求调整其响应和行为。

▷人类学习和成长，与人工智能训练和进化的差异对比。

作者深入探讨了LTM在AI自我进化中所发挥的关键作用，首先在AI自我进化的背景下定义了 LTM，并分析了当前LLM记忆机制的缺点。然后，作者讨论了通过从人类LTM特征中汲取灵感来增强人工智能模型的自我进化能力，旨在构建能持续学习和自我完善的人工智能系统。

该研究将AI自我进化中的LTM定义为：

LTM是人工智能系统可以长期保留和利用的信息，使模型能够根据更广泛的背景调整其响应和行为。

这里，“个人数据”不仅限于个人用户，还包括特定的机构和领域，允许模型根据更广泛的个人背景和需求调整其反应和行为。

从数据积累的角度来看：模型和人类都与环境进行广泛的交互，为个性化提供基础数据。与人类相比，人工智能模型可以更有效地与环境交互，并且可以在纯虚拟的数字环境中执行这些交互和迭代。因此，通过设计适当的记忆细化策略，模型应该能够像人类一样积累长期记忆，甚至可能具有更高的效率和规模。

从模型更新的角度来看：人工智能擅长存储和调用海量数据，远远超过人类记忆规模。神经网络通过分布式参数管理这些数据，处理来自不同领域的输入。然而，这种存储相对刚性，缺乏实时更新的灵活性，通常需要重新训练才能实现更新。相比之下，人类的记忆力却非常强。

▷LLM 记忆与长期记忆比较。

LTM 的构建策略

LTM是对原始数据的有效组织和结构化，而不仅仅是表面上对原始数据进行分类和排序。相反，它是从记忆快速存储和检索以及信息高效利用的角度来设计和优化。通过建立相关信息之间的联系，有效处理数据并重新组织信息，智能体可以快速定位所需的记忆片段，从而提高响应速度和准确性。以下是几种主要的操作方法：

文本摘要；
数据结构化；
图表征；
矢量化；
模型参数化。

如何利用LTM实现模型自我进化？

获得高质量的LTM数据后，下一个挑战是如何利用它来增强模型能力并实现模型的自我进化。在使用LTM数据以最大限度地提高其有效性和效率的过程中需要解决几个关键挑战，包括：

适应持续更新的LTM数据。随着用户LTM数据的不断积累，模型必须在学习新信息和保留先前获取的知识之间取得平衡。传统模型通常假设稳定的数据分布，但在实际场景中，新的 LTM数据可能与早期模式显著背离，导致过拟合或灾难性遗忘等风险。有效处理这些变化对于适应动态LTM数据至关重要。

实时学习和高效反馈集成。由于LTM数据是动态积累的，模型必须快速适应用户行为的实时变化。新数据的快速集成对于智能助手等应用程序至关重要，其中无缝的用户交互是关键。此外，在完善基础模型时，应考虑隐式（例如点击次数或花费的时间）和显式的用户反馈。实时结合这两种类型的反馈使模型能够不断改进并满足个人用户的需求。

处理数据稀疏性和用户多样性。数据稀疏是持续更新的LTM系统中一个常见的问题，特别是对于交互历史有限或零星活动的用户来说，这使得训练模型变得困难。此外，用户多样性也会进一步增加复杂性，要求模型适应个体模式，同时仍然有效地推广到不同的用户组。

▷如何通过文本和参数化记忆检索利用个人数据。

以清华大学团队的Agent Hospital（智能体医院）作为案例，该团队展示了如何在这个模拟医疗场景中用LTM来提升模型的能力，其中包括医疗经验精炼和RAG利用。详见原论文。

基于LTM实现模型自我进化的实践

（1）获取LTM数据

为了提升模型保留和访问LTM数据的能力，该团队全面研究了各种方法，其中包括：

如何收集真实世界的LTM数据；
如何获取合成的LTM数据，其中包括用真实数据提升合成LTM数据的生成过程、使用思维链增强合成LTM数据的生成过程、生成训练数据和评估数据等多个方面；
如何使用LTM数据，该团队介绍了通过 SFT和RAG使用LTM、将LTM用于医疗领域的智能体自我评估、通过记忆系统来使用LTM、通过实时权重更新来使用 LTM。

这其中包含一些实验评估和例证，详见原论文。这里我们来重点看看他们开发的基于 LTM 的多智能体框架。

（2）基于LTM的多智能体框架

该团队提出一个基于LTM的多智能体框架 Omne。

Omne是基于AutoGen MultiAgent Framework深度定制的开发框架，专门用于解决LTM在AI系统中的实际应用难题。

它扩展了一系列与记忆相关的基础设施，包括统一的记忆模型、多模态消息处理系统以及灵活的记忆存储和操作机制。Omne的核心模块（Omne Core）如下图所示：

▷Omne Core 示意图。

Omne的核心目标是提供一套全面的解决方案，使LTM能够在实际工程项目中有效部署，从而增强AI系统的长期记忆能力和任务处理效率。

基于Omne Core，该团队还构建了一个Omne Assistant。

Omne Assistant的设计目标是帮助开发聊天场景中的AI助手，其提供了一个现成的应用层框架。它包括AI助手所需的基本功能，使开发人员无需从头开始设计基础组件，就能快速构建功能齐全的聊天机器人。

Omne Assistant带有一个Simple Responder，这是一个通用的问答响应器，可以处理基本的用户聊天交互以实现即时通信。此外，该框架还提供了一个Reactive Responder，它具有高级任务分析和规划功能，使其能够管理需要多步骤推理和任务编排的更复杂的用户请求。

▷Omne 助手

借助这些内置组件，Omne Assistant可让开发人员专注于实现自己的功能，从而更快地开发和部署配备长期记忆功能的AI助手应用。

在GAIA基准（包含400多个问答任务的通用AI 助手测试集）上，该团队对Omne框架进行了评估。

为了探索AI的边界，他们在Omne框架中使用了当今最强大的GPT-4o和o1-preview模型，同时配备了4个工具：网络浏览、Bing搜索引擎、基于llamaparse的文件读取器，一个使用 o1-preview 构建的逻辑专家。

基于这2个基础模型和4个工具，Omne在测试集和验证集上分别取得了第一名（40.53%）和第二名（46.06%）的成绩。

▷Omne在验证集取得第二名成绩。

▷Omne在测试集取得第一名成绩。

值得注意的是，Omne在最复杂、要求最高的 3级问题上达到了26.53%的准确率。这证明了其通过利用强大的基础模型（尤其是具有强大推理和逻辑能力的模型）解决现实问题的潜力。

未来计划

该团队并不打算止步于此，他们已经制定了未来研究的计划，方向包括：

如何更好地构建LTM数据？
如何为LTM设计新的模型架构？
LTM如何帮助用户提出更好的问题？
如何将LTM与推理时间搜索相结合？
如何在复杂场景中使用LTM实现智能体自我进化？
如何在多智能体场景中使用LTM？

关于追问nextquestion

天桥脑科学研究院旗下科学媒体，旨在以科学追问为纽带，深入探究人工智能与人类智能相互融合与促进，不断探索科学的边界。如果您有进一步想要讨论的内容，欢迎评论区留言，或添加小助手微信questionlab，加入社群与我们互动。

关于天桥脑科学研究院

天桥脑科学研究院（Tianqiao and Chrissy Chen Institute, TCCl）是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一，围绕全球化、跨学科和青年科学家三大重点，支持脑科学研究，造福人类。

TCCI与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室；与加州理工学院合作成立了TCCI加州理工神经科学研究院。

TCCI建成了支持脑科学和人工智能领域研究的生态系统，项目遍布欧美、亚洲和大洋洲，包括学术会议和交流、夏校培训、AI驱动科学大奖、科研型临床医生奖励计划、特殊病例社区、中文媒体追问等。

http://mp.weixin.qq.com/s?__biz=MzI3MjQ4MDMyOQ==&mid=2247518827&idx=1&sn=d8b2439f9b8a6c5343a27f50c8314e6e

追问nextquestion

科研就是不断探索问题的边界

最新文章

别把人工智能当迷宫，从简单的问题开始 | 智能渐近线

追问daily | AI比人类更会写诗；数字媒体如何影响青少年一生？听音乐时，大脑如何预测旋律？

全球脑机接口顶级学术会议开启报名注册

追问daily | 诺奖得主首次模拟自然细胞间通信机制；通过皮肤触摸实现虚拟现实控制；经颅磁刺激可减少幻听

万字访谈：机制，机制，机制，哪哪都是机制，但机制到底是什么？

追问daily | 为什么湿漉漉的狗会甩干自己；研究逆转：儿童比成年人运动技能学的慢；AI量化陷入瓶颈

追问weekly | 过去一周，脑科学领域有哪些新发现？Vol.38

追问daily | AlphaFold 3 开源发布；精神疲劳将导致大脑局部睡眠；记忆不专属于大脑

人工智能如何改变精神健康研究范式？｜“人工智能与精神健康研讨会”会议报道

智能化、个性化、精准化：国际专家共议AI驱动的精神健康新范式

追问weekly | 过去一周，AI领域有哪些新突破? Vol.37

顾凡及：“类脑”还是“脑启发”？| 智能渐近线

追问daily | 大脑如何动态整合记忆？基因组瓶颈如何塑造先天行为？电子鼻媲美动物嗅觉

“空想”未必不能产生“真理” | 追问顶刊

最后１天！与"Science"相约上海！2024人工智能与精神健康研讨会即将召开

追问daily | 地中海饮食减缓脑衰老；多读一年书，也无法保护大脑结构；大脑“局部”功能也由分布式过程产生

不间断的机器：从情感计算通向机器情感 | 追问观察

追问daily | 濒死前“走马灯”的意识变化；触觉感知涉及16 种神经细胞；千个AI智能体打造虚拟文明

倒计时2天！与"Science"相约上海！2024人工智能与精神健康研讨会即将召开

过去一周，脑科学领域有哪些新发现？| 追问weekly Vol.36

破解AI的记忆密码，普林斯顿与天桥脑科学研究院联合招募优秀人

倒计时3天！与"Science"相约上海！2024人工智能与精神健康研讨会即将召开

专访John Krystal：抑郁背后的化学战役 | 追问观察

引领AI for Brain生态新纪元，首届Chen Scholars Retreat成功举办

与"Science"相约上海！2024人工智能与精神健康研讨会即将召开

追问daily | 宇宙太短，猴子敲不出莎士比亚全集；Medium平台近半内容由AI生成；MIT研究揭示LLM类人脑结构

当AI取代真相，大模型如何一步步诱骗了人类的文明？| 追问观察

追问daily | 首个人类认知基础模型发布？人类如何分辨AI生成的内容？AI自学习情感框架成功模拟自然情绪

整合长期记忆，探索大模型自我进化的可能 | 追问观察

追问daily | 5分钟视听刺激可改善情绪；谷歌推出首款无限生成游戏；蛋白质定位错误是疾病的常见原因

追问weekly | 过去一周，脑科学领域有哪些新发现？

追问weekly | 过去一周，AI领域有哪些新突破?

你和ChatGPT理解语言的方式一样吗？从表征对齐角度比较人工神经网络与生物大脑 | 追问观察

追问daily | 首个跨物种生命基础大模型；睡眠剥夺对大脑发育的负面影响；OpenAI即将发布Orion

万字访谈：8位学术大咖在大脑研究中的最大挫败｜追问观察

天桥脑科学研究院自研OMNE框架登顶GAIA榜首

追问daily | 线吸引子动力学首次实验证据；系统0，人类思维新方式；调控多巴胺释放的新通路

技术变革还是炒作噱头？AI for Bio到底能做什么｜AI驱动科学

追问daily | 如何客观评估疼痛？Gemini并入DeepMind；在家使用经颅直流电刺激治疗抑郁症，也能安全有效

大脑中的情感表征——情感的演化与边界 | 追问观察

追问weekly | 过去一周，脑科学领域有哪些新发现？

听见沉睡的灵魂，植物人也有意识 | 追问观察

倒计时20天 | 天桥脑科学研究院与《科学》杂志、上海市精神卫生中心在沪举办"人工智能与精神健康"国际论坛

追问daily | 脑-血管-免疫系统，或改变神经系统疾病治疗；人类会同情并保护被排斥的AI智能体

追问daily | 两分钟内诊断倦意；运动的开始不依赖于多巴胺的快速释放；ChatGPT存在刻板印象问题

尤瓦尔·赫拉利：从大历史视角看待AI的影响

追问daily | 剧烈运动可短期内提高执行功能；利用AI发现16万种新RNA病毒；上下文依赖性的逆转现象

AI生成的数据，竟成为一枚射向自己的子弹？| 追问Data

追问daily | 神经回归方法或误导大脑模型选择；全球首款渐冻症基因疗法在中国获批上市；非侵入性远程神经刺激新方法

追问weekly | 过去一周，脑科学领域有哪些新发现？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉