近日,来自天桥脑科学研究院(Tianqiao and Chrissy Chen Institute)的AI团队在人工智能技术领域取得了重要进展,其自研的OMNE Multiagent大模型多智能体框架登上Hugging Face发布的GAIA基准测试排行榜榜首,超越了包括微软研究院在内的众多顶尖机构提交的多智能体框架。这项成果借鉴了天桥脑科学研究院多年的大脑研究积累,通过给予Agent长期记忆的能力,让模型能够进行深度慢思考,加强了LLM对复杂问题的决策能力。
这是自去年天桥脑科学研究院创始人、前中国互联网大佬陈天桥宣布All In AI战略以来,旗下AI团队取得的一项重大成果。
OMNE目前的整体成功率为40.53%,这项结果领先于Meta、微软、Hugging Face、普林斯顿大学、香港大学、英国AI安全研究所、百川等知名机构的提交。而配备插件的GPT-4仅为15%。
GAIA是由Meta AI、Hugging Face和 AutoGPT联合推出的基准测试系统,旨在提供一个涵盖真实世界问题集的测试环境,用于全面评估AI助手的能力,包括推理、大模型多智能体处理、网页浏览和工具使用等核心功能,是当前最具挑战性的多代理智能评估数据集。OMNE框架能够在如此严苛的榜单中拔得头筹,充分体现了AI团队的技术深度与创新能力。
OMNE是一个基于长期记忆(Long Term Memory, LTM)的多智能体协作框架,每个智能体拥有相同且独立的系统结构,能够自主学习和理解完整的世界模型,从而独立理解环境。基于LTM的多智能体协同体系,使AI系统能够实时适应个体行为变化,优化任务规划与执行,推动个性化与高效的自我进化。
本次榜单的的重大突破在于融合了长期记忆的机制,通过长期记忆大幅降低了MCTS的搜索空间,提高了在复杂问题上的决策能力。通过引入更高效的逻辑推理,OMNE不仅提升了单个智能体的智能水平,还通过优化协作机制,显著增强了多智能体系统的整体能力。
这一提升机制正是受到了人类大脑皮层柱状结构研究的启发,皮质柱作为大脑认知和行为功能的基础单元,通过复杂的协作机制实现信息处理。AI模型通过强化单体智能与智能体间的协作,可能逐渐产生认知能力的涌现,构建出内部的表征模型,进而推动系统整体智能的飞跃。
"我们非常自豪地看到OMNE框架登上GAIA 榜首。"天桥脑科学研究院AI团队负责人表示,"这表明了利用LTM进行AI自我进化以及解决现实世界问题的巨大潜力。我们相信,推进长期记忆和AI自进化的研究,对于AI技术的持续发展和实际应用至关重要。"
天桥脑科学研究院由陈天桥、雒芊芊夫妇出资10亿美元创建,是世界上最大的私人脑科学研究机构之一。研究院始终围绕全球化、跨学科和青年科学家三大重点,支持AI和脑科学研究,致力于造福人类。今年以来,天桥脑科学研究院与《Science》杂志合作推出了全球AI驱动科学大奖,并举办和支持了包括"AI+精神健康"在内的各种高水平国际会议和夏校项目,致力于培养跨学科的青年AI人才。
GAIA benchmark链接:
https://huggingface.co/datasets/gaia-benchmark/results_public/viewer/2023/test?sort[column]=score&sort[direction]=desc
天桥脑科学研究院关于AI长期记忆的论文《Long Term Memory: The Foundation of AI Self-Evolution》已发表于arXiv网站:
https://arxiv.org/abs/2410.15665
关于天桥脑科学研究院
天桥脑科学研究院(Tianqiao and Chrissy Chen Institute, TCCl)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。
TCCI与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了TCCI加州理工神经科学研究院。
TCCI建成了支持脑科学和人工智能领域研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括学术会议和交流、夏校培训、AI驱动科学大奖、科研型临床医生奖励计划、特殊病例社区、中文媒体追问等。