天桥脑科学研究院自研OMNE框架登顶GAIA榜首

学术 2024-10-24 17:37 上海

近日，来自天桥脑科学研究院（Tianqiao and Chrissy Chen Institute）的AI团队在人工智能技术领域取得了重要进展，其自研的OMNE Multiagent大模型多智能体框架登上Hugging Face发布的GAIA基准测试排行榜榜首，超越了包括微软研究院在内的众多顶尖机构提交的多智能体框架。这项成果借鉴了天桥脑科学研究院多年的大脑研究积累，通过给予Agent长期记忆的能力，让模型能够进行深度慢思考，加强了LLM对复杂问题的决策能力。

这是自去年天桥脑科学研究院创始人、前中国互联网大佬陈天桥宣布All In AI战略以来，旗下AI团队取得的一项重大成果。

OMNE目前的整体成功率为40.53%，这项结果领先于Meta、微软、Hugging Face、普林斯顿大学、香港大学、英国AI安全研究所、百川等知名机构的提交。而配备插件的GPT-4仅为15%。

GAIA是由Meta AI、Hugging Face和 AutoGPT联合推出的基准测试系统，旨在提供一个涵盖真实世界问题集的测试环境，用于全面评估AI助手的能力，包括推理、大模型多智能体处理、网页浏览和工具使用等核心功能，是当前最具挑战性的多代理智能评估数据集。OMNE框架能够在如此严苛的榜单中拔得头筹，充分体现了AI团队的技术深度与创新能力。

OMNE是一个基于长期记忆（Long Term Memory, LTM）的多智能体协作框架，每个智能体拥有相同且独立的系统结构，能够自主学习和理解完整的世界模型，从而独立理解环境。基于LTM的多智能体协同体系，使AI系统能够实时适应个体行为变化，优化任务规划与执行，推动个性化与高效的自我进化。

本次榜单的的重大突破在于融合了长期记忆的机制，通过长期记忆大幅降低了MCTS的搜索空间，提高了在复杂问题上的决策能力。通过引入更高效的逻辑推理，OMNE不仅提升了单个智能体的智能水平，还通过优化协作机制，显著增强了多智能体系统的整体能力。

这一提升机制正是受到了人类大脑皮层柱状结构研究的启发，皮质柱作为大脑认知和行为功能的基础单元，通过复杂的协作机制实现信息处理。AI模型通过强化单体智能与智能体间的协作，可能逐渐产生认知能力的涌现，构建出内部的表征模型，进而推动系统整体智能的飞跃。

"我们非常自豪地看到OMNE框架登上GAIA 榜首。"天桥脑科学研究院AI团队负责人表示，"这表明了利用LTM进行AI自我进化以及解决现实世界问题的巨大潜力。我们相信，推进长期记忆和AI自进化的研究，对于AI技术的持续发展和实际应用至关重要。"

天桥脑科学研究院由陈天桥、雒芊芊夫妇出资10亿美元创建，是世界上最大的私人脑科学研究机构之一。研究院始终围绕全球化、跨学科和青年科学家三大重点，支持AI和脑科学研究，致力于造福人类。今年以来，天桥脑科学研究院与《Science》杂志合作推出了全球AI驱动科学大奖，并举办和支持了包括"AI+精神健康"在内的各种高水平国际会议和夏校项目，致力于培养跨学科的青年AI人才。

GAIA benchmark链接：

https://huggingface.co/datasets/gaia-benchmark/results_public/viewer/2023/test?sort[column]=score&sort[direction]=desc

天桥脑科学研究院关于AI长期记忆的论文《Long Term Memory: The Foundation of AI Self-Evolution》已发表于arXiv网站：

https://arxiv.org/abs/2410.15665

关于天桥脑科学研究院

天桥脑科学研究院（Tianqiao and Chrissy Chen Institute, TCCl）是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一，围绕全球化、跨学科和青年科学家三大重点，支持脑科学研究，造福人类。

TCCI与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室；与加州理工学院合作成立了TCCI加州理工神经科学研究院。

TCCI建成了支持脑科学和人工智能领域研究的生态系统，项目遍布欧美、亚洲和大洋洲，包括学术会议和交流、夏校培训、AI驱动科学大奖、科研型临床医生奖励计划、特殊病例社区、中文媒体追问等。

http://mp.weixin.qq.com/s?__biz=MzI3MjQ4MDMyOQ==&mid=2247518706&idx=2&sn=72a7f03f67f39f088b69e904fe1fd637

追问nextquestion

科研就是不断探索问题的边界

最新文章

别把人工智能当迷宫，从简单的问题开始 | 智能渐近线

追问daily | AI比人类更会写诗；数字媒体如何影响青少年一生？听音乐时，大脑如何预测旋律？

全球脑机接口顶级学术会议开启报名注册

追问daily | 诺奖得主首次模拟自然细胞间通信机制；通过皮肤触摸实现虚拟现实控制；经颅磁刺激可减少幻听

万字访谈：机制，机制，机制，哪哪都是机制，但机制到底是什么？

追问daily | 为什么湿漉漉的狗会甩干自己；研究逆转：儿童比成年人运动技能学的慢；AI量化陷入瓶颈

追问weekly | 过去一周，脑科学领域有哪些新发现？Vol.38

追问daily | AlphaFold 3 开源发布；精神疲劳将导致大脑局部睡眠；记忆不专属于大脑

人工智能如何改变精神健康研究范式？｜“人工智能与精神健康研讨会”会议报道

智能化、个性化、精准化：国际专家共议AI驱动的精神健康新范式

追问weekly | 过去一周，AI领域有哪些新突破? Vol.37

顾凡及：“类脑”还是“脑启发”？| 智能渐近线

追问daily | 大脑如何动态整合记忆？基因组瓶颈如何塑造先天行为？电子鼻媲美动物嗅觉

“空想”未必不能产生“真理” | 追问顶刊

最后１天！与"Science"相约上海！2024人工智能与精神健康研讨会即将召开

追问daily | 地中海饮食减缓脑衰老；多读一年书，也无法保护大脑结构；大脑“局部”功能也由分布式过程产生

不间断的机器：从情感计算通向机器情感 | 追问观察

追问daily | 濒死前“走马灯”的意识变化；触觉感知涉及16 种神经细胞；千个AI智能体打造虚拟文明

倒计时2天！与"Science"相约上海！2024人工智能与精神健康研讨会即将召开

过去一周，脑科学领域有哪些新发现？| 追问weekly Vol.36

破解AI的记忆密码，普林斯顿与天桥脑科学研究院联合招募优秀人

倒计时3天！与"Science"相约上海！2024人工智能与精神健康研讨会即将召开

专访John Krystal：抑郁背后的化学战役 | 追问观察

引领AI for Brain生态新纪元，首届Chen Scholars Retreat成功举办

与"Science"相约上海！2024人工智能与精神健康研讨会即将召开

追问daily | 宇宙太短，猴子敲不出莎士比亚全集；Medium平台近半内容由AI生成；MIT研究揭示LLM类人脑结构

当AI取代真相，大模型如何一步步诱骗了人类的文明？| 追问观察

追问daily | 首个人类认知基础模型发布？人类如何分辨AI生成的内容？AI自学习情感框架成功模拟自然情绪

整合长期记忆，探索大模型自我进化的可能 | 追问观察

追问daily | 5分钟视听刺激可改善情绪；谷歌推出首款无限生成游戏；蛋白质定位错误是疾病的常见原因

追问weekly | 过去一周，脑科学领域有哪些新发现？

追问weekly | 过去一周，AI领域有哪些新突破?

你和ChatGPT理解语言的方式一样吗？从表征对齐角度比较人工神经网络与生物大脑 | 追问观察

追问daily | 首个跨物种生命基础大模型；睡眠剥夺对大脑发育的负面影响；OpenAI即将发布Orion

万字访谈：8位学术大咖在大脑研究中的最大挫败｜追问观察

天桥脑科学研究院自研OMNE框架登顶GAIA榜首

追问daily | 线吸引子动力学首次实验证据；系统0，人类思维新方式；调控多巴胺释放的新通路

技术变革还是炒作噱头？AI for Bio到底能做什么｜AI驱动科学

追问daily | 如何客观评估疼痛？Gemini并入DeepMind；在家使用经颅直流电刺激治疗抑郁症，也能安全有效

大脑中的情感表征——情感的演化与边界 | 追问观察

追问weekly | 过去一周，脑科学领域有哪些新发现？

听见沉睡的灵魂，植物人也有意识 | 追问观察

倒计时20天 | 天桥脑科学研究院与《科学》杂志、上海市精神卫生中心在沪举办"人工智能与精神健康"国际论坛

追问daily | 脑-血管-免疫系统，或改变神经系统疾病治疗；人类会同情并保护被排斥的AI智能体

追问daily | 两分钟内诊断倦意；运动的开始不依赖于多巴胺的快速释放；ChatGPT存在刻板印象问题

尤瓦尔·赫拉利：从大历史视角看待AI的影响

追问daily | 剧烈运动可短期内提高执行功能；利用AI发现16万种新RNA病毒；上下文依赖性的逆转现象

AI生成的数据，竟成为一枚射向自己的子弹？| 追问Data

追问daily | 神经回归方法或误导大脑模型选择；全球首款渐冻症基因疗法在中国获批上市；非侵入性远程神经刺激新方法

追问weekly | 过去一周，脑科学领域有哪些新发现？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉