AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

学术 2024-11-14 18:16 北京

继 OpenAI o1 成为首个达到 Kaggle 特级大师的人工智能（AI）模型后，另一个 Kaggle 大师级 AI 也诞生了。

根据 Kaggle 的晋级系统，由华为诺亚方舟实验室和伦敦大学学院团队联合推出的端到端自主数据科学智能体（agent）——Agent K v1.0，已经能够获得 6 枚金牌、3 枚银牌和 7 枚铜牌。

论文链接：https://arxiv.org/abs/2411.03562

据介绍，Agent K v1.0 具备动态、多步骤处理复杂问题的能力，通过动态管理记忆并从经验中持续学习，能够完全自动化数据科学流程，并在不依赖微调的情况下，通过环境反馈不断优化决策，实现对各种数据科学任务的自动化、优化和泛化。

Agent K v1.0：一个自主数据科学智能体

当前，虽然 LLM 在自然语言交互方面展现优秀性能，但如何使 LLM 能够基于智能体处理具有序列或并行任务模块的系统性数据科学任务，构建能对各种数据科学任务进行自动化、优化和泛化的LLM 智能体，从而实现动态、多步骤的问题解决仍然是个挑战。

为解决这个问题，研究团队提出了一个灵活的基于经验学习推理的替代框架，借鉴了强化学习中的马尔可夫决策过程（MDP）概念，不过其独特性在于引入了结构化推理和长期记忆机制。这一创新举措避免了传统思维链或思维图方法对反向传播和微调的依赖，使得智能体能够在不更改 LLM 核心参数的情况下，实现动态学习与适应。

图｜结构化推理的示意图与标准的思维链（CoT）方法形成对比。

在 Agent K v1.0 的框架体系中，智能体具备三种类型的动作，分别为长期记忆动作、内部动作以及外部动作。长期记忆动作用于对外部数据库的内容进行管理，将过往经验转化为指导当下决策的珍贵信息；内部动作则旨在更新工作记忆，塑造智能体的推理过程；外部动作直接与环境进行交互，执行任务并获取奖励。

智能体通过与环境的互动，收集状态、工作记忆以及外部数据库的轨迹信息。随后，利用 LLM 的内部策略来更新工作记忆和长期记忆。这些策略能够依据环境反馈，动态调整智能体的推理过程，使其可以根据具体情况做出最优决策，从而最大限度地实现回报。

总体而言，Agent K v1.0 的学习框架凭借结构化推理和长期记忆机制，达成了 LLM 在复杂数据科学任务中的高效学习与适应，为构建自动化、高效且可扩展的数据科学智能体开辟了崭新的途径。

此外，Agent K v1.0 具有全新的自动化数据科学任务处理方式。

图｜Agent K v1.0 自动设计、编码和执行的整体数据科学流程。

首先，在数据科学任务设置的自动化阶段，Agent K v1.0 能够将数据科学任务精细分解为多个阶段，如数据抓取、数据摘要、模态检测、数据预处理以及特征工程等。

同时，利用单元测试对每个阶段的正确性进行严格验证。而当单元测试失败时，Agent K v1.0 会利用 LLM 生成解释错误原因的思考，并依据这些思考重新执行之前步骤，直至找到并修复错误。

图｜自动设置阶段的主要步骤。

之后，在数据科学任务解决的优化阶段，Agent K v1.0 根据任务所涉及的模态类型，选择不同的工具和方法生成解决方案。对于表格数据任务，它使用 AutoML 工具自动生成预测；对于计算机视觉、自然语言处理和跨模态任务，则采用深度神经网络模型。此外，它还集成了多种工具，如 HEBO 进行超参数优化，以及利用 HuggingFace 的 Torchvision 和 Torchtext 库处理不同模态的数据。

不仅如此，Agent K v1.0 在多任务和持续学习方面也表现出色。它可以处理多个不同领域的数据科学任务，通过共享长期记忆实现知识迁移。同时，它会根据之前的经验选择下一个任务，构建难度逐渐增加的课程，以实现持续学习和知识积累。

图｜Agent K v1.0 作为一个多模态、持续学习的数据科学智能体，能够在多轮操作中进行任务。

为了客观评估 Agent K v1.0 的性能，研究团队构建了一个基于 Kaggle 竞赛的竞争性数据科学基准。该基准涵盖了 Kaggle 平台上多达 65 个多样化的数据科学任务，涵盖表格数据、计算机视觉、自然语言处理以及跨模态任务等多个领域。

此外，该基准还评估了 Agent K v1.0 自动设置数据科学任务的能力，涵盖数据抓取、数据预处理、特征工程和模型训练等步骤。并通过单元测试来验证每个阶段的正确性，并评估智能体在不同模态和任务类型上的自动化成功率。

图｜基准测试中 Kaggle 任务的分布饼图。

在性能评估方面，该基准使用 Kaggle 平台的公开和私有分数来评估 Agent K v1.0 的性能。根据 Kaggle 的排名系统，将智能体的表现与其他 Kaggle 用户进行比较，并计算其 Elo-MMR 积分，以评估其在 Kaggle 用户群体中的相对位置。

为确保公平比较，该基准考虑了竞赛规模，不同竞赛的参与者和提交数量可能不同，因此需使用 Elo-MMR 积分来进行比较；以及竞赛类型，社区竞赛、练习场竞赛和特色竞赛的难度和竞争程度不同，因此需使用 Kaggle 的排名系统来进行评估。

图｜该表格描述了Kaggle的晋升系统，遵循Kaggle的指南和风格。

Kaggle 大师级水平 AI 智能体

研究团队还在 65 个 Kaggle 竞赛中对 Agent K v1.0 进行了测试。这些比赛可以由智能体自主设置，并且可以生成至少一个提交。与之前的工作不同，测试遵循了标准的 Kaggle 竞赛指南，其中智能体创建一个提交文件，并使用 Kaggle API 自动提交其解决方案。

智能体的解决方案在提交后被评估和排名在排行榜上，其性能将与参与者进行量化比较。为了确保公平性，这些量化指标基于可用的私人排行榜，并且仅使用公共排行榜结果来决定保留的提交，这反映了据科学家在 Kaggle 平台上的标准做法。

为了提高其性能，Agent K 使用基于内部训练数据拆分的验证损失。该损失和智能体内存中已有的代码帮助 LLM 反思并生成更成功的代码，最终提高其排名。

图｜展示了 Agent Kv1.0 在各类比赛中的表现，涵盖了表格、计算机视觉、自然语言处理和多模态任务。y 轴为比赛的 ID；x 轴为根据 Kaggle 的私人排行榜衡量出的分位数表现，分位数越高，智能体表现越好。

根据 Kaggle 的评估方法，Agent K v1.0 获得了相当于 6 枚金牌、3 枚银牌和 7 枚铜牌的成绩。整体表现与 Kaggle 高级用户相当，甚至超过了部分顶级 Grandmaster 用户的水平。在 22 个任务中，Agent K v1.0 取得了超过 80% 的量化指标，在 62% 的竞赛中取得了超过 50% 的量化指标。

不足与展望

虽然 Agent K v1.0 在 Kaggle 数据科学竞赛中取得了令人瞩目的成绩，达到了 Kaggle 大师级水平，但其仍然存在一些不足之处。

第一，任务设置过程反馈单一。目前 Agent K v1.0 在设置任务时仅基于单元测试和元单元测试的反馈。未来将通过进一步引入反馈机制，识别哪些代码和数据预处理步骤能有效提升模型性能，从而优化任务设置的智能性。

第二，工具扩展与性能反馈机制依托工具简单。当前 Agent K 使用了一些现有工具（如 HEBO、RAMP 等）进行超参数优化和特征工程。未来计划引入更多工具，特别是能支持视频和音频处理的新模块，并研究更加有效的基于性能反馈的结构来优化 LLMs 的使用。

第三，目前的持续学习机制主要基于任务设置优化，后续计划将性能反馈融入任务选择的决策中，使 Agent K 能根据历史经验来评估任务难度及潜在表现，更好地利用知识积累来提升任务处理能力。

未来，研究团队计划进一步扩展现有的评估基准，不仅增加处理任务的数量，还将多模态挑战如音频和视频数据纳入其中，力求覆盖更广泛的真实场景，以提升系统的多样性和实用性。研究还将使 Agent K v1.0 更适应“可运行的notebook”竞赛要求，提升其在多种竞赛环境中的灵活性和适应性，并计划参与实时竞赛来更精准地验证系统的实际竞争力。

通过这些优化，Agent K v1.0 有望在多种任务和领域中进一步提升其自主数据科学能力，逐步向真正的 Kaggle 大师级目标迈进。

作者：阮文韵责编：学术君

如需转载或投稿，请直接在公众号内留言

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247593628&idx=1&sn=a6b670bdfcce018a594bcff7a97ffaa6

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

不止 computer use，AI 的「phone use」也来了

今天，把电脑交给大模型

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

来了！Stability AI 推出 Stable Diffusion 3.5

深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

刚刚，OpenAI最强竞对官宣：大模型可以使用电脑了

DeepMind创始人最新访谈：今年的诺贝尔奖，就像是AI的分水岭

微软提出新型注意力机制SeerAttention；清华、智谱团队提出“预训练蒸馏”｜大模型日报

OpenAI o1 模型推理模式的比较研究｜大模型论文日报

哈佛重磅突破！AI确定17000多种疾病候选药物，罕见病“孤儿药”不再遥远？

132年未解开的李雅普诺夫函数谜题，被Symbolic Transformer攻克了

Meta被斥：他们污染了“开源”一词；李开复：零一万物绝不放弃预训练模型｜一周热门

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

美国FDA：警惕AI大模型带来的未知问题，亟需监管创新

3B 超越 7B，Mistral AI 推出端侧模型 Ministral 3B 和 8B

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉