首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

科技 2024-11-16 13:08 北京

机器之心报道

编辑：泽南，亚鹂‍‍‍

多智能体系统，可自动化整个 ML 工作流程，节省数千小时工时。

Open AI 的推理模型 o1，这么快就被比下去了？

本周五，AI 社区见证了又一项突破：一个完全自动化机器学习流程的 AI 工程师，能轻松获得 Kaggle 大师水平，在参与的 50 个 Kaggle 竞赛上获得了其中 26% 的奖牌，成绩远远优于之前 Open AI 的强化学习加强版的 o1 模型。

创造这项纪录的 AI，来自一家名为 NEO 的创业公司。

据该公司介绍，NEO 可以自动化整个机器学习的工作流程，为开发人员节省数千小时的繁重工作。它是一个多智能体（AI Agent）系统，可用并行的方式解决单一问题。

目前这一 AI 系统还在内测申请阶段，除了视频 Demo 内容，我们还能找到官方的简单介绍：

机器学习中的挑战

首先是 NEO 希望解决的问题。

机器学习的「从数据中学习」这一看似简单的前提掩盖了开发人员每天面临挑战的复杂性。虽然传统编程遵循明确的规则和逻辑路径，但机器学习引入了一系列新的不确定性，即使是经验丰富的开发人员也难以应对。从本质上讲，机器学习不仅需要代码开发的专业知识，还需要对统计学、线性代数和微积分有深入的理解，这是许多软件工程师自大学毕业后就不再遇到的数学问题。

开发人员面临的第一个障碍是数据质量和准备。原始数据很少以干净、直接可用的格式出现。相反，开发人员必须花费大量时间处理缺失值、异常值和不一致的格式，同时做出有关数据清理的关键决策，这可能会显著影响模型性能。

模型的选择带来了另一层复杂性。在解决某个问题时通常会有几十种算法可用，每种算法都有自己的优势和局限性，选择正确的方法成为一个关键的决策点。仅神经网络就提供了无数的架构可能性，从简单的前馈网络到 Transformer，每个模型都需要仔细调整超参数。

计算资源增加了另一个复杂性维度。虽然小型模型可以在笔记本电脑上运行，但很多机器学习开发通常需要云基础设施、分布式计算和 GPU 优化。开发人员必须熟练掌握 Docker、Kubernetes 和各种云平台等工具。

部署本身也带来了一系列挑战。在开发过程中表现优秀的模型可能会随着数据漂移而退化，需要持续监控和重新训练 pipeline。开发人员不仅必须跟踪代码更改，还必须跟踪数据版本、模型参数和训练配置。

这可能意味着开发人员要在每个步骤中投入数周或数月的工时，才能构建一个能够有效解决问题的 AI 模型。

NEO—— 完全自主的机器学习工程师

NEO 的出现大幅简化了这整套机器学习工作流程，使工程师能够以 10 倍的速度构建和部署 pipeline。它的开发充分考虑了机器学习专业人士的需求，并被设计为像实习生一样，能够从人类的反馈中进行学习。

它是如何运作的？NEO 是由多个智能体驱动多个专门模型实现的，每个微调模型专门用于机器学习生命周期的不同部分。

面对具体目标，NEO 会启动一套完整的工作流以达成目标。NEO 通过结构化的多步骤方法，将复杂问题拆解为易于管理的组件，化繁为简，从而实现目标。

这一方法包括计划、编码、执行和调试的持续循环，确保在每个阶段都进行充分优化。在这个过程中，NEO 会根据进展不断调整和迭代，直到获得最佳结果。一旦开发者批准 NEO 的输出，整个工作流程即可在几秒钟内部署。NEO 为机器学习工程师简化了上述所有复杂环节。

它的目标不是取代数据科学家或工程师，而是与人类合作并处理所有繁重任务。在人与 AI 合作的工作环境中，人们仅用几个小时就能完成一周的工作。

听起来有点像今年 3 月在 AI 社区爆火的首个 AI 软件工程师 Devin，不过多智能体的方法青出于蓝。

NEO 展示了一系列实际工作的 demo，当要求 NEO 构建一个信用卡欺诈检测系统时，它给出了流畅的任务解决方案：

当要求 NEO 使用协同过滤方法构建一本书籍推荐模型时，它自动完成了数据集的准备工作，还进行了探索性分析，并对数据预处理进行了结构性优化，使数据集能够更好地用于训练：

那么它的跑分如何呢？研究团队在 MLE 基准测试（MLE-bench）上对 NEO 进行了全面评估。MLE-bench 是一种创新的基准测试，专注于将 AI 智能体应用于真实世界的机器学习工程任务。与其他人工设计的挑战不同，这个基准测试通过 75 场实际的 Kaggle 竞赛来评估 AI 智能体在机器学习工程中的表现，具有极高的实用性。

在 50 场 Kaggle 竞赛测试中，NEO 表现堪称卓越：在 26% 的竞赛中获得奖牌，超越了 OpenAI 最新推理加强模型 o1 的基准成绩。为了更直观地理解这一成就，看看 NEO 到底是什么水准，Kaggle 金牌的获得要求就很直白：参赛团队需要进入所有团队排名前 10%。这通常需要极高的专业技能、创新方法以及精细优化。

这回落在 NEO 后面的，是搭配 AIDE 框架的 o1-preview 了。

NEO 在 50 场 Kaggle 比赛中进行了测试，并在其中 26% 的比赛中获得了奖牌，这一表现远远优于此前的搭配 AIDE 框架 Open AI 的 o1 在 MLE 基准测试中的 16.9% 的表现。

NEO 的表现不仅仅是数据，它代表了 AI 辅助机器学习工程的一个突破。凭借如此表现，NEO 已达到堪比 Kaggle 竞赛特级大师的水平，为用户带来了世界级的机器学习专业能力。

官方称，NEO 不仅仅是一款 AI 工具，而是一个像数据竞赛冠军一样的人类合作伙伴，随时准备解决复杂的数据挑战，以经过验证的竞赛获胜能力助你一臂之力。

NEO 的发布在 AI 社区引发了不小的关注，人们非常期待这款新工具能够帮助我们解决繁重的工作，不过也有人认为，目前的展示还只是一面之词，具体情况还得看网友实测。

多智能体的 AI 真的有如此高的潜力吗？让我们拭目以待。

参考链接：

https://heyneo.so/blog

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943246&idx=2&sn=8d7970c864c74dabd9c063ff097d5cb2

机器之心

专业的人工智能媒体和产业服务平台

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

大模型时代需要什么样的安全水位？火山方舟首度公开「会话无痕」技术细节

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

视觉模型学会LLM独门秘籍「上下文记忆」，迎来智能涌现的大爆发！

国内外六所高校、三家企业的AI人才招聘需求

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

穹彻智能-上交大最新Nature子刊速递：解析深度学习驱动的视触觉动态重建方案

外媒：OpenAI 、Anthropic、谷歌新模型表现均不及预期

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

刚刚，谷歌宣布35岁Keras之父Francois Chollet离职

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

WHALE来了，南大周志华团队做出更强泛化的世界模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

​首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱