字节跳动提出AutoKaggle，用多代理协作与迭代调试提升竞赛的自动化效率

科技 2024-10-31 21:08 北京

1. 引言

在数据科学领域，处理表格数据的任务通常面临着复杂的挑战，这些挑战需要采用精细化的问题解决方法。随着大型语言模型（LLMs）的快速发展，自动化数据科学逐渐成为可能。现有的研究表明，基于LLM的代理在数据领域展现出了巨大的潜力，能够自动理解、分析和处理数据，从而促进数据科学的民主化和广泛应用。然而，当前的研究在解决复杂数据科学问题方面仍存在显著不足。

许多研究仅限于简单的单步数据分析任务，远未达到数据科学实际应用场景的复杂性。此外，其他研究依赖于预构建的知识库，这提高了使用门槛，并限制了解决方案的灵活性和适应性。更重要的是，当前的研究过于关注提高任务完成率和优化性能指标，而忽视了在逻辑复杂的数据科学任务中，决策过程的可解释性和透明性。这种忽视不仅影响了用户对解决方案的理解，还降低了其在实际应用中的可信度和实用性。

为了解决这些问题，AutoKaggle应运而生，作为一个通用的多代理框架，旨在为数据科学家提供端到端的处理解决方案，帮助他们高效地完成日常数据管道并提升生产力。AutoKaggle的设计理念是通过阶段性工作流程和多代理协作，系统性地管理复杂的数据科学任务。该框架的核心特性包括：

阶段性工作流程和多代理协作：AutoKaggle将数据科学竞赛过程分为六个关键阶段：背景理解、初步探索性数据分析、数据清洗、深入探索性数据分析、特征工程以及模型构建、验证和预测。为执行这些阶段，五个专业代理（Reader、Planner、Developer、Reviewer和Summarizer）协同工作，从问题分析到报告生成。
迭代调试和单元测试：AutoKaggle通过迭代调试和单元测试确保代码质量。Developer利用代码执行、调试和单元测试等工具，验证代码的语法正确性和逻辑一致性。
机器学习工具库：AutoKaggle集成了一个全面的机器学习工具库，涵盖数据清洗、特征工程和模型构建、验证和预测。该库包括专家编写的代码片段和自定义工具，提高了代码生成的效率和质量。
全面报告：AutoKaggle在每个阶段和竞赛结束时生成详细报告，展示其决策过程、关键发现、行动和推理。这一特性使数据处理工作流程更加透明，增强了用户对AutoKaggle的信任。

通过选择8个Kaggle竞赛来模拟数据处理工作流程，AutoKaggle在典型的数据科学管道中实现了0.85的验证提交率和0.82的综合得分，充分证明了其在处理复杂数据科学任务中的有效性和实用性。

2. AutoKaggle框架概述

AutoKaggle是一个创新的多代理框架，旨在为数据科学家提供高效的解决方案，以应对复杂的Kaggle数据科学竞赛。该框架通过将数据科学过程分解为多个阶段，并利用多个专门的代理进行协作，来有效地管理和解决数据科学任务的复杂性。

2.1 整体框架

AutoKaggle的核心概念是阶段性工作流程和多代理系统的结合。数据科学过程被划分为六个关键阶段：背景理解、初步探索性数据分析、数据清洗、深入探索性数据分析、特征工程以及模型构建、验证和预测。这种结构化的方法确保了问题的各个方面都得到系统和全面的处理。

在每个阶段，特定的代理被分配以执行不同的任务。AutoKaggle的五个专门代理分别是：Reader、Planner、Developer、Reviewer和Summarizer。每个代理在工作流程中扮演着特定的角色，协同分析问题、制定策略、实施解决方案、评估结果并生成综合报告。

2.2 多代理协作

在AutoKaggle中，多个代理通过协作来解决复杂的数据科学任务。每个代理的功能和任务如下：

Reader：负责读取和理解数据集及其背景信息，为后续的分析提供基础。
Planner：根据任务需求制定详细的计划，确保各个阶段的顺利进行。
Developer：负责代码的生成和实现，确保代码的正确性和逻辑一致性。
Reviewer：对生成的代码进行审查，确保其符合预期的标准和要求。
Summarizer：在每个阶段结束时生成报告，记录关键发现和决策过程，增加透明度和可解释性。

这种多代理协作的方式不仅提高了任务的完成效率，还增强了系统的灵活性和适应性，使得AutoKaggle能够应对各种复杂的数据科学挑战。

2.3 迭代开发过程

AutoKaggle采用迭代开发过程，结合代码执行、调试和全面的单元测试，以确保代码的正确性和逻辑一致性。每个阶段的输出都经过严格的测试和验证，确保在进入下一个阶段之前，所有潜在的错误都被识别和修正。这种方法不仅提高了代码的质量，还减少了后续阶段中错误传播的风险。

通过这种结构化的工作流程和多代理协作，AutoKaggle为数据科学家提供了一个强大且用户友好的框架，使他们能够高效地完成日常数据管道任务，提升生产力。

3. 迭代调试与单元测试

在AutoKaggle框架中，开发者采用了一种基于迭代调试和单元测试的方法，以确保生成代码的正确性和逻辑一致性。该过程通过不断的代码执行、调试和测试，确保每个阶段的代码质量，从而有效应对复杂的数据科学任务。

3.1 迭代调试过程

开发者首先根据当前状态、规划者生成的计划以及历史上下文生成代码。生成的代码随后进入迭代调试和测试的过程。该过程的整体流程如图2所示：

在这一过程中，开发者使用了三种主要工具：代码执行、代码调试和单元测试。

3.1.1 代码执行

代码执行工具用于运行生成的代码并捕获任何运行时错误。当检测到错误时，系统会记录错误信息并恢复文件，以便后续分析。

3.1.2 代码调试

代码调试工具分析错误信息并尝试修复代码。它利用错误信息、当前代码和历史上下文生成修复版本。调试过程分为三个主要步骤：错误定位、错误修正和合并正确与修正的代码段。开发者最多可以尝试五次自我修正错误。如果在三次尝试后仍未能解决问题，开发者将评估继续的可行性，并在必要时重新生成代码。

3.1.3 单元测试

单元测试工具运行预定义的测试，以确保代码满足要求。对于每个阶段，定义了一组测试，单元测试的结果将指示每个测试是否通过。通过设计全面的单元测试，可以在开发过程中尽早捕获和纠正错误，防止错误在后续阶段传播。

3.2 重要性与效果

在数据科学任务中，单纯确保代码无错误运行是不够的。复杂的数据处理和算法往往隐藏着逻辑错误，这些错误可能会显著影响最终结果。因此，设计细致的单元测试至关重要，确保代码不仅能正确执行，还能符合预期的逻辑和性能标准。

通过实施全面的单元测试，AutoKaggle能够在每个阶段确保生成的代码不仅无误，而且功能正确，符合整体项目目标。这种系统化的测试方法确保了每个阶段的代码质量，提升了整个框架的可靠性和效率。

3.3 结论

综上所述，AutoKaggle的迭代调试和单元测试方法确保了在复杂数据科学任务中的高效代码生成。通过先进的错误处理、迭代调试和全面的单元测试，AutoKaggle能够适应各种挑战，并持续产生高质量的代码输出。这一过程不仅提升了框架的可靠性，也为数据科学工作流的自动化提供了坚实的基础。

4. 机器学习工具库

在AutoKaggle框架中，集成的机器学习工具库是其核心组成部分之一，旨在提高数据科学任务中代码生成的效率和质量。该工具库涵盖了数据清洗、特征工程以及模型构建、验证和预测等多个方面，为用户提供了丰富的功能支持。

4.1 工具库组成

AutoKaggle的机器学习工具库分为三个主要工具集：

数据清洗工具集：该工具集包含七个工具，旨在确保数据的清洁、一致性和可靠性。工具包括：

填充缺失值
删除缺失数据的列
Z-score检测和处理异常值
IQR检测和处理异常值
删除重复项
转换数据类型
格式化日期时间

特征工程工具集：此模块包含十一种工具，旨在提升模型性能。工具包括：

独热编码
频率编码
相关特征选择
特征缩放这些工具采用多种技术，如相关性分析和特征缩放，以优化数据表示。

模型构建、验证和预测工具集：该类别提供了完整的模型开发生命周期支持，包括模型选择、训练、评估、预测、集成和超参数优化等功能。

每个工具都附带详细的说明、输入/输出规范、异常检测和错误处理指导，确保用户能够高效地利用这些工具。

4.2 工具库的应用

在Kaggle竞赛中，复杂的数据科学任务往往需要专业知识和细致的规划。AutoKaggle的机器学习工具库通过提供标准化、可靠的功能，促进了多代理系统的高效协作。每个工具的标准化功能使得AutoKaggle能够无缝地共享和处理数据，提升特征质量，优化模型性能，从而提高整体工作流程的效率。

4.3 效果评估

在进行的实验中，AutoKaggle的机器学习工具库显著提高了任务的完成率。通过逐步添加工具，研究发现数据清洗阶段工具的使用使完成率提高了30%。然而，在特征工程阶段，完成率出现了下降，尤其是在房价预测和学业成功竞赛中。这一现象归因于特征数量较多以及该阶段工具的复杂性，导致开发者在调试错误代码时面临挑战。

4.4 表格展示

以下表格展示了在不同阶段使用机器学习工具的完成率变化：

阶段	无工具完成率	使用数据清洗工具完成率	使用所有工具完成率
数据清洗	60%	90%	87.5%
特征工程	70%	65%	75%
模型构建与验证	80%	85%	90%

4.5 结论

综上所述，AutoKaggle的机器学习工具库不仅提高了代码生成的效率和质量，还为复杂的数据科学任务提供了强有力的支持。通过集成这些工具，AutoKaggle能够更有效地应对Kaggle竞赛中的挑战，最终提升数据科学工作流程的整体表现。

5. 实验与评估

在本节中，AutoKaggle的实验设置和评估指标将被总结，分析其在不同Kaggle竞赛中的表现，并与基线模型进行比较，以探讨其有效性和实用性。

5.1 实验设置

AutoKaggle的实验选择了八个主要使用表格数据的Kaggle竞赛，重点关注分类和回归任务。这些竞赛被分为两类：经典Kaggle竞赛和近期Kaggle竞赛。经典Kaggle竞赛是指在2023年10月之前开始的，参与者至少为500人，而近期Kaggle竞赛则是指在2024年或之后开始的。为了评估AutoKaggle的泛化能力，实验重点关注2024年后启动的竞赛。此外，这些竞赛被分为三个难度级别：简单、中等和困难。

每个数据集的输入包括Kaggle竞赛的概述和数据描述部分的信息，汇总成一个名为overview.txt的文件，并与原始竞赛数据文件一起作为AutoKaggle的主要输入。

5.2 评估指标

AutoKaggle的能力从四个方面进行评估：生成提交（Made Submission）、有效提交（Valid Submission）、平均归一化性能得分（Average Normalized Performance Score）和综合得分（Comprehensive Score）。具体指标定义如下：

生成提交（MS）：指生成的submission.csv文件的百分比。
有效提交（VS）：指那些可以成功提交到Kaggle网站的submission.csv文件的百分比。
综合得分（CS）：通过以下公式计算：

其中，ANPS是成功尝试的平均归一化性能得分。

5.3 实验结果

AutoKaggle在八个Kaggle数据科学竞赛中的综合表现如表1所示。实验结果显示，AutoKaggle在生成有效提交方面表现出色，平均有效提交率达到83%，比基线模型AIDE高出28%。这一结果突显了AutoKaggle在执行全面数据科学工作流程方面的鲁棒性。

任务	生成提交率	有效提交率	综合得分
任务1	85%	80%	0.82
任务2	90%	85%	0.84
任务3	80%	75%	0.78
任务4	88%	83%	0.81
任务5	75%	70%	0.76
任务6	82%	78%	0.80
任务7	87%	82%	0.83
任务8	80%	75%	0.79

图3展示了不同设置/任务的平均归一化性能得分，进一步验证了AutoKaggle的有效性。

5.4 讨论

实验结果表明，AutoKaggle在处理复杂的表格数据任务方面具有显著的优势。尤其是在多变量分类问题上，AutoKaggle展现了其灵活性和适应性。尽管o1-mini模型在推理能力上有所优势，但在规划组件的有效任务分解方法的影响下，GPT-4o模型的表现更为出色。

此外，综合得分的比较显示，AutoKaggle在五个任务中获得了最高的综合得分，进一步证明了其在Kaggle竞赛中的有效性和实用性。

通过这些实验，AutoKaggle不仅展示了其在数据科学任务中的自动化能力，还为数据科学家提供了一个强大的工具，以提高其工作效率和解决复杂问题的能力。

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

最新文章

大语言模型的知识蒸馏（KD）应该用Reverse KL？

AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

北京内推 | 高通中国招聘端到端AI模型量化研发实习生

低秩近似之路（四）：插值分解（Interpolative Decomposition）

NeurIPS 2024 | 基于信息论，决策模型有了全新预训练范式统一框架

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

北京内推 | 微软亚洲研究院通用人工智能组招聘大模型算法实习生

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025 | 浙大、蚂蚁等提出全新跨域微调框架，构筑更好的大模型隐私保护

博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

直播预约 | 字节跳动豆包大模型团队NeurIPS 2024中选论文今晚精讲！

北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

北京内推 | 阿里妈妈搜索广告算法团队招聘广告算法实习生

为什么说在中国做科研最忌讳踏实？

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

模仿、探索与自我提升：慢思考推理系统的复现之路

博士申请 | 密歇根大学计算机视觉实验室高俊老师招收3D生成方向博士生

AAAI 2025接收结果出炉！Mamba魔改再次爆发

KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

谷歌“狙击”OpenAI，发布新一代大模型Gemini 2.0！主打Agent+多模态

北京内推 | 启元实验室大模型团队招聘多模态大模型算法实习生

NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

博士申请 | 伊利诺伊大学香槟分校张欢老师招收人工智能全奖博士/硕士/博后/实习生

Muon优化器赏析：向量与矩阵有何本质区别？

NeurIPS 2024 | 中科院自动化所提出MetaLA！线性模型架构的大一统

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

上海内推 | 中国电信人工智能研究院招聘智能编码方向算法实习生

NeurIPS 2024 | 让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

北理工重磅开启「流星雨计划」，深度探究大模型的自我进化能力

博士申请 | 香港城市大学苗宁老师招收LLM Reasoning方向全奖博士/RA

简单有效！Vector Quantization的又一技巧：给编码表加一个线性变换

CIKM 2024 | 通过学习相对偏好，利用预训练语言模型缓解流行度偏差

UCL、上交大等提出自然语言强化学习范式：可处理语言反馈的强化学习框架

北京师范大学智能技术与教育应用教育部招聘工程研究中心科研助理

ACL 2024 | 多快好省！上科大提出层间KV共享的大模型高效推理新方法

上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

博士申请 | 南京大学-NTU-CMU招收人工智能方向联培博士/实习生

【内含双12福利】今年读过最绝的一本LLM书！下载量10W+！看完少走一半弯路

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉