1.29-5|issue测试基准,大模型代码编辑效率,测试时间效率

文摘   2025-01-29 21:56   河南  

软件工程与测试计算扩展:issue测试基准,大模型代码编辑效率,测试时间效率

CodeMonkeys: Scaling Test-Time Compute for Software Engineering

2025-01-24|Stanford, Oxford|🔺6

http://arxiv.org/abs/2501.14723v1
https://huggingface.co/papers/2501.14723
https://scalingintelligence.stanford.edu/pubs/codemonkeys/

研究背景与意义

在当今软件工程领域,大型语言模型(LLMs)在解决复杂编程任务方面的能力迅速提升。特别是在处理真实世界的GitHub问题时,LLMs的表现得到了显著改善。然而,随着模型规模的扩大,训练和推理的计算成本也在不断上升。因此,如何有效地扩展测试时间计算成为一个重要的研究课题。本文提出的CodeMonkeys系统旨在通过优化测试时间计算的使用,提升模型在SWE-bench数据集上的表现。该系统不仅关注如何生成候选代码编辑,还强调通过多轮迭代和有效的选择机制来提高问题解决的成功率。

研究方法与创新

CodeMonkeys系统的核心创新在于其设计理念,结合了串行和并行的测试时间计算扩展策略。具体而言,系统分为三个主要步骤:

  1. 识别相关代码库上下文:通过使用模型扫描整个代码库,识别与目标问题相关的文件,从而减少不必要的计算开销。
  2. 生成候选代码编辑:采用状态机模型,模型在生成代码编辑的同时,还会编写测试脚本。通过多轮反馈,模型能够逐步改进其编辑和测试,提高最终解决方案的质量。
  3. 选择最佳候选编辑:通过投票机制和模型选择相结合的方法,从生成的候选编辑中选出最佳方案。这种方法不仅提高了选择的准确性,还能有效整合来自不同来源的候选编辑。

实验设计与结果分析

实验结果表明,CodeMonkeys在SWE-bench Verified数据集上的表现显著优于其他现有系统。具体来说,系统在解决57.4%问题的同时,使用的推理预算约为2300美元。通过对比不同选择策略的效果,发现基于投票的选择方法和模型选择相结合的策略能够显著提高最终得分。此外,系统还展示了与其他顶级提交的组合效果,通过集成来自多个来源的候选编辑,最终得分达到66.2%。

结论与展望

CodeMonkeys系统展示了在解决软件工程问题时,如何通过优化测试时间计算和有效的选择机制来提升性能。尽管当前系统已经取得了显著的成绩,但仍有改进空间。例如,如何进一步提高上下文识别的准确性、生成更高质量的代码编辑和测试脚本,以及优化选择过程,都是未来研究的重要方向。随着模型能力的提升和计算资源的优化,期待在软件工程领域实现更广泛的应用和更高的解决率。


AI研究前瞻
欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南! 我们致力于为您提供最新、最前沿的AI研究论文解读和分析,并以通俗易懂的方式呈现其核心思想和潜在影响。 一起探索AI的无限可能,共同见证人工智能改变世界的每一步!
 最新文章