超越Devin，姚班带队 OpenCSG创造大模型编程新世界纪录

文摘 2024-05-31 08:57 上海

点击蓝字，关注我们

摘要

来自中国大模型初创公司OpenCSG推出的StarShip CodeGen Agent，以23.67%的成绩刷新了普林斯顿SWEBench(大模型真实独立编程评测)排行榜，取得了全球第二名的成绩，同时创造了非GPT-4o基模的最高纪录（SOTA）。

SWEBench评测高度贴近真实编程场景，难度极高。不仅要求模型能理解需求、协调多个函数/类，乃至文件的变更，还要求模型能够与执行环境交互，处理超长上下文信息，并执行远超传统代码生成任务的复杂逻辑推理。在这种高难度的真实测试中，行业中最先进的GPT4和Devin，也仅能解决1.74%和13.86%的问题。OpenCSG的这一成绩，标志着国内公司在推动语言模型向更实用、智能和自主化方向发展迈出了领先的一步。

01 Devin - 大模型编程的创新

2024年3月，首个AI软件工程师Devin的横空出世，引爆了整个技术界。虽然伴随着一系列争议，但Devin本身强大的创新能力和巨大潜力，带给众多AI爱好者和从业者新的期待。Devin不仅能够轻松解决编码任务，还能自主完成软件开发的整个周期——从项目规划到部署，涵盖但不限于构建网站、自主寻找并修复 BUG、训练以及微调AI模型等等。

02 大模型编程的真实挑战

为什么Devin敢于挑战GPT4等基础模型的编程能力呢？核心在于软件工程师的工作并不只是编写代码，更涉及到需求理解、代码解读、编程计划、代码生成、调试与异常修复等等环节，这里面的每个环节都会影响大模型编程的可用性和效果。

针对于这类真实场景，普林斯顿大学提出了SWEBench(https://arxiv.org/abs/2310.06770)，这是一种量化评估端到端代码生成能力的工具。GPT-4在SWEBench上的评分仅有1.74%，即使加上RAG技术，其评分也不到3%。这表明单纯依靠基础模型来直接解决现实世界中的编程问题是不可能做到的。

而Devin的技术创新是基于Agent构建工作流程，将SWEBench的解决率提升到了一个新高度。3月份，Devin以独立解决13.86%的问题解决率高居榜首，这直接将“大模型编程”从几乎不可用的状态提升到了“看到了曙光”。硅谷大厂和大模型创业公司纷纷闯入LLM for SE这个领域，这项记录被连续改写。

截止2024年4月底，最好的记录是由Amazon AI团队推出的 Amazon Q Developer Agent 创造的20.33%。较为遗憾的是，相较于基础模型榜单上中国公司的“百花齐放”，这项高难度的挑战鲜少有中国公司参与，直到这一次OpenCSG改写了这一记录。

03 中国创业公司的突破

近日SWEBench最新评测结果更新，OpenCSG跃居榜单第二名。该公司推出的OpenCSG StarShip CodeGen Agent在Lite评测中取得了23.67%的通过率，这一成绩不仅超过了Devin和Amazon的成绩，同时也创造了非GPT4-o基模的历史最高纪录（SOTA）。

OpenCSG成立仅一年，是一个有着深厚开源及大模型复合经验的团队：CEO陈冉是开源软件领域的知名企业家，曾成功打造过多家开源领域的商业公司；CTO王伟来自清华05级姚班，在人工智能领域有多年研发经验；公司核心研发团队中还汇聚了来自清华、北大、沃顿、港科大等学府的精英学子。这样一支团队是如何打造出新的记录的呢？

04 新纪录，模型+Agent齐发力

当前许多企业正在积极探索和实践基础模型、垂直领域模型及RAG等技术，而OpenCSG则选择了专注的方向：致力于编程Agent的创新开发和大型模型算法的深度优化。

Agent层面：不同于LLM+RAG或者通用Agent框架，OpenCSG StarShip CodeGen Agent针对软件研发领域高度定制优化Agent而设计：将研发各个阶段（需求理解、代码检索、编程计划、编写代码、循环验证等）通过LLM Agent实现，并结合软件工程方法，例如AST语法分析、依赖检索等进行深度优化的方式，在各个环节精益求精，最终整合实现了更高精度的代码生成。

算法层面：针对代码版本变更引起的API冲突等典型问题，OpenCSG提出了自适应教师模式，通过教师模型分析代码版本变更记录，生成高质量编程数据并用于改善基础模型的生成效果。根据评测这些创新带来的改进，显著优于当前的RAG模式，尤其是在API结构高频更新的热门项目场景中。这部分的相关成果已经形成论文投递到国际会议中。

正是这种算法+工程双管齐下、精益求精的模式，让OpenCSG CodeGen Agent能在一众模型中脱颖而出。

05 StarShip的星辰大海

如果说CodeGen Agent的真实评测是牛刀小试，那么StarShip则是承载着OpenCSG的宏伟蓝图。

对于StarShip的产品定位，OpenCSG CEO陈冉表示：“StarShip承担着我们对于大模型重塑软件开发的愿景。用户通过StarShip内置的智能体（Agent）组建自己的数字员工团队。CodeGen Agent是平台内置的数字程序员，目前已经发布的还有CodeReview Agent代码评审员和CodeSearch代码问答工程师。不同于代码辅助工具，我们希望这些数字员工能直接独立工作而不需要人工辅助干预。未来我们将发布更多类型的数字员工，全面覆盖需求、设计、编码、测试和运维各个环节。”

CTO王伟表示这条路径充满挑战但非常有趣：“从第一性原理来看，大模型对于生产力的提升已经不是'是'或者'否'的问题，而是何时、何地、何种形态的问题，StarShip正是我们尝试给出的一个回答。”

06 高产团队，聚沙成塔

除StarShip之外，OpenCSG团队还相当高产：CSGHub开源模型平台、wukong预训练模型、CSGCoder微调代码模型等，这些产品凭借其精准的地位，在业内颇受好评。此外，这些产品的快速推出与迭代，既满足了当前的市场需求，同时也为了一个更远大的目标：让大模型赋能每一个企业每一个人。

OpenCSG CEO陈冉表示：“让大模型赋能每个企业、每个人，就需要让大模型变成水和电一样。如果说大模型是电能，那么CSGHub是电力网络，StarShip则是各种各样的家电电器，最终赋能到千家万户。”

07 拥抱开源，超越开源

OpenCSG的理念是开源开放，作为一家坚持以开源为核心的公司，不仅实现了模型开源、代码开源，甚至还实现了平台开源。

“我们是一家年轻的公司，受益于开源，才能在较短的时间做出一些成果，同时也会全面回馈开源社区，这是开源社区的基本原则。除此之外，我非常认同Sam Altman的说法，开源只是一种模式，比模式更重要的是产品价值。”CTO王伟总结道。

“Benchmark本身只是一个数字，随着GPT4-o的推出，SWEBench的测试成绩预计将会很快超过30%，乐观估计明年可以突破50%。而我们更关注这些数字背后的产品价值：随着模型能力和工程技术的提升，数字员工将会从量变引发质变，从能用到好用，在各行业迎来全面的爆发”王伟解释道“这可能会是大模型时代背景下的一个重大变化，从公司到个人，我们都要为此做好准备。”

关于OpenCSG

开放传神（OpenCSG）成立于2023年，是一家致力于大模型生态社区建设，汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

传神小助手

http://mp.weixin.qq.com/s?__biz=Mzg3Nzk0NDE2NA==&mid=2247484975&idx=1&sn=c8ce95cd13ae08f9b02efd6419e4a650

OpenCSG

最新文章

【公司新闻】实力出圈！开放传神（OpenCSG）登上《IT时报》！

OpenCSG与传神社区的创新瞬间

OpenCSG传神社区月度功能更新

大厂安全事件引发关注，OpenCSG如何构筑软件安全防线？

OpenCSG与传神社区的创新瞬间

OpenCSG传神社区月度功能更新

OpenCSG DataFlow：锻造大模型智慧的炼金术，开启数据集Agentic新范式

OpenCSG推出StarShip SecScan：AI驱动的软件安全革新

《降本增效双赢之道——OpenCSG系列产品白皮书》正式发布

CSGHub携手Nvidia NIM、阿里计算巢打造企业级私有化部署解决方案

8月聚焦 | OpenCSG与传神社区的创新瞬间

开启智能编程新时代：StarShip CodeSouler SaaS版重磅发布！

你有GitHub Models，我有CSGHub和StarShip

7月聚焦 | OpenCSG与传神社区的创新瞬间

创新突破 | OpenCSG发布StarShip CodeReview v1.0.0 Beta版

深度洞察 | OpenCSG带你探索具身智能的前沿

CodeSouler：AI赋能，编程效率的革命性飞跃！

线上线下一体开源的Hugging Face？| 这些问题不可不看……

6月回顾｜OpenCSG 与传神社区的精彩时刻

半年估值数亿，1000亿美元超级赛道跑出“AI猛兽”

化茧成蝶 | 继HuggingFace首家落地大模型具身智能场景

邀请函｜StarShip创新黑客松｜降本增效

5月｜OpenCSG和传神社区的满分答卷

超越Devin，姚班带队 OpenCSG创造大模型编程新世界纪录

StarCloud开源启航：释放算力调度潜能

OpenCSG携手博云科技助力DevOps AI化

喜讯｜OpenCSG的CSGCoder代码生成算法通过国家级算法安全备案

免费+薅羊毛｜ OpenCSG上线企业知识库平台助力企业数字资产价值最大化

开源来袭｜ OpenCSG再次推出开源大模型 LLM-Finetune项目

全球开发者先锋大会圆满落幕，OpenCSG引领大模型时代变革

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉