2024年,大模型驱动的智能软件研发有哪些进展?

科技   2024-12-31 21:02   上海  

过去两年大模型技术发展很快,新的一天有可能带来新的消息,可谓AI技术日新月异,所以2024年的总结,必须留到最后一天(31号)来做。
为了更有章法和结构,按照我们今年9月发布的《智能化软件开发落地实践指南》中的框架来回顾,但不同的是,本文不局限于“开发”,还会囊括需求、设计、测试和运维等。


1. 基座(基础大模型)的进展

以OpenAI发布的各类大模型为例,2024年先后发布了Sora视频模、 GPT-4o多模态模型、o1系列推理模型、o3推理模型等,理解能力和推理能力快速成长,如下图所示:

(在数学、程序竞赛、博士水平的科学问题,o1能力远超GPT-4o)

(在通用人工智能AGI成绩上,o3 远超o1)

从中能感受今天AI/大模型技术的高速发展,未来大模型赋能科学研究(AI4S、LLM4S)方方面面,科技进步会加速,甚至会以指数式的发展,未来不可限量,正如OpenAI CEO Sam Altman所说,18个月之后,人工通用智能AGI就会到来,希望我们要做好准备。

详细见后面附录:2024年模型大事记

参考文章:


2. 代码、测试等专用大模型的进展

针对软件研发场景的专业化大模型不断涌现,内置代码理解、软件架构知识库,显著提升对复杂项目的分析与生成能力。不少企业在努力训练、优化自己的代码大模型,例如华为的PanGu-Coder、蚂蚁代码大模型CodeFuse等,但总体看代码大模型基本还是沿着2023年路径进化,这部分还可以参考下面这张2023年总结的图。

以及对代码大模型的分类:

也出现一些新的代码大模型,大家可以关注一下:

  • DeepSeek-Coder-V2
  • StarCoder 2 + The Stack v2
  • GRACE:Graph增强型漏洞检测大模型
  • LLaMA-Reviewer:自动化代码审查与微调
  • Granite Code Models

    测试大模型国内企业也有一些探索,这里举几个例子:
  • 华为测试自动化脚本生成大模型,实现在智能测试领域应用的突破,实现了分钟级新特性编写,并能基于用例描述生成测试脚本。
  • 腾讯测试用例生成场景大模型,可以生成测试场景和测试用例,提升测试用例质量及编写效率。
  • 邮储银行开发“研发测试大模型”,基于此,打造端到端智能研发方案“智能研发测试助手”。


运维大模型,可以参考这篇文章:大模型时代的AIOps


3. 智能体、RAG技术、提示工程、数据治理等方面的进展

2024年是智能体(AI agent)的元年,这一年发展很快,说来话长,可以归为:大模型驱动的“广泛自动化”Agent:以 Devin、OpenDevin 为代表的自动化 Agent,能够在容器内执行整套任务流程:从解析 issue 到生成代码再到运行测试,一般还会内置一个“工具管理器”或“知识库”:
  • 当 Agent 遇到特定框架或第三方库时,会优先查询系统内置的框架文档或最佳实践案例;
  • 通过扫描项目依赖和文件结构构建“项目知识库”、对复杂项目的结构和依赖建立知识库索引,再结合大模型的自然语言理解能力,对 issue、PR 请求等进行分析,确保在生成代码或执行命令时能够调用正确的版本与命名空间,并做出较优的技术决策。
  • 在执行单元测试或 UI 自动化测试时,Agent 调用对应的测试插件生成测试脚本,可自动执行后再将结果反馈给大模型进行迭代,对失败用例进行修复或重新生成;
  • 研发流程中的编译、部署、日志分析等环节也可通过不同插件集成,从而形成“模块化”任务编排。
并实现“局部智能化”Agent 的纵深场景:在阿里内部已经上线了帮助自动解决编译问题、代码冲突的功能,并基于内部平台(Aone、Code 等)强制生成描述(Commit Message / Code Review 总结),逐步沉淀了设计文档与代码变更之间的映射关系:
  • 通过大语言模型关联“需求 - 设计 - Code Review - 提交记录 - 测试结果”这条链路,让系统能够基于业务上下文来评估某段代码是否符合更高层的需求意图;
  • 对于测试场景,自动生成的单元测试、接口测试也会参考项目的“历史缺陷数据”,在生成脚本时更有针对性。
我们更可以用SWE-Bnech的结果来展示其进步。在今年4月,采用GPT4+RAG技术,解决GitHub上面真实的问题,成功率只有2.8%(倒数第一行),非常低。但同样的模型(GPT-4),配上Agent,成功率大幅提升到22.4%(倒数第7行)。现在一般会采用多agent协同工作,12月最新成绩为55%,可以解决一大半问题了,这一年进步很快

(详见:https://www.swebench.com/)

也可以参考下列文章:


在数据治理、长文本处理等相关方面,2024年还取得的进展有:

  • AI合成数据技术突破:代表技术如Hugging Face Cosmopedia v0.1、UltraFeedback,为“人类数据很快耗尽”难题提供了有效解决方案,从数据角度支撑大模型“Self-Improve”能力
  • 可解释性技术突破:代表技术如稀疏自编码器(Sparse Autoencoders),将大模型内部组件分解成可解释特征,透明化大模型“黑盒子”,增强大模型可信度和安全性
  • 长窗口大语言模型技术突破:代表技术如YaRN、LongRoPE、KimiChat,将大模型的窗口拓宽至百万甚至千万词元,使其可以处理更长输入,智能体的多模态记忆可以更长,可以处理更复杂的任务


4. AI编程工具的进展

大量AI插件出现,以VS code插件为例:

但更重要的进展是:出现了深度定制的AI Native IDE ,如最近火的Cursor,今天还和硅谷的一个朋友交流,之前他们用GitHub copilot,代码采纳率只有30%,现在换了Cursor,代码采纳率提升了一倍,到达了60-70%,效果非常明显。
可以参考:推荐一款强大的开源编程助手Cursor
除了Cursor,还有Windsurf / MarsCode 等独立 IDE,它们都在内置代码生成模型的基础上,加入了对“软件架构知识、”“代码上下文”的深度理解支持。它们在 VSCode 技术栈上二次开发,一方面保留了 VSCode 丰富的插件生态,另一方面可以在底层为大模型提供额外的“项目级上下文”和“框架级知识库”:
  • 通过扫描项目依赖、目录结构、配置文件与历史提交记录,构建对项目整体概念的“索引”
  • 对常见主流框架(如 Spring Boot、Django)的核心类和最佳实践进行梳理,用于在生成代码和进行重构时做出更符合框架约定的决策。
  • 在代码智能补全时,IDE 会调用当前项目需要的插件(如数据库查询)以匹配字段名、索引规范等,从而生成更可靠的实现代码;
  • 当开发者执行性能测试或自动化测试时,IDE 能整合性能监控插件输出结果并以自然语言形式向大模型返回,以协助进一步优化或调参。
国内编程助手的情况,可以查看我们年底发布的《2024年软件研发应用大模型国内现状调查报告》以及即将发布的文章


5. 智能化研发环境、平台、流程等方面的进展
越来越多的研发团队采用“插件式”方法,将基础大模型接入不同的专业插件(如数据库查询分析、UI 自动化测试、性能监控等),形成灵活的模型生态。如阿里内部研发平台(Aone)的智能辅助工具Aone Copilot ,支持在其插件体系中融合多种业务能力,如搜索、业务需求管控等。
  • 在 Copilot 中提供可扩展的“Agent/插件”接口,让不同业务线沉淀自有知识或工具(如数据库查询、日志检索、RAG 搜索等);
  • 利用 Aone 平台与企业内研发流水线的打通能力(Issue、Code Review、测试环境、发布系统等),实现从需求到上线的闭环协作;
  • 在生成代码、进行测试或部署脚本时,Copilot 会调用对应插件并结合上下文信息(如项目结构、配置文件、业务“暗语”等),提升自动化程度和准确性。
通过API或RPC接口,将大模型能力与CI/CD流水线、DevOps平台、Issue管理工具打通,以应对不同阶段、不同角色的需求。
在一些先进的企业实践中,大模型不仅能“生成解决方案”,还可结合在线学习与反馈回路进行自适应优化,例如:
  • 为了让 Copilot 提升对业务场景的理解与适配度,阿里推出了“Extensions”机制,让不同业务线将“垂直知识”接入 Copilot 插件,从而构建面向某一垂直领域的知识库。
  • 当开发者针对一个特定功能提交需求或 Issue,Copilot 先根据现有知识库和大模型生成初步解决方案;
  • 随后由测试用例与业务线反馈拼接成“反馈回路”,若结果不符合预期,Copilot 会自动记录失败原因(如编译错误、功能缺失、测试不通过),并再次调用模型进行修正或生成新方案;
  • 这些“失败案例”或“改进过程”会被归档,逐渐形成更丰富的域内知识,让后续类似场景得到更准确的响应。
  • 可以实现在一个独立容器内进行“在线执行”,并收集执行日志、测试报告、编译状态等反馈信息,提供给模型再次生成或修复方案,从而实现自适应的自动化流程。
可以参考文章:大模型时代的软件研发:正确的打开方式

明后天再写一篇“展望2025年的智能软件工程”


附录:2024年模型大事记

OpenAI发布的各类大模型

  • 2月16日 - Sora视频模型发布:能够依据简短文本提示或一张静态图片生成长达60秒的高清视频,涵盖多角色、不同动作和背景细节等,几乎达到电影级逼真场景。
  • 5月14日 - GPT-4o多模态模型推出:该模型集文本、音频、视觉于一身,展现出强大且丝滑的多模态能力。
  • 6月 - 基于GPT-4的CriticGPT模型发布,旨在找出ChatGPT代码输出错误、辅助改进,并更好地帮助工程师评估ChatGPT响应质量和准确性。
  • 9月 - o1系列推理模型推出,包括o1、o1-preview和o1-mini三款,这些模型通过模仿人类的推理过程,能够在回答前进行更深入思考,从而处理更复杂任务。
  • 10月 - 连续时间一致性模型sCM推出,将开启视频、图像、三维模型、音频等实时、高质量、跨领域的生成式人工智能新阶段。
  • 12月5日至20日 - OpenAI 12场直播,首日发布满血版o1模型,期间期待许久的Sora Turbo正式发布(用户可使用多种工具进行视频编辑等操作),最终以官宣新一代推理模型o3收官。


除了OpenAI发布的大模型,Anthropic、Google、Meta、xAI等也发布了大模型,主要有:

1)Anthropic

  • 6月:发布Claude 3.5系列模型,其中Claude 3.5 Sonnet在阅读、编码、数学和视觉等6个主要AI基准测试中排名第一,超越GPT-4o,
  • 10月:推出 Claude 3.5 Haiku,性能进一步提升,在多项测试中超越GPT-4o mini,尤其在编程任务上表现出色
  • 11月:发布开源模型上下文协议(MCP),旨在打破大模型数据孤岛,实现与外部数据源的无缝集成。

2)Google

  • 2月:将AI助手Bard更名为 Gemini,并推出 Gemini Advanced,支持多模态任务处理。
  • 5月:发布 Gemini 1.5 Pro,支持百万Token上下文窗口,成为当时最大的生成式AI模型之一。
  • 12月:推出 Gemini 2.0 Flash,专注于流媒体分析和实时操作指导,提升多模态能力。

3)Meta

  • 6月:发布 Llama 3.1,进一步优化了长序列建模效率,并在多项任务中表现优异。
  • 10月:宣布开发AI搜索引擎,支持生成式AI摘要功能,增强搜索体验。
  • 12月:推出 Llama 3.2,在推理(尤其在数学和编码)任务中表现突出。

4)xAI(Elon Musk)

  • 7月:启动 全球最大AI训练集群,配备10万颗NVIDIA H100 GPU,用于训练Grok 2.0模型。
  • 12月:发布 Grok 2.0,进一步提升生成式AI的能力,并计划在2025年扩展训练集群规模。


回到国内,发布了哪些大模型?让我们快速浏览一下:

以下是2024年国内主要基础大模型的进展,按时间线整理:

1月

    智谱清言发布新一代基座大模型 GLM-4,性能全面提升60%,单次处理文本达300页,支持复杂指令理解和规划
    百川智能发布了超千亿参数的大语言模型Baichuan 3,在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中展现了较强的能力

3

  • Kimi智能助手:支持200万字超长无损上下文,长文本处理能力领先,应用场景从长文章分析扩展到AI陪伴和智能体


5月

    • 字节跳动宣布豆包大模型正式开启对外服务,计划开启商业化。豆包大模型在2024年11月的全球月活跃排行榜上,月活跃用户达到了5998万,位列全球第二

    • 阿里云发布了性能大幅提升的通义千问2.5,在中文能力上更是领先业界,在OpenCompass基准测试中得分追平了GPT-4 Turbo,成为国产大模型中首个达到此成就的模型

    • 百川智能基于最新一代基座大模型Baichuan 4,推出首款AI助手“百小应”

    • 昆仑万维集团宣布“天工AI”的每日活跃用户已超过100万


    6月

    • 腾讯混元大模型升级为混合专家模型(MoE)架构,参数规模达万亿,擅长处理复杂场景和多任务场景,正式上线视频生成功能并实现开源,参数量达130亿,并在综合评测中呈领先趋势


      9月

    • 讯飞星火:发布 讯飞星火4.0 Turbo,在国内外14项主流测试中实现9项第一,成为首批通过国家标准认证的大模型之一

    • 通义千问开源模型下载量突破4000万,Qwen系列衍生模型总数超过7.43万个,成为世界最大的生成式语言模型族群

    • 昆仑万维宣布正式推出国内首款具备中文逻辑推理能力的天工大模型4.04o版(Skywork 4o),具有高效响应速度、支持实时打断、情感理解与个性化记忆、可定制的声音风格、有能力支持多语言的功能。



    10月

    • Kimi探索版:上线具备AI自主搜索能力,一次搜索可精读500个页面,进一步拓展长文本处理能力28。

    • 百川智能:发布 Baichuan4-Finance,专注于金融场景,提升整体可用性。


    12月

    • 腾讯混元大模型:上线视频生成功能并开源,参数量达130亿,被称为“腾讯版Sora”,支持超写实画质和流畅视频生成28。

    • DeepSeek:发布 DeepSeek-R1-Lite,强调逻辑思考能力,进一步优化推理性能。



    软件工程3.0时代
    由于大模型(LLM)正在改变着千行百业,软件工程(SE)更是首当其冲,迎来软件工程3.0新时代:模型驱动研发、模型驱动运维。本公众号将致力于研究SE3.0时代的软件研发新范式、理论与方法,介绍SE3.0时代的工具与实践。
     最新文章