1. 基座(基础大模型)的进展
以OpenAI发布的各类大模型为例,2024年先后发布了Sora视频模、 GPT-4o多模态模型、o1系列推理模型、o3推理模型等,理解能力和推理能力快速成长,如下图所示:
(在数学、程序竞赛、博士水平的科学问题,o1能力远超GPT-4o)
(在通用人工智能AGI成绩上,o3 远超o1)
从中能感受今天AI/大模型技术的高速发展,未来大模型赋能科学研究(AI4S、LLM4S)方方面面,科技进步会加速,甚至会以指数式的发展,未来不可限量,正如OpenAI CEO Sam Altman所说,18个月之后,人工通用智能AGI就会到来,希望我们要做好准备。
详细见后面附录:2024年模型大事记
参考文章:
2. 代码、测试等专用大模型的进展
针对软件研发场景的专业化大模型不断涌现,内置代码理解、软件架构知识库,显著提升对复杂项目的分析与生成能力。不少企业在努力训练、优化自己的代码大模型,例如华为的PanGu-Coder、蚂蚁代码大模型CodeFuse等,但总体看代码大模型基本还是沿着2023年路径进化,这部分还可以参考下面这张2023年总结的图。
以及对代码大模型的分类:
也出现一些新的代码大模型,大家可以关注一下:
DeepSeek-Coder-V2 StarCoder 2 + The Stack v2 GRACE:Graph增强型漏洞检测大模型 LLaMA-Reviewer:自动化代码审查与微调 Granite Code Models 测试大模型,国内企业也有一些探索,这里举几个例子: 华为测试自动化脚本生成大模型,实现在智能测试领域应用的突破,实现了分钟级新特性编写,并能基于用例描述生成测试脚本。 腾讯测试用例生成场景大模型,可以生成测试场景和测试用例,提升测试用例质量及编写效率。 邮储银行开发“研发测试大模型”,基于此,打造端到端智能研发方案“智能研发测试助手”。
运维大模型,可以参考这篇文章:大模型时代的AIOps
3. 智能体、RAG技术、提示工程、数据治理等方面的进展
当 Agent 遇到特定框架或第三方库时,会优先查询系统内置的框架文档或最佳实践案例; 通过扫描项目依赖和文件结构构建“项目知识库”、对复杂项目的结构和依赖建立知识库索引,再结合大模型的自然语言理解能力,对 issue、PR 请求等进行分析,确保在生成代码或执行命令时能够调用正确的版本与命名空间,并做出较优的技术决策。 在执行单元测试或 UI 自动化测试时,Agent 调用对应的测试插件生成测试脚本,可自动执行后再将结果反馈给大模型进行迭代,对失败用例进行修复或重新生成; 研发流程中的编译、部署、日志分析等环节也可通过不同插件集成,从而形成“模块化”任务编排。
通过大语言模型关联“需求 - 设计 - Code Review - 提交记录 - 测试结果”这条链路,让系统能够基于业务上下文来评估某段代码是否符合更高层的需求意图; 对于测试场景,自动生成的单元测试、接口测试也会参考项目的“历史缺陷数据”,在生成脚本时更有针对性。
(详见:https://www.swebench.com/)
也可以参考下列文章:
在数据治理、长文本处理等相关方面,2024年还取得的进展有:
AI合成数据技术突破:代表技术如Hugging Face Cosmopedia v0.1、UltraFeedback,为“人类数据很快耗尽”难题提供了有效解决方案,从数据角度支撑大模型“Self-Improve”能力 可解释性技术突破:代表技术如稀疏自编码器(Sparse Autoencoders),将大模型内部组件分解成可解释特征,透明化大模型“黑盒子”,增强大模型可信度和安全性 长窗口大语言模型技术突破:代表技术如YaRN、LongRoPE、KimiChat,将大模型的窗口拓宽至百万甚至千万词元,使其可以处理更长输入,智能体的多模态记忆可以更长,可以处理更复杂的任务
4. AI编程工具的进展
通过扫描项目依赖、目录结构、配置文件与历史提交记录,构建对项目整体概念的“索引”; 对常见主流框架(如 Spring Boot、Django)的核心类和最佳实践进行梳理,用于在生成代码和进行重构时做出更符合框架约定的决策。 在代码智能补全时,IDE 会调用当前项目需要的插件(如数据库查询)以匹配字段名、索引规范等,从而生成更可靠的实现代码; 当开发者执行性能测试或自动化测试时,IDE 能整合性能监控插件输出结果并以自然语言形式向大模型返回,以协助进一步优化或调参。
在 Copilot 中提供可扩展的“Agent/插件”接口,让不同业务线沉淀自有知识或工具(如数据库查询、日志检索、RAG 搜索等); 利用 Aone 平台与企业内研发流水线的打通能力(Issue、Code Review、测试环境、发布系统等),实现从需求到上线的闭环协作; 在生成代码、进行测试或部署脚本时,Copilot 会调用对应插件并结合上下文信息(如项目结构、配置文件、业务“暗语”等),提升自动化程度和准确性。
为了让 Copilot 提升对业务场景的理解与适配度,阿里推出了“Extensions”机制,让不同业务线将“垂直知识”接入 Copilot 插件,从而构建面向某一垂直领域的知识库。 当开发者针对一个特定功能提交需求或 Issue,Copilot 先根据现有知识库和大模型生成初步解决方案; 随后由测试用例与业务线反馈拼接成“反馈回路”,若结果不符合预期,Copilot 会自动记录失败原因(如编译错误、功能缺失、测试不通过),并再次调用模型进行修正或生成新方案; 这些“失败案例”或“改进过程”会被归档,逐渐形成更丰富的域内知识,让后续类似场景得到更准确的响应。 可以实现在一个独立容器内进行“在线执行”,并收集执行日志、测试报告、编译状态等反馈信息,提供给模型再次生成或修复方案,从而实现自适应的自动化流程。
明后天再写一篇“展望2025年的智能软件工程”
附录:2024年模型大事记
OpenAI发布的各类大模型
1)Anthropic
6月:发布Claude 3.5系列模型,其中Claude 3.5 Sonnet在阅读、编码、数学和视觉等6个主要AI基准测试中排名第一,超越GPT-4o, 10月:推出 Claude 3.5 Haiku,性能进一步提升,在多项测试中超越GPT-4o mini,尤其在编程任务上表现出色。 11月:发布开源模型上下文协议(MCP),旨在打破大模型数据孤岛,实现与外部数据源的无缝集成。
2)Google
2月:将AI助手Bard更名为 Gemini,并推出 Gemini Advanced,支持多模态任务处理。 5月:发布 Gemini 1.5 Pro,支持百万Token上下文窗口,成为当时最大的生成式AI模型之一。 12月:推出 Gemini 2.0 Flash,专注于流媒体分析和实时操作指导,提升多模态能力。
3)Meta
6月:发布 Llama 3.1,进一步优化了长序列建模效率,并在多项任务中表现优异。 10月:宣布开发AI搜索引擎,支持生成式AI摘要功能,增强搜索体验。 12月:推出 Llama 3.2,在推理(尤其在数学和编码)任务中表现突出。
4)xAI(Elon Musk)
7月:启动 全球最大AI训练集群,配备10万颗NVIDIA H100 GPU,用于训练Grok 2.0模型。 12月:发布 Grok 2.0,进一步提升生成式AI的能力,并计划在2025年扩展训练集群规模。
3月
Kimi智能助手:支持200万字超长无损上下文,长文本处理能力领先,应用场景从长文章分析扩展到AI陪伴和智能体
字节跳动宣布豆包大模型正式开启对外服务,计划开启商业化。豆包大模型在2024年11月的全球月活跃排行榜上,月活跃用户达到了5998万,位列全球第二。
阿里云发布了性能大幅提升的通义千问2.5,在中文能力上更是领先业界,在OpenCompass基准测试中得分追平了GPT-4 Turbo,成为国产大模型中首个达到此成就的模型
百川智能基于最新一代基座大模型Baichuan 4,推出首款AI助手“百小应”
昆仑万维集团宣布“天工AI”的每日活跃用户已超过100万
6月
腾讯混元大模型升级为混合专家模型(MoE)架构,参数规模达万亿,擅长处理复杂场景和多任务场景,正式上线视频生成功能并实现开源,参数量达130亿,并在综合评测中呈领先趋势
讯飞星火:发布 讯飞星火4.0 Turbo,在国内外14项主流测试中实现9项第一,成为首批通过国家标准认证的大模型之一
通义千问开源模型下载量突破4000万,Qwen系列衍生模型总数超过7.43万个,成为世界最大的生成式语言模型族群。
昆仑万维宣布正式推出国内首款具备中文逻辑推理能力的天工大模型4.04o版(Skywork 4o),具有高效响应速度、支持实时打断、情感理解与个性化记忆、可定制的声音风格、有能力支持多语言的功能。
10月
Kimi探索版:上线具备AI自主搜索能力,一次搜索可精读500个页面,进一步拓展长文本处理能力28。
百川智能:发布 Baichuan4-Finance,专注于金融场景,提升整体可用性。
12月
腾讯混元大模型:上线视频生成功能并开源,参数量达130亿,被称为“腾讯版Sora”,支持超写实画质和流畅视频生成28。
DeepSeek:发布 DeepSeek-R1-Lite,强调逻辑思考能力,进一步优化推理性能。