QECon主旨演讲之一：代码大模型改进的双引擎:数据增强和知识增强

科技 2024-09-23 18:03 上海

9月20 - 21日，第11届QECon全球软件质量与效能大会在上海落幕，大会聚集数百位专家和千余人从业者，顺应软件质量与效率前沿的发展方向，内容涵盖多个前沿话题，带领听众洞察前沿技术趋势，共筑品质内容，推动质量提升与效率优化。（10月25-26日，QECon北京站敬请期待：www.QECon.net）

在QECon上海站第一天上午主会场 Keynote Speech环节，复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任 肖仰华教授 率先为大会带来重磅演讲——《代码大模型改进的双引擎：数据增强和知识增强》。肖教授深入剖析了大模型技术在代码生成与优化领域的应用，探讨了数据增强和知识增强的双引擎驱动如何有效提升代码质量，并且分享了其在具体实践中的经验与挑战，赢得了与会者的高度关注与热烈掌声。

下面就附上豆包大模型对肖老师演讲内容的要点总结，最后再附上肖老师分享的PPT文件（PDF版）。

该演讲稿主要探讨了代码大模型的相关内容，包括认识代码大模型、训练代码大模型、优化代码大模型特定能力以及使用代码大模型等方面，具体要点如下：

认识代码大模型：

代码语言本质：介于形式语言与自然语言之间，包含可执行代码、注释和日志信息等，具有苛刻的正确性要求，与自然语言不同，主要关心正确与否，追求精确。
大模型的挑战：存在幻觉问题、先天能力不足、训练数据规模和质量有缺陷、训练不充分、实际任务复杂、指令复杂且输入有噪音、知识匮乏等问题，且难以满足代码的严格性要求，在理解代码中的复杂结构、处理代码依赖和进行代码评估等方面存在困难。
软件工程的系统性：涉及众多环节，代码大模型不仅需要支撑编码，还需胜任其他角色，如分析师、程序员、架构师、测试员等，需要建立健全面向软件工程各环节的能力体系。
数据的重要性：数据是软件编写组织的基础，现有代码大模型缺乏对数据的认知，人工评估准确率低，代码大模型需要提升对于数据的理解水平。
Debugging 的重要性：程序员通常很难一次性编码完整无误的代码，Debugging 有助于定位、分析、修复和测试错误，大模型缺少 debugging 能力很难调试代码，需要通过强化学习增加代码大模型多轮交互、试错反馈的能力。
人机协作：人是软件工程的核心要素之一，代码大模型应与人深度协同，融入软件开发过程中，协助人实现软件高效率高质量开发。
风险管控：代码大模型需要有风险管控能力，对低风险代码进行修正，对高风险代码设置防护，对用户警示中风险行为。
版本兼容性：版本不兼容问题是软件工程中的重大问题，代码大模型需要能处理代码及其依赖中的版本兼容性。

训练代码大模型：

高质量数据是关键：不重复、完整、正确、干净和通用的代码库是构建代码大模型的关键，高质量数据应类型多样，包括代码、概念、技巧、场景、风格、编程练习题等，利用高质量数据训练和微调的小模型可超越大模型，对训练语料进行筛选，如 GPT - 4 标注训练一个分类器。
低资源代码预训练：当前代码大模型对低资源代码的支持严重不足，需要增强对低资源语言的支持，各种编程语言的数据分布很不平衡，Lua 等代码占比较小。
用什么数据训练：代码文本预训练模型和图预训练模型相结合，提升模型的理解能力。
用什么任务训练：包括代码补全、代码生成、代码翻译、代码填空等自监督任务，以及面向领域定制的预训练任务，如地理理解表征、用户行为预测、乱序 Query 理解等，能够有效实现领域持续预训练。
指令的来源：可以基于翻译的代码数据合成，将高资源代码翻译成低资源代码，并利用单元测试保证翻译代码的正确性；从领域文档构造任务指令，利用领域知识指导构建指令微调数据集；使用大模型生成指令，通过自己生成编程题和方案构造训练数据。
指令的评价：基于 SOLO 的指令评价，指令数据的多认知层次评价和构建是推动通用大模型领域化的关键。
指令的配比：基于教育分类法的指令配比，小模型仍然是大模型训练数据与指令处理的主要形态，指令数据的合理分类和优化配比是提升大模型能力的重要思路。
统一大模型：行业大模型并非只是一个大一统模型，一通多专是其基本形态，以语言为核心的大模型与若干非语言的大模型相结合，如预训练脚本命令语言模型和领域知识增强的日志语言模型等。

优化代码大模型特定能力：

面向 Debug 的自我纠正：复杂程序难以一次性正确生成，需要依据反馈信息（简单反馈、单元测试）与代码解释等进行代码纠错，单元测试的反馈优于简单反馈，理解代码用途同时结合单元测试拥有更好的表现。
自我纠错数据集的构建与训练：构造自我纠错指令数据集，将自我纠错内化为模型能力，摆脱对于精心设计的提示的依赖。
LLM 的自我完善能力：完善初步结果是人类的一项重要能力，构建持续完善的指令数据集，自动识别更好的生成答案。
合成 “自我完善思考” 数据集：现有大模型无法通过 “思考再完善” 提升回答质量，合成自我完善思考数据集并微调，在绝大多数任务中，通过在模型生成答案前增加一次 “思考”，模型表现显著提高。
基于强化学习的工程师反馈：根据运维场景设计反馈机制和奖励函数，优化运维领域大模型。
基于 “执行环境反馈 + 大模型修正 “的优化：使用来自代码执行环境的结果反馈，增强自研小型专业模型的命令生成能力，使其具备自我修正能力。
代码检索能力优化：常见代码检索任务包括 NL2Code、Code2Code 和 Code Context Retrieval，需要统一的代码检索模型，通过代码逻辑增强（基于 LLM 生成伪代码作为中间模态）和训练策略优化（多任务学习）来实现。

使用代码大模型：

降低大模型的认知负载：优化提升工程，包括提供清晰的上下文、明确的指令、思考过程的提示、足够的背景知识等，通过协作避免大模型从事困难任务。
逐步求精的生成策略：对于复杂算法，程序员通常先设计框架再补充算法细节，设计从粗到细的多阶段生成框架，通过抽象语法树对目标分层生成。
Planning + COT 解决复杂意图理解：大语言模型难以理解复杂的编程意图，通过对复杂意图拆解并规划求解步骤，利用大模型的 COT 能力求解问题。
多 Agent 协作：设计导师、执行者和评估者三种智能体专家角色，用于生成日志的文本描述，降低从业门槛。
大小模型协同：基于级联策略的大小模型协同框架，基于贝叶斯推断的模型不确定性估计，小模型在不确定时才调用 LLM，降低成本，基于错误案例推理增强策略，提高大模型的推理性能。
文档检索增强输出的准确性：检索相关信息，提升大模型泛化性与时效性，对于 NL2Code 问题，基于 “检索 + 生成” 框架，检索代码相关文档再生成最终的代码。
检索增强的代码生成：检索 - 复用 - 改写是人类程序员常用的方式，但 LLM 存在固执性，将检索代码进行语义保持、形式变异改写，基于抽象语法结构树解析检索代码，实现不改变语义的变换，并选取最优生成结果。
保持风格一致的代码补全：利用风格判别器和风格迁移模型，对功能正确的补全代码进行风格判别和迁移，以实现风格一致的代码补全。

总之，生成式大模型已成为代码智能化的重要底座，发展代码大模型需要充分考虑其与自然语言的异同，从数据治理、指令合成、能力优化、应用评测等角度全面提升其能力。

------------------ End --------------------

关注本公众号，输入“CLLM双引擎”，下载共享版PPT

更多关注，请点击 “阅读原文”

软件工程3.0时代

由于大模型（LLM）正在改变着千行百业，软件工程（SE）更是首当其冲，迎来软件工程3.0新时代：模型驱动研发、模型驱动运维。本公众号将致力于研究SE3.0时代的软件研发新范式、理论与方法，介绍SE3.0时代的工具与实践。

最新文章

敏捷教练会悲伤吗？Agile Alliance已并入PMI

展望2025年智能软件工程

共促软件行业智能化转型，智能化软件开发产业图谱编制正式启动

2024年，大模型驱动的智能软件研发有哪些进展？

汽车将进化成为智能时代的空间机器人

大模型时代的软件工程教育，路在何方？

OpenAI 将一场发布会改为12天直播：Day 1发布了两大产品chatGPT pro和o1正式版

想了解智能化软件工程现状？快来参与 2024 年度调研吧！

做正确之事：软件研发的成功之道

2024 年 12 个最佳UI自动化测试工具推荐

大模型下半场：如何开发出杀手级的工具或应用？

从自动化软件测试到自主测试，还差几步？

错了，打开“深度思考”，的确做对了

让DeepSeek最新推理模型R1-lite做一道数学题，结果走进死胡同了！

重磅消息：Grok-3终结了黎曼猜想？而却因此被迫暂停训练

Tong test：AGI测试评级的标准与平台

“软件质量报道” 下决心迎接 “软件工程3.0时代”

大模型时代的软件研发：正确的打开方式

十大生成式 AI 趋势和20家有前途的初创公司

谷歌DORA：2024年加速DevOps状态报告

AiDD峰会的“AI+测试”议题全面亮相

神了：Claude 3.5能像人一样使用计算机，而且在编程、软件研发上进步显著

邀您共赴年末盛会｜QECon北京站议题出炉

深度剖析：字节跳动大模型训练被实习生“投毒”事件

当AI接连不断赢得诺贝尔奖：是人类的终点还是新的起点？

从木匠到AI教父：Geoffrey Hinton的传奇之路

历史性里程碑：诺贝尔物理学奖首次授予AI学者

两张架构图，让你感受一下大模型的惊艳

最新！明天上交所全网测试

A股沸腾，系统被买崩了？压力测试没做好？

Sam Altman昨天发文：AI 奇点近在咫尺，我们将进入“智能时代”

QECon主旨演讲之一：代码大模型改进的双引擎:数据增强和知识增强

强化学习中的自博弈（Self-play）会开启大模型的“后训练”时代？

chatGPT o1 preview用一个小时干完了博士一年写的代码

软件工程3.0的解释

OpenAI o1 新模型在解决博士级别的科学问题上超越人类

AI 大模型：软件研发的革新力量与未来展望

面向开发人员的 12款强大的 AI 工具（下）

面向开发人员的 12个款强大的 AI 工具（上）

再次扬帆起航：启动2024年「软件研发应用大模型」的调查

推荐一款强大的开源编程助手Cursor

AiDD2024 「AI+研发数字峰会」北京站圆满收官！

由一份财报解读，给您参加AiDD峰会的四大理由

AI代替了我的右手，而且我再也回不去了！

AI+人访谈录：半路入行找到“人生坐标”

刚刚，与GPT-4o相媲美的开源大模型Llama 3.1发布了！

万字长文技术分析：CrowdStrike导致大规模系统崩溃事件

测试三大难题之一 “测试有效性” 的应对策略

软银孙正义：10年内，超级智能ASI水平将是人类的10000倍

测试三大难题之一 “测试充分性” 的应对策略

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉