国内LLM落地软件研发的现状
LLM更适合编程工作吗?
代码生成的正确打开方式
软件研发终极打开方式
未来展望
在软件研发整个生命周期(从需求、设计到编程、测试等),国内团队都有很好的应用,有近35%-50%的团队都取得比较显著的效率提升(效率提升20+%),目前在编程环节LLM应用效果最好。
那80%的时间在干什么?是不是有很大的优化空间?(这不属于AI的问题,但值得开发人员反思,在需求建模、设计上的投入如何?是不是浪费了太多时间在沟通、开会上?) 那80%的时间所干的工作,不能应用LLM吗?
缺少高质量的(业务/研发)训练数据 缺少机器学习和大模型训练人才 缺少算力或云计算平台 目前研发人员的应用水平不行 安全、隐私担忧 (业务/研发)数据数量不足 缺少大模型部署的能力
二、LLM更适合编程工作吗?
正如调查结果显示,在LLM实际应用过程中,“主要用于代码生成,提升研发效率”、“用于代码检查、代码解释等,提升代码质量”排在企业(团队)应用的第一、二位,而且各个大厂也都开发了基于LLM的编程助手,如腾讯云AI代码助手、盘古编程助手、文心快码、通义灵码等,这说明,在LLM应用上,企业首先、重点投入在编程(开发)环节。
1. LLM适合编程的三大理由
高成本的开发人员:软件公司的主要成本是人力成本,而人力成本中开发人员的成本是大头,例如开发人员和测试人员之比常常是3:1、4:1,更高的是5:1到10:1,所以企业首先想利用LLM来降低开发人员的成本或提高开发人员的工作效率。
高质量的代码数据:编程领域拥有大量高质量的公开代码库,企业内部代码的质量也是有保证的,毕竟这些代码已通过测试、得到实际运行的验证,为LLM的训练提供了丰富的、高质量的语料,从而能训练出高质量的代码大模型。
编程语言也是一种语言:从语言模型的角度看,编程语言的语法和结构可以被视为自然语言的特殊形式,具有规则性和一致性,和大语言模型(LLM)一脉相承。
2. LLM的局限性——幻觉问题
数据产生的幻觉:由于错误的数据源、知识边界的限制或数据利用不当,模型可能生成不正确的代码。 训练相关的幻觉:预训练过程中的缺陷、对齐问题和能力不匹配可能导致模型生成的代码不符合预期。 推理相关的幻觉:解码策略的缺陷和上下文注意力不足可能导致模型生成错误的或不完整的代码。
数据层面:增强数据质量,明确知识边界,确保模型使用正确的数据源。 训练层面:改进预训练过程,优化对齐目标,提升模型对编程任务的适应性。 推理层面:增强解码策略,加强上下文信息的利用,提高模型生成代码的准确性。
三、代码生成的正确打开方式
2. 代码生成的正确打开方式
第一步:让大模型思考如何验证要实现的功能,先想清楚:如何全面验证所实现的功能。即利用LLM生成验证点,再基于验证点生成测试代码。 第二步:生成代码。基于测试代码,让LLM生成能够通过测试的产品代码,确保函数能够正确处理各种约束条件和边界情况。 第三步:验证代码。运行测试,确保代码通过所有的测试用例。
(不是4个测试用例,而是12个测试用例。这也说明,之前基于代码生成单测的质量明显不足。)
(基于上述测试代码生成的产品代码考虑了各种情况,具有很好的容错性、可靠性,才是高质量的)
过去手工完成代码编写(没有单元测试):一周 过去手工做TDD或完成“代码编写+充分的单测”:两周 今天LLM生成单测(+人工检查)+再基于测试代码生成产品代码(+人工检查/调试):2天
四、大模型时代软件研发的落地方式
LLM是大语言模型,特别适合文字处理的工作,今天LLM翻译已能达到一次性可用的地步,天下无敌。LLM在自然语言处理方面的优势,在借助智能体(AI agent)和RAG技术,使其非常适合用于需求的采集、分析和定义。通过与用户的交互,LLM可以将模糊的需求转化为明确的用户故事(User Story)和验收标准。
2. ATDD:验收测试驱动开发
定义用户故事及验收标准:与用户或需求方协作,利用LLM将需求转化为清晰的用户故事和验收标准,例如采用Given-When-Then(GWT)格式。 生成测试代码:基于验收标准,利用LLM自动生成验收测试代码(通常是集成测试或端到端测试)。 生成应用代码:在测试代码的指导和约束下,利用LLM生成能够通过所有验收测试的应用代码,包括前端和后端的代码。
由LLM生成需求及其验收标准:明确用户需求,生成清晰的验收标准,相当于进一步澄清需求,而且可以做得又快又好。 由测试大模型或盘古研发大模型生成测试脚本:根据验收标准,自动生成测试用例和脚本,确保功能满足需求。 由代码大模型或通义大模型(不同于测试生成的大模型)生成程序/产品代码:在测试的指导下,生成高质量的代码。 然后让生成的测试和生成的代码相互验证、相互博弈,输出更高质量的测试代码和产品代码。例如,测试运行之后,可以发现代码的问题,将错误信息反馈给代码大模型,让它重新生成产品代码。代码LLM也能发现测试的不足,例如某些代码未被覆盖,把未覆盖的信息反馈给测试大模型,让测试大模型补充测试用例、提升测试覆盖率。
开发和测试有了同源:高质量的需求,但又相互独立工作,且以测试(质量)为前提进行,代码一次性生成的成功率很高,代码采纳率得到大幅度提升。
验证点、断言的生成有了明确的、正确的需求支撑,容易生成。现有的机器学习方法能够提升断言的成功率,但极其有限。
开发效率提高:从需求到测试、再到开发,上下文自然生成,形成流水线操作,自动化程度更高,人工操作工作量显著降低。
代码质量提升:严格的测试驱动确保了代码的可靠性和稳定性。
所以说ATDD是大模型时代软件研发的终极打开方式。
五、未来展望
随着AI技术的不断发展,计算机将更深入地理解现实世界,推动软件研发进入智能化时代。从LLM在编程中的应用,到UTDD和ATDD开发模式的引入,再到未来多智能体的协同开发,AI正在重塑软件开发的每一个环节。
1. 多智能体协同开发软件
未来的软件开发将不再只是人类开发者的专属领域。多智能体系统(Multi-Agent Systems)将在开发过程中扮演重要角色。智能体/数字人和开发人员共同协作,实现更高效、更智能的软件开发。
2. 自主智能的软件研发平台
作为软件行业从业人员,我们需要不断学习,拥抱新技术,与AI协同工作,积极探索和实践,找到大模型时代软件研发的正确打开方式,以应对挑战,抓住机遇,实现更高效、更智能的软件开发。
第5届AI+研发数字峰会(AiDD深圳)圆满落幕
(关注本公众号,输入 “LLM正确打开方式” 获得本次演讲PPT)