【大模型应用落地之规划AI数据中心系列】· 大模型应用落地路径顶层设计
一、大模型在软件交付领域内的运用
近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器智能的边界,展现出通用人工智能的“曙光”,尤其在软件交付领域,将传统的运维能力、测试能力、研发能力进行了拓展,形成了智能运维、智能测试和智能研发等新的方向,相应的大语言模型也逐步细分,如运维大模型、测试大模型和代码大模型。
同时,全球各大科技巨头和创新型企业纷纷围绕大模型加强布局。2018年,谷歌公司提出基于Transformer实现的预训练模型BERT,在机器阅读理解水平测试SQuAD中刷新记录。同年,OpenAI公司发布了第一代生成式预训练模型GPT-1,擅长文本内容生成任务。随后几年,OpenAI相继推出了GPT-2和GPT-3,在技术架构、模型能力等方面进行持续创新。2022年11月,OpenAI发布的ChatGPT在智能问答领域上的表现引起产业界轰动。除了大语言模型,2023年,OpenAI还发布了多模态大模型GPT-4。同期国内大模型的发展也呈现不断加速态势,已经发布了华为“盘古”、百度“文心一言”、阿里“通义千问”、腾讯“混元”和智谱“清言”等200多个通用和行业大模型产品。
二、大模型效果评估体系的必要性
随着大模型产品的不断推出,对大模型的能力进行评测逐渐成为产业界关注的重点。2023年7月《自然》(Nature)发表文章ChatGPT broke the Turing test - the race is on for new ways to assess AI,指出图灵测试已经无法满足大模型的评测要求,应该探索新方法来评估人工智能水平。尤其在软件交付体系,软件交付具备天然的量化评估特征,因此在软件交付过程中所采用的大模型产品,需要评估模型自身和业务场景的切合度,还应从学术和行业的角度对其进行评估。
大模型的评估目标是通过设计合理的评估任务和数据集来对模型的能力进行全面、量化的评估,相关的评估过程应涵盖大模型的测评指标、方法、数据集等多项关键要素,最终为了大模型在落地过程中更好的、更规范地进行实践。
当前,很多行业对所在行业的大模型进行了评估,并覆盖了大模型“建用管”全生命周期的多个阶段,在大模型研发、应用和管理中扮演重要角色,其必要性体现在以下三个方面。
1.指引学术研究的方向
过去一年,在ChatGPT的引领下,国内外的大模型企业也从最初的摸索和尝试,逐渐步入研发和应用的深水区。大模型研发迭代周期正在缩短,OpenAI在一年时间内先后发布ChatGPT、GPT-4、GPT-4V等多款大模型,Meta的LLaMA大模型一经发布便迅速带动了Alpaca、Vicuna等几十个开源大模型,形成“羊驼”开源大模型生态圈。
在如此高的迭代频率下,大模型在实际场景中的实践评估可以验证模型研发效果,快速挖掘大模型当前的不足与痛点问题,推动大模型能力持续提升。并且,大模型评估不应该是开发流程的终点,而应该作为起点驱动模型开发。构建以能力提升为目标的评估策略对大模型发展十分重要,建立“开发、部署、应用、测试”的闭环流程将缩短产品迭代周期。
2.在实际场景中引导大模型产品的选型
近期,商业公司和研究机构等纷纷推出大模型榜单来对大模型的能力进行排序,大模型“打榜”逐渐成为各界关注的话题。国外大模型榜单Open LLM Leaderboard使用4个公开数据集对大模型进行综合测评。加州大学伯克利分校借鉴Elo评分系统推出了Chatbot Arena,采用众包方式对大模型进行匿名、随机化的对战,得到模型的能力分级。斯坦福大学的AlpacaEval使用强大的语言模型(如GPT-4)对大模型进行评估,提升评测效率。
国内的OpenCompass、FlagEval、SuperCLUE、SuperBench等分别发布大模型评测榜单,对中文大模型进行重点评测。大模型能力“榜单”确实能够在一定程度上反映出大模型能力,对于大模型的科学研究和能力提升提供正向借鉴意义。此外,在大模型的实际应用中,大模型的使用方需要综合考虑业务需求、花费成本、系统架构、安全要求等因素进行大模型的产品选型POC测试。大模型基准测试利用客观数据集对模型能力进行全面、客观的验证,这已经成为POC测试的主要落地方式,在大模型行业和应用落地中扮演重要角色。
3.更好的支撑大模型在行业内的应用
近期,“人工智能+”行动的开展驱动了大模型在各应用场景中落地,大模型已经在金融、医疗、软件工程、教育、法律、科研、政务、电信、能源、工业、汽车、机器人等行业领域中取得一定的应用成果。尤其在软件交付领域,相关能力子域的模型测试也取得显著进展,目前已推出多种面向行业应用的评测数据集,例如软件领域的MBPP、HumanEval。用户在进行大模型行业应用时,无论通过外部采购还是自主研发的方式构建大模型能力,都需要利用基准评测对备选大模型进行量化评估,才能保障大模型的行业应用效果。
4.辅助监管治理
三、建立大模型评估体系的步骤
1.建立评估指标
建立大模型效果评估体系的第一步是确定评估指标,评估指标通常包括了准确率、召回率、F1值等效果评价指标,以及模型的性能指标,比如计算速度和资源消耗等等。根据应用场景的不同,代码大模型、运维大模型、测试大模型需要根据自身的场景特点和需求确定合适的评估指标。
2.设计评估测试实验
确定评估指标后,测试人员需要设计测试实验内容,包括数据采集、数据清洗、特征工程和模型训练等步骤,测试实验过程要严谨,需要考虑实验的随机性、可重复性,以及数据量和数据质量的要求。
3.构建评估模型体系
设计测试实验内容后,测试人员需要构建评估模型体系,对大模型的效果进行评估,评估模型需要涵盖模型训练、模型测试和效果评测等环节。
4.结果分析和改进
四、大模型常见的评估指标
由于软件交付场景面向对象主要以信息系统和人员为主,因此在效果层面和功能层面都有较高的要求。从效果层面考虑,软件交付服务需要具备准确性、友好性、完整性和可靠性,如代码辅助方面,代码大模型在相关的代码生成和补全场景中应具备一定的高准确性和完整性,在辅助测试方面,相关的测试用例和Bug修复方案需要具备友好性和可靠性。在功能层面上,软件交付大模型需要通过意图识别、信息提取、多轮问答、阅读理解和内容安全五个维度功能进行评价,这五个维度包括了IT组织内部的需求,也涵盖了IT支撑业务的需求。以下是大模型常见的评估指标:
1.准确性指标
准确性反映了软件交付大模型在为用户提供信息和解答问题时的精确程度和可靠性, 使用户能够依靠大模型提供的信息和服务进行决策和行动,比较典型的有面向用户的知识库、工单等场景,面向系统的代码生成、代码解释等场景。该指标主要涵盖了答案准确性、抗干扰性和回答稳定性。
(1)答案准确性:准确理解用户或系统问题,并基于相关知识提供能回答问题的准确答案。
(2)抗干扰性:不会附加与问题无关的其他无效内容,增加用户阅读成本。
(3)回答稳定性:多次提问所生成的答案保持核心知识点的一致性。
2.友好性指标
友好性的提升可以增强IT组织与非IT组织、IT组织和IT组织之间的互动和沟通,建立IT组织支撑业务的逻辑关系,增进业务组织对IT组织的信任和支持。该指标主要涵盖了响应快捷性、情绪识别能力和对话友好性,较为典型的有面向业务部门的需求全生命周期管理的智能可视化体系,IT组织客服系统。
(1)响应快捷性:针对用户提问给予解答所需的服务效率,在合理的时长范围内。
(2)对话友好性:答案可理解,与用户对话中,所回复语言通俗、易懂、流畅。
(3)对话连续性:评估模型在不同用户群体之间、不同的对话之间是否具备上下文连续性。
3.完整性指标
完整性是指软件交付大模型所提供的信息和内容的全面程度,以及其在知识依据来源 参考方面的准确性和广泛性。
(1)答案全面性:针对用户提问或系统需求,相关的答案是否具备全面性,如代码大模型,是否具备兼容多种语言的能力,运维大模型是否具备多知识体系的接入,测试大模型是否具备代码关联能力。
(2)答案可靠性:针对用户提问或系统需求,答案具备可靠性,如运维大模型所回答的脚本内容,可执行无报错。
4.可靠性指标
可靠性涵盖了资源利用效率、运行稳定性和服务可扩展性等。可靠性反映了软件交付大模型服务的稳定性、可持续性和可信赖性,对于确保IT组织的业务连续性和效能至关重要。
(1)资源效率:模型的处理速度和资源利用效率,包括响应时间、计算资源消耗等指标作为参考依据。
(2)运行稳定:模型在长时间运行中的稳定性和可靠性,确保其在各种情况下都能产生一致可靠的预测结果。
(3)服务可扩展性:评估模型在面对大规模数据和高并发请求时的处理能力和性能表现。
5.意图识别指标
意图识别反映了软件交付大模型对各类问题的理解和引导能力,该指标主要涵盖了常规意图识别、复杂意图识别和模糊意图澄清。
(1)常规意图识别:问题中完整包含相关事项关键字,明确识别到用户意图,如代码场景中的函数和语法,测试场景中的测试用例,运维场景中的脚本用法。
(2)复杂意图识别:问题描述一个复杂场景,不完整包含关键字,能明确识别到用户意图,如代码场景中的调用链关系,运维场景中的根因分析,测试场景中的bug修复。
五、大模型效果评估体系的挑战
1.对于软件交付大模型的测评,缺少被大多数企业所广泛认可的测试数据集。BERT、XLNet、RoBERTa、ERINE、T5等知名模型有自己固定的数据集进行测试,尤其软件交付领域已经针对特定的场景衍生出细分大模型,目前,需要一个中立的机构或组织设计并推出一个统一的被认可的基准测试数据集。
2.现有的软件交付大模型主要通过问答和结果的方式进行评测,一方面难以全面评估大模型在特定场景或特定环境下的能力,另一方面,无法深入揭示这些风险产生的内在原因。大模型本身仍是一个黑盒,再加上大多数大模型往往不会详细透露其训练数据来源或公开其训练数据,所以对于模型的输出可解释性仍是挑战。
六、大模型效果评估体系的后续发展
软件交付领域大模型应不断迭代其结构以满足IT组织进行软件交付过程中日益增长的新需求,如研发效能度量、DevOps、平台工程等。
1.更透明的决策过程,能够向IT组织内部各能力子域传达决策的原理和依据,建立起不同能力子域的成员对模型的信任,推动软件交付领域大模型的广泛应用。
2.更加强大的模型平台能力,注重提升平台的稳定性、安全性和可扩展性,以应对不断增长的数据和用户需求。
3.更广泛适用的通用框架与模型层能力,在模型设计、数据标准化和算法开发方面进行深入研究,以确保模型的可复用性和适应性。
4.更广泛的应用支撑能力,从单一场景的智能化实现向多模态与多场景相结合的生成式人工智能发展,随着交付链路的拉长,需要突破IT组织,逐步延展至业务组织,让软件交付逐渐延展至产品的价值交付。通过使用“领域大模型”和“场景小模型”的组合,逐步形成智能运维模型、代码模型、质量模型、项目管理模型以及安全模型。
5.推进小型化的模型体系,通过精简参数、修改模型结构和压缩方法,使其在资源有限的端、边等场景下依然可以应用。
6.是更加完善的安全保障,确保软件交付领域大模型在处理数据时符合相关法规和规范,保护用户的信息安全。
软件交付领域大模型的未来发展还需要与各利益相关方进行广泛合作,共同推动软件交付领域大模型的迭代升级,通过建立合作机制和共享数据资源,尤其是与智能办公大模型的协作,可以在软件交付过程中,增加文档能力,提升协作水平。
欢迎点击文末阅读原文到社区原文下评论交流 觉得本文有用,请转发或点击在看,让更多同行看到
本文首发于《迈向YB数据时代》第9期。扫一扫,识别二维码去社区立即兑换纸质版→
本季度社区的重心任务将是联结所有创新者们的探索成果,基于课题专家用户们绘制的项目落地的基础架构生态图,分不同堆栈进行共识的形成,为大模型规模化应用落地的AI数据中心规划提供决策参考。
欢迎关注社区 “大语言模型”技术主题 ,将会不断更新优质资料、文章。地址:https://www.talkwithtrend.com/Topic/116059
*本公众号所发布内容仅代表作者观点,不代表社区立场;封面图片由版权图库授权使用