效果评估新范式——搭建科学完善的大模型项目评估体系【大模型应用落地之规划AI数据中心】

科技   2024-12-18 07:35   海南  

【大模型应用落地之规划AI数据中心系列】· 大模型应用落地路径顶层设计

  摘要
本文主要探讨了大模型在软件交付领域的应用及效果评估体系。大模型推动了软件交付领域的发展,形成了智能运维、测试和研发等新方向,各大科技巨头和企业纷纷布局。大模型效果评估体系十分必要,它能指引学术研究方向、引导大模型产品选型、支撑大模型在行业内的应用并辅助监管治理。建立该评估体系的步骤包括确定评估指标、设计评估测试实验、构建评估模型体系和结果分析与改进。常见评估指标包括准确性、友好性、完整性、可靠性和意图识别等。然而,该评估体系面临缺少统一测试数据集、模型输出可解释性挑战和静态评测局限性等问题。未来,软件交付领域大模型应满足新需求,具备更透明的决策过程、强大的平台能力、广泛适用的通用框架、更广泛的应用支撑能力、推进小型化以及完善的安全保障,并与各利益相关方合作推动迭代升级。
作者:顾黄亮 某金融企业 基础架构负责人

一、大模型在软件交付领域内的运用

近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器智能的边界,展现出通用人工智能的“曙光”,尤其在软件交付领域,将传统的运维能力、测试能力、研发能力进行了拓展,形成了智能运维、智能测试和智能研发等新的方向,相应的大语言模型也逐步细分,如运维大模型、测试大模型和代码大模型。

同时,全球各大科技巨头和创新型企业纷纷围绕大模型加强布局。2018年,谷歌公司提出基于Transformer实现的预训练模型BERT,在机器阅读理解水平测试SQuAD中刷新记录。同年,OpenAI公司发布了第一代生成式预训练模型GPT-1,擅长文本内容生成任务。随后几年,OpenAI相继推出了GPT-2和GPT-3,在技术架构、模型能力等方面进行持续创新。2022年11月,OpenAI发布的ChatGPT在智能问答领域上的表现引起产业界轰动。除了大语言模型,2023年,OpenAI还发布了多模态大模型GPT-4。同期国内大模型的发展也呈现不断加速态势,已经发布了华为“盘古”、百度“文心一言”、阿里“通义千问”、腾讯“混元”和智谱“清言”等200多个通用和行业大模型产品。

随着软件交付对于效能的要求不断提高,大量的通用大模型在各自的细分领域内得到了运用,较为典型的有智能运维体系内拓展了运维知识库、智能运维工单和智能体Agent根因分析等新的功能,智能开发体系内拓展了代码补全、代码解释、代码生成等新功能,智能测试体系内拓展了自动化测试用例生成、自动化程序修复等新功能。

二、大模型效果评估体系的必要性

随着大模型产品的不断推出,对大模型的能力进行评测逐渐成为产业界关注的重点。2023年7月《自然》(Nature)发表文章ChatGPT broke the Turing test - the race is on for new ways to assess AI,指出图灵测试已经无法满足大模型的评测要求,应该探索新方法来评估人工智能水平。尤其在软件交付体系,软件交付具备天然的量化评估特征,因此在软件交付过程中所采用的大模型产品,需要评估模型自身和业务场景的切合度,还应从学术和行业的角度对其进行评估。

大模型的评估目标是通过设计合理的评估任务和数据集来对模型的能力进行全面、量化的评估,相关的评估过程应涵盖大模型的测评指标、方法、数据集等多项关键要素,最终为了大模型在落地过程中更好的、更规范地进行实践。

当前,很多行业对所在行业的大模型进行了评估,并覆盖了大模型“建用管”全生命周期的多个阶段,在大模型研发、应用和管理中扮演重要角色,其必要性体现在以下三个方面。

1.指引学术研究的方向

过去一年,在ChatGPT的引领下,国内外的大模型企业也从最初的摸索和尝试,逐渐步入研发和应用的深水区。大模型研发迭代周期正在缩短,OpenAI在一年时间内先后发布ChatGPT、GPT-4、GPT-4V等多款大模型,Meta的LLaMA大模型一经发布便迅速带动了Alpaca、Vicuna等几十个开源大模型,形成“羊驼”开源大模型生态圈。

在如此高的迭代频率下,大模型在实际场景中的实践评估可以验证模型研发效果,快速挖掘大模型当前的不足与痛点问题,推动大模型能力持续提升。并且,大模型评估不应该是开发流程的终点,而应该作为起点驱动模型开发。构建以能力提升为目标的评估策略对大模型发展十分重要,建立“开发、部署、应用、测试”的闭环流程将缩短产品迭代周期。

2.在实际场景中引导大模型产品的选型

近期,商业公司和研究机构等纷纷推出大模型榜单来对大模型的能力进行排序,大模型“打榜”逐渐成为各界关注的话题。国外大模型榜单Open LLM Leaderboard使用4个公开数据集对大模型进行综合测评。加州大学伯克利分校借鉴Elo评分系统推出了Chatbot Arena,采用众包方式对大模型进行匿名、随机化的对战,得到模型的能力分级。斯坦福大学的AlpacaEval使用强大的语言模型(如GPT-4)对大模型进行评估,提升评测效率。

国内的OpenCompass、FlagEval、SuperCLUE、SuperBench等分别发布大模型评测榜单,对中文大模型进行重点评测。大模型能力“榜单”确实能够在一定程度上反映出大模型能力,对于大模型的科学研究和能力提升提供正向借鉴意义。此外,在大模型的实际应用中,大模型的使用方需要综合考虑业务需求、花费成本、系统架构、安全要求等因素进行大模型的产品选型POC测试。大模型基准测试利用客观数据集对模型能力进行全面、客观的验证,这已经成为POC测试的主要落地方式,在大模型行业和应用落地中扮演重要角色。

3.更好的支撑大模型在行业内的应用

近期,“人工智能+”行动的开展驱动了大模型在各应用场景中落地,大模型已经在金融、医疗、软件工程、教育、法律、科研、政务、电信、能源、工业、汽车、机器人等行业领域中取得一定的应用成果。尤其在软件交付领域,相关能力子域的模型测试也取得显著进展,目前已推出多种面向行业应用的评测数据集,例如软件领域的MBPP、HumanEval。用户在进行大模型行业应用时,无论通过外部采购还是自主研发的方式构建大模型能力,都需要利用基准评测对备选大模型进行量化评估,才能保障大模型的行业应用效果。

4.辅助监管治理

随着大模型性能的不断提升,安全隐患和威胁的阴影始终如达摩克里斯之剑悬在人类头顶。近期,很多专家对人工智能存在的安全隐患表示担忧,并担心人类将会被其接管,尤其在软件交付领域,个人隐私保护被多次提及。目前随着ToxiGen、CValues等数据集推出,对大模型的内容合规评估等已经取得一定进展,但在大模型的诚实性、自主意识和隐私保护等方面仍缺乏高质量基准。大模型评估对保障模型内容安全和能力监控发挥重要作用,可以引导其朝着更健康、更安全的方向发展,让大模型的成果惠及全人类。

三、建立大模型评估体系的步骤

1.建立评估指标

建立大模型效果评估体系的第一步是确定评估指标,评估指标通常包括了准确率、召回率、F1值等效果评价指标,以及模型的性能指标,比如计算速度和资源消耗等等。根据应用场景的不同,代码大模型、运维大模型、测试大模型需要根据自身的场景特点和需求确定合适的评估指标。

2.设计评估测试实验

确定评估指标后,测试人员需要设计测试实验内容,包括数据采集、数据清洗、特征工程和模型训练等步骤,测试实验过程要严谨,需要考虑实验的随机性、可重复性,以及数据量和数据质量的要求。

3.构建评估模型体系

设计测试实验内容后,测试人员需要构建评估模型体系,对大模型的效果进行评估,评估模型需要涵盖模型训练、模型测试和效果评测等环节。

4.结果分析和改进

最后一步是对结果进行分析和改进,测试人员需要结合评估指标和测试结果,分析模型的效果的优劣和可能存在的问题,并进行相应的改进和优化,并指导产品选型以及实践推广。

四、大模型常见的评估指标

由于软件交付场景面向对象主要以信息系统和人员为主,因此在效果层面和功能层面都有较高的要求。从效果层面考虑,软件交付服务需要具备准确性、友好性、完整性和可靠性,如代码辅助方面,代码大模型在相关的代码生成和补全场景中应具备一定的高准确性和完整性,在辅助测试方面,相关的测试用例和Bug修复方案需要具备友好性和可靠性。在功能层面上,软件交付大模型需要通过意图识别、信息提取、多轮问答、阅读理解和内容安全五个维度功能进行评价,这五个维度包括了IT组织内部的需求,也涵盖了IT支撑业务的需求。以下是大模型常见的评估指标:

1.准确性指标

准确性反映了软件交付大模型在为用户提供信息和解答问题时的精确程度和可靠性, 使用户能够依靠大模型提供的信息和服务进行决策和行动,比较典型的有面向用户的知识库、工单等场景,面向系统的代码生成、代码解释等场景。该指标主要涵盖了答案准确性、抗干扰性和回答稳定性。

(1)答案准确性:准确理解用户或系统问题,并基于相关知识提供能回答问题的准确答案。

(2)抗干扰性:不会附加与问题无关的其他无效内容,增加用户阅读成本。

(3)回答稳定性:多次提问所生成的答案保持核心知识点的一致性。

2.友好性指标

友好性的提升可以增强IT组织与非IT组织、IT组织和IT组织之间的互动和沟通,建立IT组织支撑业务的逻辑关系,增进业务组织对IT组织的信任和支持。该指标主要涵盖了响应快捷性、情绪识别能力和对话友好性,较为典型的有面向业务部门的需求全生命周期管理的智能可视化体系,IT组织客服系统。

(1)响应快捷性:针对用户提问给予解答所需的服务效率,在合理的时长范围内。

(2)对话友好性:答案可理解,与用户对话中,所回复语言通俗、易懂、流畅。

(3)对话连续性:评估模型在不同用户群体之间、不同的对话之间是否具备上下文连续性。

3.完整性指标

完整性是指软件交付大模型所提供的信息和内容的全面程度,以及其在知识依据来源 参考方面的准确性和广泛性。

(1)答案全面性:针对用户提问或系统需求,相关的答案是否具备全面性,如代码大模型,是否具备兼容多种语言的能力,运维大模型是否具备多知识体系的接入,测试大模型是否具备代码关联能力。

(2)答案可靠性:针对用户提问或系统需求,答案具备可靠性,如运维大模型所回答的脚本内容,可执行无报错。

4.可靠性指标

可靠性涵盖了资源利用效率、运行稳定性和服务可扩展性等。可靠性反映了软件交付大模型服务的稳定性、可持续性和可信赖性,对于确保IT组织的业务连续性和效能至关重要。

(1)资源效率:模型的处理速度和资源利用效率,包括响应时间、计算资源消耗等指标作为参考依据。

(2)运行稳定:模型在长时间运行中的稳定性和可靠性,确保其在各种情况下都能产生一致可靠的预测结果。

(3)服务可扩展性:评估模型在面对大规模数据和高并发请求时的处理能力和性能表现。

5.意图识别指标

意图识别反映了软件交付大模型对各类问题的理解和引导能力,该指标主要涵盖了常规意图识别、复杂意图识别和模糊意图澄清。

(1)常规意图识别:问题中完整包含相关事项关键字,明确识别到用户意图,如代码场景中的函数和语法,测试场景中的测试用例,运维场景中的脚本用法。

(2)复杂意图识别:问题描述一个复杂场景,不完整包含关键字,能明确识别到用户意图,如代码场景中的调用链关系,运维场景中的根因分析,测试场景中的bug修复。

(3)模糊意图澄清:对于用户的模糊意图,能够以提问的形式和用户进行交互,对用户的模糊意图进行澄清问答,如每次问答后给予用户是否有其他问题的选项。

五、大模型效果评估体系的挑战

1.对于软件交付大模型的测评,缺少被大多数企业所广泛认可的测试数据集。BERT、XLNet、RoBERTa、ERINE、T5等知名模型有自己固定的数据集进行测试,尤其软件交付领域已经针对特定的场景衍生出细分大模型,目前,需要一个中立的机构或组织设计并推出一个统一的被认可的基准测试数据集。

2.现有的软件交付大模型主要通过问答和结果的方式进行评测,一方面难以全面评估大模型在特定场景或特定环境下的能力,另一方面,无法深入揭示这些风险产生的内在原因。大模型本身仍是一个黑盒,再加上大多数大模型往往不会详细透露其训练数据来源或公开其训练数据,所以对于模型的输出可解释性仍是挑战。

3.现有的评测方法通常是静态评测,一方面,大模型的训练数据来源广泛且规模庞大,静态测试样本可能已经包含在其训练数据中。另一方面,知识每时每刻都在迭代更新,静态评测的数据中的知识有可能会过时。随着大模型的能力不断的增强,原有的静态评测数据的难度可能无法满足大模型的能力需求。这些因素都削弱了静态评测的公平性。因此,动态测评法更能全面公正的对大模型进行评测,持续更新测试样本,引入开放式问题,并探索评测新方法,如使用多个大模型通过辩论的方式进行评测,这需要大型互联网企业对测试语料进行开放,满足动态测试条件。

六、大模型效果评估体系的后续发展

软件交付领域大模型应不断迭代其结构以满足IT组织进行软件交付过程中日益增长的新需求,如研发效能度量、DevOps、平台工程等。

1.更透明的决策过程,能够向IT组织内部各能力子域传达决策的原理和依据,建立起不同能力子域的成员对模型的信任,推动软件交付领域大模型的广泛应用。

2.更加强大的模型平台能力,注重提升平台的稳定性、安全性和可扩展性,以应对不断增长的数据和用户需求。

3.更广泛适用的通用框架与模型层能力,在模型设计、数据标准化和算法开发方面进行深入研究,以确保模型的可复用性和适应性。

4.更广泛的应用支撑能力,从单一场景的智能化实现向多模态与多场景相结合的生成式人工智能发展,随着交付链路的拉长,需要突破IT组织,逐步延展至业务组织,让软件交付逐渐延展至产品的价值交付。通过使用“领域大模型”和“场景小模型”的组合,逐步形成智能运维模型、代码模型、质量模型、项目管理模型以及安全模型。

5.推进小型化的模型体系,通过精简参数、修改模型结构和压缩方法,使其在资源有限的端、边等场景下依然可以应用。

6.是更加完善的安全保障,确保软件交付领域大模型在处理数据时符合相关法规和规范,保护用户的信息安全。

软件交付领域大模型的未来发展还需要与各利益相关方进行广泛合作,共同推动软件交付领域大模型的迭代升级,通过建立合作机制和共享数据资源,尤其是与智能办公大模型的协作,可以在软件交付过程中,增加文档能力,提升协作水平。

欢迎点击文末阅读原文到社区原文下评论交流

觉得本文有用,请转发或点击在看,让更多同行看到


本文首发于《迈向YB数据时代》第9期。扫一扫,识别二维码去社区立即兑换纸质版→


关于【大模型应用落地之规划AI数据中心】——
一些领先的企业,在创新者们的主导下,大模型行业应用的项目已经从试点到投产的阶段了,实现了企业大模型应用从0到1的突破。通过项目的落地,不仅对大模型领域有了真实的触感,并对其应用价值也有了系统认知,对项目变现的全旅程有了一些经验。
在0到1的过程中,更多的企业会重点关注大模型应用的场景和模型的选择。但随之的任务是实现从1到N,最终规模化投产,AI数据中心的规划开始迫在眉睫。

本季度社区的重心任务将是联结所有创新者们的探索成果,基于课题专家用户们绘制的项目落地的基础架构生态图,分不同堆栈进行共识的形成,为大模型规模化应用落地的AI数据中心规划提供决策参考。



欢迎关注社区 “大语言模型”技术主题 ,将会不断更新优质资料、文章。地址:https://www.talkwithtrend.com/Topic/116059

下载 twt 社区客户端 APP


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场;封面图片由版权图库授权使用

twt企业IT社区
talkwithtrend.com社区(即twt社区)官方公众号,持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群,让您时刻和国内企业IT同行保持信息同步。
 最新文章