首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

大语言模型评测技术介绍

文摘科技 2024-07-23 14:53 上海

本文作者 | 邱雪涛、费志军

01

引言

在人工智能领域，大语言模型的广泛应用正引领着一场深刻的技术变革。随着这些模型在各行各业中的深入渗透，其性能与效果的准确评测变得愈发关键。评测技术的重要性在此背景下凸显无疑，主要体现在以下四个方面：

（一）评测技术是大语言模型技术选型的重要标准。

（二）评测技术是模型优化与改进的依据。

（三）评测技术能够指导资源进行高效配置，避免浪费。

（四）评测技术的发展还能够促进模型间的竞争与合作，加速技术迭代。

02

大语言模型评测体系

（一）大语言模型评测体系构建原则

大语言模型评测体系构建需解决任务多样性与评测标准问题，主要分为以任务为核心和以人为核心两大原则。

以任务为核心的评测体系尝试从传统的自然语言任务为基础推导和制定大语言模型的评测体系，选择评测任务场景的原则包括：覆盖率；最小化所选场景集合；优先选择与用户任务相对应的场景。

以人为核心的评测体系关注模型解决人类任务的普适能力，通常采用标准化考试如高校入学考试等来衡量大语言模型的认知能力，选择评测任务场景的原则包括：强调人类水平的认知任务；与现实世界场景相关。

（二）大语言模型评测任务

通过大语言模型评测体系的分析研究，整体上可以将大语言模型评测任务分为五个方面：通用能力、复杂推理、垂直领域、智能体交互以及伦理与安全。

图：大语言模型评测任务

（三）大语言模型评测方法

在大语言模型评测体系中，评测方法是需要研究的核心要点，评测方法的目标是解决如何对大语言模型生成结果进行评估的问题。

1.自动评测

自动评测通常包括文本质量评估、语义准确性评估、语言模型性能评估等。自动评测中有些指标可以通过比较正确答案或参考答案与系统生成结果来直接计算得出，例如准确率、召回率等。

2.人工评测

人工评测是一种广泛应用于评估模型生成结果质量和准确性的方法。在大语言模型的评测中，对于文章的流畅性、逻辑性、观点表达等方面的评估需要人工阅读并进行分项打分。

3.大语言模型辅助评测

利用能力较强的语言模型（如 GPT-4）构建合适的指令来评估系统能力，这类方法被称为大语言模型辅助评测。评测人员将任务说明、待评测样本以及对大语言模型的指令输入到提供评估辅助的大语言模型中，随后大语言模型会评估结果输出。

（四）评测数据集

大语言模型的应用越来越广泛，为了更好地评估大语言模型的性能，评测数据集的梳理变得尤为重要，因此国内外出现了SuperGLUE、HELM、BIG-bench、OpenCompass等知名大语言模型评测数据集。当前大语言模型评测存在不足：

1.评测方法僵化，类似应试题刷榜，仅依赖特定任务和数据集，无法全面反映模型在复杂场景中的真实表现。

2.在数据基准上评测内容与具体业务脱节，忽视实际应用价值，且可能存在数据偏见，影响评估公正性。

3.现有评测体系在安全性评估上不足，无法满足金融行业对高安全标准的需求，这可能对企业声誉和客户信任造成重大影响。

03

结语

随着大语言模型评测技术的不断发展，多样化的评测体系如雨后春笋般涌现，这些体系从多个维度全面审视模型能力。然而，以刷榜为目的的评测已逐渐失去其实际意义，真正重要的是结合具体应用场景进行精准评测。未来，我们期待评测技术能更加贴近实际，为模型的优化与落地应用提供有力支撑。

|| 本文作者：中国银联金融科技研究院邱雪涛、费志军

|| 声明：本文所涉及言论仅代表作者个人观点，仅供参考、交流之目的

长按二维码关注

ID：gjgcsys

电子商务与支付国家工程研究中心

http://mp.weixin.qq.com/s?__biz=MzI3NDAwNDUwNg==&mid=2648311958&idx=1&sn=508bed2a93e36da9b8088600ad75523d

电子商务与支付国家工程研究中心

电子商务与电子支付国家工程实验室于2013年11月获国家发展改革委正式批复，是由中国银联承建的金融行业第一家国家工程实验室，于2021年12月通过发改委优化整合，正式转制为国家工程研究中心，旨在打造国内一流、国际知名的产业创新技术研发基地。

最新文章

电子商务与电子支付国家工程研究中心“大模型时代下的金融数智化转型”主题交流活动成功举办

多图融合的口令爆破检测技术

加快推动金融业隐私计算互联互通落地实施

中国银联携手抖音集团成立数据隐私保护创新技术联合实验室，加快助力金融科技高质量发展

匿踪查询技术概述及应用探索

电子商务与电子支付国家工程研究中心“AI大模型与金融行业智能升级”主题交流活动成功举办

【分中心动态】银联金卡正式启动金融业隐私计算互联互通标准测评工作

大语言模型评测技术介绍

银联智谱大语言模型联合实验室正式成立

电子商务与电子支付国家工程研究中心“隐私计算与大模型—数据时代下的新机遇”主题交流活动成功举办

电子商务与电子支付国家工程研究中心顺利召开2024年度技术委员会会议

电子商务与电子支付国家工程研究中心顺利召开2024年度管理委员会会议

喜报！中国银联荣获2023年网络安全国家标准优秀实践案例二等奖

电子商务与电子支付国家工程研究中心“Gartner2024重要技术趋势分享”主题交流活动成功举办

电子商务与电子支付国家工程研究中心顺利召开2023年度优秀成果评选及2024年度工作讨论会议

电子商务与电子支付国家工程研究中心“元宇宙产业现状及发展趋势”主题交流活动成功举办

电子商务与电子支付国家工程研究中心“金融敏感数据治理与合规利用”主题交流活动成功举办

喜报！“金融行业后量子安全密码体系建设方案研究与应用”课题获得第三届上海市博士后创新创业大赛优胜奖

电子商务与电子支付国家工程研究中心“图计算与知识图谱技术应用”主题交流活动成功举办

电子商务与电子支付国家工程研究中心顺利召开2023年度技术委员会会议

“AI大模型在金融场景的应用研究”主题交流活动成功举办

电子商务与电子支付国家工程研究中心顺利召开2023年度管理委员会会议

5G与新型通信技术金融应用联合实验室启用

电子商务与电子支付国家工程研究中心第一期金融科技沙龙成功举办

电子商务与电子支付国家工程研究中心2022年度专题评审会顺利召开

电子商务与电子支付国家工程研究中心召开2022年度第一次技术委员会会议

2022中国银联科技活动周活动信息汇总

【2022年中国银联科技活动周】金融科技智创未来——中国银联金融科技成果展厅

【2022年中国银联科技活动周】——特别策划「金融数字化线上论坛」

【2022年中国银联科技活动周】——特别策划「金融科技线上公开课」

中国银联技术管理委员会开放银行工作组2022年研究工作全面启动，新增证券场景行业课题组、场景安全技术课题组

电子商务与电子支付国家工程研究中心顺利召开2022年度会议暨第一次管理委员会会议

【20周年】金融科技智创未来——中国银联金融科技成果展厅正式开幕

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉