如何“选”大模型?3家头部企业大模型评测体系建设实践

文摘   科技   2024-10-12 07:30   浙江  

作者|沙丘智库研究团队

来源|沙丘社区(www.shaqiu.cn)

大模型能力维度较多且企业的需求往往存在较大差异,因此大模型通常没有统一的评测标准。
对于中文大模型,国内常用的评测基准包括SuperCLUE、C-Eval、FlagEval、OpenCompass等,专注于中文环境下大模型基本能力的评测,这些榜单的结果可以作为企业选择大模型的参考之一。
但在实际的大模型落地过程中,企业需要构建一套符合自己业务需求的大模型评测体系,因为大模型评测是确保模型在实际应用中有效、可靠和安全的重要环节。一套科学、全面的大模型评测不仅能为模型选型提供科学依据,还将直接驱动后续大模型的迭代方向,确保模型能力与应用场景的精准对接。
沙丘智库通过研究中国移动、腾讯、工商银行等各领域头部企业的大模型评测实践,旨在为其他企业提供参考。

案例1:中国移动大模型评测体系建设实践

面向生产服务场景,中国移动建立语言大模型、行业大模型、多模态大模型、智能体应用、安全评测等五大评测基准,围绕评测数据、指标、方法与分析三大要素,高效开展综合全面的大模型评测。通过构建模型评测平台,支持模型注册、模型管理、评测任务管理、评测场景管理、评测指标汇聚、评测数据管理、评测报告分析、模型能力排行等一系列工作,实现一键注册、快速评测、智能分析的大模型标准化评测流程。

完整内容:中国移动大模型评测体系建设实践

案例2:腾讯代码大模型评测方法与实践

腾讯在代码大模型评测方面采取了人工评测和自动化评测相结合的方法,以确保评测的全面性、准确性和快速性。通过人工评分、一致性检查、自动化测试和迭代数据集制作,腾讯旨在提高代码大模型的评测效率和质量。
完整内容:腾讯代码大模型评测方法与实践

案例3:工商银行大小模型协同的AI中台建设实践

工商银行从技术能力、应用能力、安全可信能力等维度,面向通识理解和金融实际应用,建立涵盖通识认知、金融认知、金融从业资格认证、实际金融应用任务的金融大模型全域能力测评标准,建成配套测评数据集并持续拓展更新,为金融大模型建设、验证、优化等工作提供重要参考和指导。

完整内容:工商银行大小模型协同的AI中台建设实践


更多研究:

2024年国资央企大模型应用跟踪报告
2024年中国工业大模型应用跟踪报告
2024年中国银行业大模型市场跟踪报告
2024中国证券业大模型应用场景评估报告
2024中国企业IT部门大模型应用场景评估报告
...


*更多生成式AI研究可前往“沙丘智库”小程序查阅

*有任何需求可咨询客服微信:zimu738




沙丘社区
数字化研究与服务机构
 最新文章