如何“选”大模型？3家头部企业大模型评测体系建设实践

文摘科技 2024-10-12 07:30 浙江

作者｜沙丘智库研究团队

来源｜沙丘社区（www.shaqiu.cn）

大模型能力维度较多且企业的需求往往存在较大差异，因此大模型通常没有统一的评测标准。

对于中文大模型，国内常用的评测基准包括SuperCLUE、C-Eval、FlagEval、OpenCompass等，专注于中文环境下大模型基本能力的评测，这些榜单的结果可以作为企业选择大模型的参考之一。

但在实际的大模型落地过程中，企业需要构建一套符合自己业务需求的大模型评测体系，因为大模型评测是确保模型在实际应用中有效、可靠和安全的重要环节。一套科学、全面的大模型评测不仅能为模型选型提供科学依据，还将直接驱动后续大模型的迭代方向，确保模型能力与应用场景的精准对接。

沙丘智库通过研究中国移动、腾讯、工商银行等各领域头部企业的大模型评测实践，旨在为其他企业提供参考。

▎案例1：中国移动大模型评测体系建设实践

面向生产服务场景，中国移动建立语言大模型、行业大模型、多模态大模型、智能体应用、安全评测等五大评测基准，围绕评测数据、指标、方法与分析三大要素，高效开展综合全面的大模型评测。通过构建模型评测平台，支持模型注册、模型管理、评测任务管理、评测场景管理、评测指标汇聚、评测数据管理、评测报告分析、模型能力排行等一系列工作，实现一键注册、快速评测、智能分析的大模型标准化评测流程。

完整内容：中国移动大模型评测体系建设实践

▎案例2：腾讯代码大模型评测方法与实践

腾讯在代码大模型评测方面采取了人工评测和自动化评测相结合的方法，以确保评测的全面性、准确性和快速性。通过人工评分、一致性检查、自动化测试和迭代数据集制作，腾讯旨在提高代码大模型的评测效率和质量。

完整内容：腾讯代码大模型评测方法与实践

▎案例3：工商银行大小模型协同的AI中台建设实践

工商银行从技术能力、应用能力、安全可信能力等维度，面向通识理解和金融实际应用，建立涵盖通识认知、金融认知、金融从业资格认证、实际金融应用任务的金融大模型全域能力测评标准，建成配套测评数据集并持续拓展更新，为金融大模型建设、验证、优化等工作提供重要参考和指导。

完整内容：工商银行大小模型协同的AI中台建设实践

更多研究：

2024中国企业IT部门大模型应用场景评估报告

...

*更多生成式AI研究可前往“沙丘智库”小程序查阅

*有任何需求可咨询客服微信：zimu738

http://mp.weixin.qq.com/s?__biz=MzkyMzM0NzEwNg==&mid=2247487628&idx=1&sn=15dde8ca8dcfa4583a74ba6b7a4e4f83

沙丘社区

数字化研究与服务机构

最新文章

22份大模型深度报告：涵盖场景评估、趋势预测、最佳实践等企业最关心的问题

必看！大模型驱动IT运维智能化升级，7家头部企业率先落地

工业大模型落地加速，哪些场景将率先获益？

大模型赋能保险代理人已成趋势：揭秘9家保险公司新进展

中国大模型技术采纳现状调研：渗透率达52.3%，但正式投产不及预期

15种典型LLM+RAG框架大盘点

直播预告｜金融机构如何实现监管报送全链路自动化数据质量保障？

大模型先锋案例年度评选已正式启动

提升NL2SQL准确率的3点建议与实践参考

企业如何从0到1构建RAG系统？

大模型在自动化测试的突破：蚂蚁、华为等头部企业应用实践

沙丘智库《大模型应用跟踪月报（10月）》发布，洞察大模型最新落地进展

迈进智能客服3.0时代：大模型引领互联网公司客户服务升级

沙丘智库《“大模型+RAG”最佳实践报告》发布：RAG应用指南与18个典型案例

9个“大模型+智能投顾”案例，洞察财富管理未来

大模型赋能销售，头部企业销售助手、数据洞察、培训等场景应用实践

揭秘Agentic AI，万字解读OpenAI Agentic AI实践报告

寻找时代的领航者，第二届大模型先锋案例榜单评选正式启动！

《2024中国AI Agent最佳实践案例》榜单评选进行中，欢迎参与！

政务大模型落地超预期：14城27部门领跑数字政府建设

大模型如何提升智慧办公效率？8家头部企业实践案例

基于大模型的Multi-agent在客服、销售等场景的落地实践

突破传统RAG局限：GraphRAG如何提升大模型问答能力？

多模态大模型有哪些落地场景？贝壳、海尔等4家头部企业实践

大模型赋能理赔，保险公司加强“主动式服务”

优化RAG系统的四种工程化手段

51个证券大模型案例，沙丘智库发布《2024年中国证券业大模型案例跟踪报告》

智能测试时代来临，大模型如何赋能测试设计环节？

如何“选”大模型？3家头部企业大模型评测体系建设实践

证券公司如何应用大模型？17个落地场景评估

代码采纳率达30%，多家头部银行上线智能编码助手

如何利用大模型+RAG构建知识问答助手？

央企布局大模型背后，优先建设哪些场景？

22家国内券商拥抱大模型，引领金融科技新浪潮

AI Agent带来哪些安全风险？如何应对？

沙丘智库发布《2024中国证券业大模型应用场景评估报告》

标杆研究：8家国资央企“AI+专项行动”布局与大模型实践

股份行积极布局大模型，哪些应用场景值得投入？

大模型赋能新型电力系统：6家电力企业大模型实践

财产险公司如何应用大模型？平安、太保等4家产险大模型实践

36%的国资央企组建大模型团队，沙丘智库发布《2024年国资央企大模型应用跟踪报告》

大模型+RAG如何提高问答准确率？5家互联网大厂RAG落地实践

工业大模型市场图谱：53个工业大模型全面梳理

大模型提升测试质量和效率：8家头部企业“大模型+软件测试”落地实践

大模型革新智能客服体验：10个“大模型+智能客服”落地实践

基于大模型的知识助手：7家头部企业“大模型+知识管理”落地实践

工业大模型落地跟踪：降本增效为第一目标，生产制造应用占比44.8%

银行半年报揭开大模型进展，19家上市银行大模型应用现状

证券大模型赋能投研提效：4家头部券商“大模型+智能投研”落地实践

城商行大模型应用进展如何？北京银行、上海银行等5家头部城商行大模型实践

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉