首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

文摘科技 2024-06-24 15:03 浙江

本测评结果仅用于学术研究。

2024年6月24日，汽车大模型测评基准SuperCLUE-Auto发布更新，新增了易车大模型的测评结果。

易车大模型是以易车经过二十余年深耕汽车行业积淀的庞大独有语料库为基础，结合前沿大模型技术自主研发训练的汽车垂直领域大模型。

易车大模型旨在为用户提供全面和精准的汽车领域生态服务，包括车辆介绍、选购推荐、购买指导、使用及保养等，贯穿从选车到购车再到用车的全生命周期。丰富的数据基础和扎实的技术让易车大模型成为用户在汽车领域可靠、专业的智能助手，为用户提供高效和专业的服务体验。

那么，易车在SuperCLUE汽车测评基准的表现如何？与国内外代表性大模型相比处于什么位置？在各项基础能力上如智能座舱与交互、汽车营销、车辆使用和汽车通用知识上会有怎样的表现？

我们基于SuperCLUE-Auto汽车综合性测评基准，对易车大模型进行了全方位测评。

测评环境

参考标准：SuperCLUE-Auto汽车大模型测评基准

评测模型：易车大模型（官方小范围内测API）

评测集：SuperCLUE汽车评测集，4大核心基础能力的十余个任务。

模型GenerationConfig配置：

temperature=0.1
top_p=0.8
max_new_tokens=1024
stream=true

测评方法：

本次测评为自动化评测，具体评测方案可点击查阅SuperCLUE-Auto汽车综合性测评基准。本次测评经过人工抽样校验。

先说结论

结论1：在SuperCLUE汽车测评基准上，易车大模型表现不俗，以总分82.23分的优异成绩刷新国内最好成绩。

结论2：在本次测评中，相比国外代表性模型很有竞争力。总体来看，易车大模型在中文汽车应用领域总体表现好于GPT4，但与GPT4 Turbo相差1.72分，还有一定提升空间。

结论3：在本次测评中，易车大模型在各项能力上表现较为均衡，尤其在汽车营销、车辆使用指南、汽车理解与知识任务上表现出色，智能座舱与交互任务还有一定提升空间。

对比模型数据来源：SuperCLUE

以下是我们从定量和定性两个角度对模型进行的测评分析。

测评分析

1 定量分析

在SuperCLUE-Auto测评中，易车大模型总体表现如下：

总体表现

注：数据来源：SuperCLUE，易车大模型数据为2024年6月12日测评结果，其他对比模型为2023年12月25日发布的测评结果。

在SuperCLUE-Auto汽车测评基准上，易车大模型取得82.23分，表现不俗，刷新国内大模型最好成绩，与GPT4-Turbo相差1.72分。

智能座舱与交互

来源：SuperCLUE

易车大模型在智能座舱与交互任务上得分74.0分。较ChatGLM-Turbo高1.4分，较文心一言3.5低3.8分。

汽车营销

来源：SuperCLUE

易车大模型在汽车营销任务上得分80.6分，表现十分出色，与GPT-4-Turbo几乎持平。

车辆使用指南

来源：SuperCLUE

易车大模型在车辆使用指南任务上得分91.3分，在本次测评的国内模型中较为领先，较GPT-4-Turbo低0.5分。

汽车理解与通用知识

来源：SuperCLUE

易车大模型在汽车理解与通用知识任务上得分82.9分，表现出色，较GPT-4-Turbo高2.5分。

小结：

从评测结果我们发现，易车大模型在中文汽车行业能力上表现不俗，在总分上刷新了国内最好成绩，其中在汽车营销、车辆使用指南和汽车理解与通用知识任务上表现出色，在智能座舱与交互能力上还有一定优化空间。

2 定性分析

通过一些典型示例，对比定性分析易车大模型的特点。

（建议：在电脑端查看获得更好体验）

较好的示例1：智能座舱与交互

较好的示例2：汽车营销

较好的示例3：车辆使用指南

较好的示例4：汽车理解与通用知识

有优化空间的示例：智能座舱与交互

小结：

从示例分析中我们发现，易车大模型在汽车营销、车辆使用指南、汽车理解与知识任务上表现出色，智能座舱与交互任务还有一定提升空间。

更多易车大模型的测评信息，请加入SuperCLUE汽车大模型交流群。

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

点击阅读原文，查看SuperCLUE排行榜

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247524396&idx=1&sn=7b5c64bcb0bab933616e29b1533982bf

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉