本测评结果仅用于学术研究。
测评环境
评测模型:易车大模型(官方小范围内测API)
评测集:SuperCLUE汽车评测集,4大核心基础能力的十余个任务。
模型GenerationConfig配置:
temperature=0.1
top_p=0.8
max_new_tokens=1024
stream=true
本次测评为自动化评测,具体评测方案可点击查阅SuperCLUE-Auto汽车综合性测评基准。本次测评经过人工抽样校验。
结论3:在本次测评中,易车大模型在各项能力上表现较为均衡,尤其在汽车营销、车辆使用指南、汽车理解与知识任务上表现出色,智能座舱与交互任务还有一定提升空间。
对比模型数据来源:SuperCLUE
注:数据来源:SuperCLUE,易车大模型数据为2024年6月12日测评结果,其他对比模型为2023年12月25日发布的测评结果。
在SuperCLUE-Auto汽车测评基准上,易车大模型取得82.23分,表现不俗,刷新国内大模型最好成绩,与GPT4-Turbo相差1.72分。
智能座舱与交互
汽车营销
易车大模型在汽车营销任务上得分80.6分,表现十分出色,与GPT-4-Turbo几乎持平。
车辆使用指南
汽车理解与通用知识
易车大模型在汽车理解与通用知识任务上得分82.9分,表现出色,较GPT-4-Turbo高2.5分。
小结:
小结:
更多易车大模型的测评信息,请加入SuperCLUE汽车大模型交流群。
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE