8月测评摘要
榜单地址:www.superclueai.com
1. 特点
2. 任务方向与评价体系
基础能力
e.个性化推荐能力:分析和处理用户的偏好、行为数据和兴趣标签等因素,以生成符合用户口味和需求的内容、产品或服务推荐。
应用能力
f.车身服务能力:解决用户车辆相关问题、提供操控指导和故障维修方面的综合能力。
2.2 评价标准
回答正确:模型提供的答案符合问题的要求,并且是准确的、相关的和有帮助的。
用户意图理解:针对用户的口语化表达、使用词义多样性等可能产生歧义的对话场景,试图对用户的意图进行推测并给出恰当的回应。
逻辑与清晰度:答案表达清晰,逻辑性强,易于用户理解。
技术可行性:回答提出的操作是依据所提供文档中的函数调用信息制定,确保技术上的可行性。
个性化匹配度:在遵循用户意图,满足用户目的和基本需求的基础上,能够结合用户个人偏好与身份特点,给出个性化的回答。
内容的丰富性:在遵循用户意图,满足用户目的和基本需求的基础上,针对用户提出的话题,答案能够尽可能的做到内容丰富、多样。
2.3 测评及计分方式
整体测评流程包括:1.模型答案获取;2.评价获取;3.计算模型得分。
2)评价获取
3)计算模型得分
4)测评过程示例(以GPT 4o为例)
a.问题
b.答案
3. 发送短信给张三,内容为“我大约一小时后到”。
1. set_destination:
{
"name": "set_destination",
"parameters": {
"destination": "上海虹桥机场"
}
}
2. play_music_type:
{
"name": "play_music_type",
"parameters": {
"music": "舒缓音乐"
}
}
3. send_message:
{
"name": "send_message",
"parameters": {
"phone_number": "+08612345678",
"message": "我大约一小时后到"
}
}
1. set_destination:
{
"name": "set_destination",
"parameters": {
"destination": "上海虹桥机场"
}
}
2. play_music_type:
{
"name": "play_music_type",
"parameters": {
"music": "relaxing"
}
}
3. send_message:假设张三的电话号码为 '+08612345678'
{
"name": "send_message",
"parameters": {
"phone_number": "+08612345678",
"message": "我大约一小时后到"
}
}
问题及改进的反馈意见:
打分与评价开始:
# 测评结果
模型象限
为体现大模型所处的不同阶段与定位,我们通过模型在基础能力和应用能力上的不同表现,将其划分成4个模型象限。
其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。
总成绩榜单
任务大类得分
基础能力榜单
应用能力榜单
# 测评分析
4)应用能力-车身服务能力分析
# 示例
问题:场景信息:驾驶座椅靠后,用户坐在驾驶位。请基于提供的函数调用文档与场景信息,回答指令:把驾驶座椅稍微往前调一点。
模型回答比较:
{
"name": "control_seat",
"parameters": {
"seat_position": "front_left",
"adjustment": "forward",
"level": "low"
}
}
ERNIE-3.5-128K(5分):
{
"name": "control_seat",
"parameters": {
"seat_position": "front_left",
"adjustment": "forward",
"level": "low"
}
}
Llama-3-8B-Instruct(2.67分):根据提供的函数调用文档和场景信息,用户坐在驾驶位,驾驶座椅靠后。要把驾驶座椅稍微往前调一点,可以使用control_seat函数。
{
"name": "control_seat",
"parameters": {
"seat_position": {
"adjustment": "forward",
"level": "low"
}
}
}
示例2:复杂意图推理能力
{
"name": "control_sunroof",
"parameters": {
"action": "open",
"level": "low"
}
}
Yi-1.5-34B-Chat-16K(3.33分):要发出“车顶能打开一点吗?”的指令,我们需要在提供的API文档中找到与车顶控制相关的函数。从文档中我们可以看到,与车顶控制相关的函数是 control_sunroof。这个函数允许控制天窗的打开和关闭,同时也支持调节天窗的倾斜和滑动。
因此,基于上面的解析,一个可能的指令是:
{
"name": "control_sunroof",
"parameters": {
"action": "open",
"way": "tilt"
}
}
{
"name": "control_sunroof",
"parameters": {
"action": "tilt",
"level": "medium"
}
}
GPT-4o(4分):根据提供的车辆当前状态信息和任务需求,可以按顺序调用以下函数完成任务:
5. 后视镜向上调整
{
"name": "control_wipers",
"parameters": {
"speed": "high"
}
}
调用2: 将后排左座椅向前调整
{
"name": "control_seat",
"parameters": {
"seat_position": "rear_left",
"adjustment": "forward"
}
}
{
"name": "control_temperature",
"parameters": {
"temperature": 21
}
}
{
"name": "control_lights",
"parameters": {
"light_position": "front",
"action": "bright"
}
}
{
"name": "control_mirrors",
"parameters": {
"mirror_position": "left",
"adjustment": "up"
}
}
通过以上调用可以完成所有任务。
[
{
"name": "control_wipers",
"parameters": {
"speed": "high"
}
},
{
"name": "control_seat",
"parameters": {
"seat_position": "rear_left",
"adjustment": "forward"
}
},
{
"name": "control_ac",
"parameters": {
"temperature": 21
}
},
{
"name": "control_lights",
"parameters": {
"light_position": "front",
"action": "bright"
}
},
{
"name": "control_mirrors",
"parameters": {
"mirror_position": "left",
"adjustment": "up"
}
}
]
{
"name": "control_wipers",
"parameters": {
"speed": "high"
}
}
{
"name": "control_seat",
"parameters": {
"seat_position": "rear_left",
"adjustment": "forward"
}
}
3. 空调温度调至21度:
{
"name": "control_climate_control",
"parameters": {
"temperature": 21
}
}
4. 前车灯调至最亮:
{
"name": "control_lights",
"parameters": {
"light_position": "front",
"action": "bright"
}
}
5. 后视镜向上调整:
{
"name": "control_mirrors",
"parameters": {
"mirror_position": "rear",
"adjustment": "up"
}
}
[
{
"name": "control_wipers",
"parameters": {
"speed": "high"
}
},
{
"name": "control_seat",
"parameters": {
"seat_position": "rear_left",
"adjustment": "forward"
}
},
{
"name": "control_climate_control",
"parameters": {
"temperature": 21
}
},
{
"name": "control_lights",
"parameters": {
"light_position": "front",
"action": "bright"
}
},
{
"name": "control_mirrors",
"parameters": {
"mirror_position": "rear",
"adjustment": "up"
}
}
]
问题:请基于提供的函数调用文档,回答小孩的问题:小聪明车,帮我把座椅调低一点,再放首儿歌。
模型回答比较:
1. 将座椅调低一点。
根据您的需求,以下是对应的函数调用:
{
"name": "control_seat",
"parameters": {
"seat_position": "rear_left",
"adjustment": "down"
}
}
{
"name": "play_music_type",
"parameters": {
"music": "children"
}
}
{
"name": "control_seat",
"parameters": {
"seat_position": "rear_left",
"adjustment": "down",
"level": "low"
}
}
{
"name": "play_music",
"parameters": {
"track": "儿歌"
}
}
Doubao-lite-32k(2.33分):
{
"name":"control_seat",
"parameters":{
"seat_position":"rear_left",
"adjustment":"down",
"level":"medium",
"seat_heating":"medium",
"seat_massage":"open"
}
}
问题:请基于提供的函数调用文档与场景信息,完成用户要求。场景信息:用户A坐在驾驶座,用户C坐在副驾驶座。用户A觉得空调温度太高。此时,用户A:“请将空调温度调低一些。”
{
"name": "control_temperature",
"parameters": {
"temperature": 22
}
}
qwen_max_longcontext(3.33分):
{
"name": "control_temperature",
"parameters": {
"temperature": 20
}
}
Llama-3-8B-Instruct(2分):根据提供的函数调用文档和场景信息,我将完成用户的要求。
{
"name": "control_climate_control",
"parameters": {
"temperature": 22_
}
}
# 测评申请
一、测评流程
1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型
5. 获得测评报告
二、申请测评地址
本次测评为首批大模型测评,后续会持续更新专用智能座舱大模型测评结果,欢迎智能座舱大模型研发机构申请报名。
邮件标题:SuperCLUE智能座舱测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE-Image