汽车智能座舱大模型榜单8月首发,引入function-call,国内大模型表现优异

文摘   科技   2024-08-07 12:10   浙江  

2024年8月7日,汽车智能座舱大模型SuperCLUE-ICabin基准榜单发布。本次测评涵盖国内外最具代表性的9个通用大模型。

8月测评摘要


测评要点1:GPT-4o领跑
GPT-4o以81.76分的成绩成为唯一在SuperCLUE智能座舱基准中得分超过80分的模型。它在基础能力和应用能力上的表现均领先于其他模型,展现了其在技术和应用方面的显著优势。


测评要点2:国内大模型表现优异
国内大模型qwen_max_longcontext在本次测评中表现优异,取得了78.54分,与GPT-4o的差距不大,特别是在应用能力上两者仅相差2.43分。其余国内大模型的得分集中在74分以上,且彼此之间的差距很小,体现了国内大模型在座舱领域的强大竞争力。


测评要点3:国内大模型普遍基础能力弱于应用能力
参评的国内大模型普遍存在基础能力弱于应用能力的现象,其中最高分差者可达8.98分。这一现象表明,国产大模型需要着重关注座舱基础领域,并在未来进行进一步的优化提升。
#榜单概览

榜单地址:www.superclueai.com

详情请查看下方#正文。
#SuperCLUE-ICabin 介绍
SuperCLUE-ICabin是一个专门针对汽车智能座舱的大模型测评基准,旨在为智能座舱的研发和生产提供一套科学、严谨的评价体系。本文将详细介绍SuperCLUE智能座舱评测基准的构成、测评方法和应用场景,以期为智能座舱行业的发展提供有益的参考。
文章地址:
www.CLUEbenchmarks.com/superclue_icabin.html
项目地址:
https://github.com/CLUEbenchmark/SuperCLUE-ICabin

1. 特点

(1)首次引入function-call模式
在本次测评中,绝大多数任务采用了function-call模式构建数据集。这种模式能够充分考察大模型将用户指令转化为实际可操作代码的能力,是本次测评的亮点。
(2)深入智能座舱领域行业细节
该测评体系充分调研了智能座舱中的常用场景,设计的指令准确还原了用户在真实场景下与智能座舱的交互,确保测评结果的准确性和可靠性。
(3)应用潜力评估
该体系还深入探讨了智能座舱大模型在实际应用场景中的综合能力,包括出行规划、用车答疑等常见场景,通过模拟实际场景中的任务和问题,从而评估其在不同场景下的适用性和实用性。

2. 任务方向与评价体系

测评体系分为任务方向与评分标准。
2.1 任务方向
智能座舱关键能力评估

基础能力

a.上下文信息理解与处理基于上下文信息,包括对话历史、用户意图、实体关系和时间顺序,以准确地解释用户的需求。
b.复杂意图推理能力解析用户的自然语言输入,识别其中的情感和情境线索,然后做出适当的响应。
c.泛化表达理解能力根据用户给出的一条泛化指令,准确地反馈相应的操作。
d.多指令识别能力根据用户给出的多条指令,准确地给出相应的操作序列。

e.个性化推荐能力:分析和处理用户的偏好、行为数据和兴趣标签等因素,以生成符合用户口味和需求的内容、产品或服务推荐。

应用能力

f.车身服务能力:解决用户车辆相关问题、提供操控指导和故障维修方面的综合能力。

g.娱乐能力:满足用户娱乐需求方面的综合能力。

2.2 评价标准

  • 回答正确:模型提供的答案符合问题的要求,并且是准确的、相关的和有帮助的。

  • 用户意图理解:针对用户的口语化表达、使用词义多样性等可能产生歧义的对话场景,试图对用户的意图进行推测并给出恰当的回应。

  • 逻辑与清晰度:答案表达清晰,逻辑性强,易于用户理解。

  • 技术可行性:回答提出的操作是依据所提供文档中的函数调用信息制定,确保技术上的可行性。

  • 个性化匹配度在遵循用户意图,满足用户目的和基本需求的基础上,能够结合用户个人偏好与身份特点,给出个性化的回答。

  • 内容的丰富性在遵循用户意图,满足用户目的和基本需求的基础上,针对用户提出的话题,答案能够尽可能的做到内容丰富、多样。

 2.3 测评及计分方式

整体测评流程包括:1.模型答案获取;2.评价获取;3.计算模型得分。

1)模型答案获取
通过单轮或多轮问答形式,使用API调用方式来获取模型的答案。

2)评价获取

对于每个任务类型都有一个或多个评价维度,每个维度按照评分标准分为5级,定义为1-5分。结合参考答案使用超级模型进行打分,模型回答的得分是对应各个维度得分的平均值。例如“多指令识别能力”任务,设定三个评价打分维度:
a.用户意图理解:针对用户的口语化表达、使用词义多样性等可能产生歧义的对话场景,试图对用户的意图进行推测并给出恰当的回应。
b.逻辑与清晰度:答案表达清晰,逻辑性强,易于用户理解。
c.技术可行性:回答提出的操作是依据所提供文档中的函数调用信息制定,确保技术上的可行性。

3)计算模型得分

SC-ICabin评分规则如下:本次测评设置单轮与多轮问答题目共计406道。为了评估各个模型的表现,我们计算了它们在以上406个问题上的答案均值,并通过归一化将结果转换为百分制分数,以作为模型的测评得分。

4)测评过程示例(以GPT 4o为例)

a.问题

已知车辆当前状态信息:导航未开启,用户在驾驶位,音乐未播放,通讯应用未打开。
请基于提供的函数调用文档与车辆当前状态信息,完成任务:设置导航到上海虹桥机场。播放舒缓音乐。发送短信给张三:我大约一小时后到。

b.答案

根据提供的函数调用文档和当前车辆状态信息,可以按如下顺序完成任务:
1. 设置导航到上海虹桥机场。
2. 播放舒缓音乐。

3. 发送短信给张三,内容为“我大约一小时后到”。

首先,调用 set_destination 函数设置导航目标位置;然后,调用 play_music_type 函数播放舒缓音乐;最后,调用 send_message 函数发送短信。
根据问题中的要求,以下是3个具体的函数调用格式:

1. set_destination

{  "name": "set_destination",  "parameters": {    "destination": "上海虹桥机场"  }}

2. play_music_type

{  "name": "play_music_type",  "parameters": {    "music": "舒缓音乐"  }}

3. send_message

{  "name": "send_message",  "parameters": {    "phone_number": "+08612345678",    "message": "我大约一小时后到"  }}
你可以按上述步骤进行函数调用以完成任务。
c.评价
我的思考与答案:
根据用户的问题,我们需要完成三个任务:设置导航到上海虹桥机场,播放舒缓音乐,以及发送短信给张三,告知大约一小时到达。通过查看API文档,我们可以确定如下调用:
1. 设置导航,使用 set_destination API。
2. 播放舒缓音乐,使用 play_music_type API。
3. 发送短信给张三,使用 send_message API。
具体API调用如下:

1. set_destination

{  "name": "set_destination",  "parameters": {    "destination": "上海虹桥机场"  }}

2. play_music_type

{  "name": "play_music_type",  "parameters": {    "music": "relaxing"  }}

3. send_message:假设张三的电话号码为 '+08612345678'

{  "name": "send_message",  "parameters": {    "phone_number": "+08612345678",    "message": "我大约一小时后到"  }}

问题及改进的反馈意见:

AI助手的回答在理解用户任务和逻辑组织方面都表现较好,但在"播放舒缓音乐"的指令中,直接使用了“舒缓音乐”这个中文词,而没有翻译成文档中规定的英文类型("relaxing")。此外,AI助手应该在更详细的上下文中验证所有 API 调用的参数是否完全符合要求,确保准确性。

打分与评价开始:

基于标准1的<用户意图理解>:AI助手能够很好地理解用户的意图,并且明确地分解出了三个任务。基于标准1的得分:4.5分。
基于标准2的<逻辑与清晰度>:AI助手的回答逻辑结构清晰,步骤合理,表达准确且易于理解。但在"播放舒缓音乐"这里有一个小问题,即没有将舒缓音乐转换为指定的音乐类型名。基于标准2的得分:4分。
基于标准3的<技术可行性>:AI助手选择的API函数基本是正确的,但在播放舒缓音乐时未注意到需要使用文档中的"relaxing"。虽然API调用的整体流程没问题,但这个小错误影响了技术可行性。基于标准3的得分:4分。
综合以上,AI助手的回答的综合得分(平均分)为 [[4.17]]

测评结果

模型象限

为体现大模型所处的不同阶段与定位,我们通过模型在基础能力和应用能力上的不同表现,将其划分成4个模型象限。

其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。

总成绩榜单

任务大类得分

基础能力榜单

应用能力榜单


测评分析

1. 模型总体能力分析
从本次测评结果来看,参评模型在智能座舱基准的表现大体可以分为三个梯队。其中GPT-4o以81.76分领跑SuperCLUE-Icabin基准,位于第一梯队。以qwen_max_longcontext为代表的模型的得分集中在70分以上,位于第二梯队。其余模型则位于第三梯队。
2. 各任务得分分析
1)模型基础能力得分与应用能力得分关系分析
模型的基础能力得分与应用能力得分之间有较强的正相关性。我们计算了模型基础能力得分与应用能力得分之间的皮尔逊相关系数为0.846,表明这两者之间存在高度相关;这意味着模型基础能力提升的同时,也会带来应用能力的提升。
2)基础能力得分

从整体上看,GPT-4o在多个维度上表现均较为优异,得分普遍较高。其中,在泛化表达理解能力上,头部国产大模型与GPT-4o能力差距不大;在个性化推荐能力上,以ERNIE-3.5-128K为代表的国产大模型得分超越GPT-4o;其余维度上GPT-4o的得分显著高于其余参评大模型。
3)应用能力得分
通过测评数据可以看出,大部分模型普遍存在车身服务能力的表现优于娱乐能力的现象,说明参评的模型在车身服务上已经具备比较成熟的表现,而在娱乐方面带给用户的体验相对不足,这一点与目前市场上用户对于智能座舱的反馈基本一致。

4)应用能力-车身服务能力分析

通过测评数据可以看出,GPT-4o在车身服务能力的三个维度上均取得了最高分,展现了其强大的能力。在国产大模型中,qwen_max_longcontext和讯飞星火V3.5的表现也很出色,三个维度的得分均超过了80分。其余模型则普遍在某些测评任务上表现较弱,导致其车身服务能力的总体得分较低。
5应用能力-娱乐能力分析


通过测评数据可以看出,GPT-4o在多个维度上表现出色,尤其是在出行规划和儿童关怀方面。其中值得注意的是,qwen_max_longcontext在百科问答维度表现卓越,得分超过GPT-4o,展现了国产模型强劲的发展势头。


# 示例

示例1:泛化表达理解能力

问题:场景信息:驾驶座椅靠后,用户坐在驾驶位。请基于提供的函数调用文档与场景信息,回答指令:把驾驶座椅稍微往前调一点。

模型回答比较:

GPT-4o(5分):根据提供的API文档和场景信息,您可以使用 `control_seat` 函数来调整座椅的位置。以下是针对“把驾驶座椅稍微往前调一点”的函数调用格式:
{  "name": "control_seat",  "parameters": {    "seat_position": "front_left",    "adjustment": "forward",    "level": "low"  }}

ERNIE-3.5-128K(5分)

{  "name": "control_seat",  "parameters": {    "seat_position": "front_left",    "adjustment": "forward",    "level": "low"  }}

Llama-3-8B-Instruct(2.67分):根据提供的函数调用文档和场景信息,用户坐在驾驶位,驾驶座椅靠后。要把驾驶座椅稍微往前调一点,可以使用control_seat函数。

函数调用格式如下:
{  "name": "control_seat",  "parameters": {    "seat_position": {      "adjustment": "forward",      "level": "low"    }  }}
其中,seat_position 参数指定了要调整的座椅位置,adjustment 参数指定了调整方向为 “forward”,level参数指定了调整幅度为“low”,表示轻微调整。

示例2:复杂意图推理能力

问题:请基于提供的函数调用文档,回答指令:车顶能打开一点吗?
模型回答比较:
GPT-4o(4.33分)根据提供的函数调用文档,车顶打开是控制天窗的操作,应该使用 control_sunroof 函数,并设置打开的级别(这里选择 low 表示打开一点)。
如下是函数调用格式:
{  "name": "control_sunroof",  "parameters": {    "action": "open",    "level": "low"  }}

Yi-1.5-34B-Chat-16K(3.33分):要发出“车顶能打开一点吗?”的指令,我们需要在提供的API文档中找到与车顶控制相关的函数。从文档中我们可以看到,与车顶控制相关的函数是 control_sunroof。这个函数允许控制天窗的打开和关闭,同时也支持调节天窗的倾斜和滑动。

根据上面的描述,我们需要使用 control_sunroof 这个函数。但是,这个函数的参数中并没有直接提供一个可以调整天窗开合程度的选项。不过,我们可以尝试使用 way 参数来指定是倾斜(tilt)还是滑动(slide),然后结合 action 参数来指定是打开(open)。虽然这样的参数组合不完全符合我们想要的“打开一点”的要求,但这是基于提供的API文档所能提供的最接近的操作指令。

因此,基于上面的解析,一个可能的指令是:

{  "name": "control_sunroof",  "parameters": {    "action": "open",    "way": "tilt"  }}
这将会尝试打开天窗,但具体幅度取决于车辆本身的功能设置。如果你的目的仅仅是打开车顶,并且有对应的参数设置,那你可以使用 "way": "slide" 来尝试打开车顶。如果有调整开合程度的参数(比如 level),你应该添加到 "parameters" 部分中以具体控制打开的程度。由于文档中没有这样的参数,我们只能使用这些已有的参数来进行操作。
Doubao-lite-32k(2.67分):
{  "name": "control_sunroof",  "parameters": {    "action": "tilt",    "level": "medium"  }}
示例3:多指令识别能力
问题:已知车辆当前状态信息:雨刷速度为低速,后排左座椅靠前,空调温度为22度,前车灯为中等亮度,后视镜高度正常。
请基于提供的函数调用文档与车辆当前状态信息,完成任务:开启雨刷至高速并将后排左座椅向前调整,空调温度调至21度,前车灯调至最亮,后视镜向上调整。
模型回答比较:

GPT-4o(4分):根据提供的车辆当前状态信息和任务需求,可以按顺序调用以下函数完成任务:

1. 开启雨刷至高速
2. 将后排左座椅向前调整
3. 空调温度调至21度
4. 前车灯调至最亮

5. 后视镜向上调整

调用1: 开启雨刷至高速
{  "name": "control_wipers",  "parameters": {    "speed": "high"  }}

调用2: 将后排左座椅向前调整

{  "name": "control_seat",  "parameters": {    "seat_position": "rear_left",    "adjustment": "forward"  }}
调用3: 空调温度调至21度
{  "name": "control_temperature",  "parameters": {    "temperature": 21  }}
调用4: 前车灯调至最亮
{  "name": "control_lights",  "parameters": {    "light_position": "front",    "action": "bright"  }}
调用5: 后视镜向上调整
{  "name": "control_mirrors",  "parameters": {    "mirror_position": "left",    "adjustment": "up"  }}

通过以上调用可以完成所有任务。

讯飞星火V3.5(3.67分):
[    {        "name": "control_wipers",        "parameters": {            "speed": "high"        }    },    {        "name": "control_seat",        "parameters": {            "seat_position": "rear_left",            "adjustment": "forward"        }    },    {        "name": "control_ac",        "parameters": {            "temperature": 21        }    },    {        "name": "control_lights",        "parameters": {            "light_position": "front",            "action": "bright"        }    },    {        "name": "control_mirrors",        "parameters": {            "mirror_position": "left",            "adjustment": "up"        }    }]
Llama-3-8B-Instruct(2.67分):根据提供的函数调用文档和车辆当前状态信息,以下是完成任务的函数调用:
1. 开启雨刷至高速:
{  "name": "control_wipers",  "parameters": {    "speed": "high"  }}
2. 将后排左座椅向前调整:
{  "name": "control_seat",  "parameters": {    "seat_position": "rear_left",    "adjustment": "forward"  }}

3. 空调温度调至21度:

{  "name": "control_climate_control",  "parameters": {    "temperature": 21  }}

4. 前车灯调至最亮:

{  "name": "control_lights",  "parameters": {    "light_position": "front",    "action": "bright"  }}

5. 后视镜向上调整:

{  "name": "control_mirrors",  "parameters": {    "mirror_position": "rear",    "adjustment": "up"  }}
因此,完整的函数调用结果为:
[  {    "name": "control_wipers",    "parameters": {      "speed": "high"    }  },  {    "name": "control_seat",    "parameters": {      "seat_position": "rear_left",      "adjustment": "forward"    }  },  {    "name": "control_climate_control",    "parameters": {      "temperature": 21    }  },  {    "name": "control_lights",    "parameters": {      "light_position": "front",      "action": "bright"    }  },  {    "name": "control_mirrors",    "parameters": {      "mirror_position": "rear",      "adjustment": "up"    }  }]
示例4:娱乐能力【儿童关怀

问题:请基于提供的函数调用文档,回答小孩的问题:小聪明车,帮我把座椅调低一点,再放首儿歌。

模型回答比较:

GPT-4o(3.67分):小聪明车,我将会帮您执行以下任务:

1. 将座椅调低一点。

2. 播放儿歌。

根据您的需求,以下是对应的函数调用:

1. 调整座椅:
{  "name": "control_seat",  "parameters": {    "seat_position": "rear_left",    "adjustment": "down"  }}
2. 播放儿歌:
{  "name": "play_music_type",  "parameters": {    "music": "children"  }}
是否需要我立刻执行这些操作?
Qwen2-7B-Instruct(3.67分):
{  "name": "control_seat",  "parameters": {    "seat_position": "rear_left",     "adjustment": "down",     "level": "low"  }}
{ "name": "play_music", "parameters": { "track": "儿歌" }}

Doubao-lite-32k(2.33分):

{    "name":"control_seat",    "parameters":{        "seat_position":"rear_left",        "adjustment":"down",        "level":"medium",        "seat_heating":"medium",        "seat_massage":"open"    }}
示例5:车身服务能力【汽车操控】

问题:请基于提供的函数调用文档与场景信息,完成用户要求。场景信息:用户A坐在驾驶座,用户C坐在副驾驶座。用户A觉得空调温度太高。此时,用户A:“请将空调温度调低一些。”

模型回答比较:
GPT-4o(4分):根据用户的要求,我们需要调整空调的温度。以下是调用的函数信息:
函数名:control_temperature
参数:temperature:新的温度设置值(需要比当前温度低,当前默认温度为24度)
此时,用户A请求将空调温度调低一些,我们将温度调整为22度:
{  "name": "control_temperature",  "parameters": {    "temperature": 22  }}

qwen_max_longcontext(3.33分):

{  "name": "control_temperature",  "parameters": {    "temperature": 20  }}

Llama-3-8B-Instruct(2分):根据提供的函数调用文档和场景信息,我将完成用户的要求。

用户A坐在驾驶座,用户C坐在副驾驶座。用户A觉得空调温度太高。用户A:“请将空调温度调低一些。”
为了实现这个功能,我将调用“control_climate_control”函数,并将参数设置为:
{  "name": "control_climate_control",  "parameters": {    "temperature": 22_  }}
这个函数将将空调温度降低到22°C。

测评申请

一、测评流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 获得测评报告

二、申请测评地址

本次测评为首批大模型测评,后续会持续更新专用智能座舱大模型测评结果,欢迎智能座舱大模型研发机构申请报名。

邮件标题:SuperCLUE智能座舱测评申请,发送到contact@superclue.ai

请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE-Image

CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章