中国信通院可信AI智能体多项评估进行中

文摘   2024-11-14 11:16   北京  




近年来,大模型的技术能力不断跃升,为场景应用和用户交互夯实技术基础。智能体作为大模型的重要应用模式,将模型能力转化为实际问题的解决能力,打通业务场景和人类交互的桥梁,正在承接日益复杂的提质增效需求。目前,智能体技术特点初步形成、应用场景逐渐深化、服务边界不断拓展,有望重塑产业生态,驱动产业变革。然而,智能体作为新型技术,应用落地仍面临挑战,应用效能评估难度较大,亟需通过评测等手段进行全面评价,为智能体应用发展提供指引。


中国信息通信研究院(以下简称“中国信通院”)人工智能研究所密切跟踪智能体技术发展和应用现状,并依托中国人工智能产业发展联盟、人工智能关键技术和应用评测工业和信息化部重点实验室,联合业界单位共同构建了《智能体技术要求与评估方法》系列标准,目前已发布智能体平台和工具、智能体技术能力、智能体应用服务、金融智能体、政务智能体等十余项联盟标准。此外,由中国信通院牵头的国际标准《基于大模型的智能体技术能力要求与评估方法》已在ITU-T SG16成功立项,行业标准《智能体开发平台技术要求》《智能体通用技术能力要求》《智能体应用服务能力要求》《面向场景的智能体技术要求 第1部分:数据分析》均已在中国通信标准化协会TC1WG1工作组成功立项。同时,中国信通院依据以上标准已开展多轮智能体评估工作,截至目前,累计为13家企业提供智能体专项评估服务。


图 1 智能体评估结果


为进一步促进智能体应用,提升技术方先行示范影响力,协助应用方选取适配产品,中国信通院将持续开展智能体评估工作。评估面向通用智能体、行业智能体和任务智能体三大方向,具体评估范围如下。


通用智能体

1

智能体平台和工具

关注智能体管理、开发和使用过程,旨在保障智能体技术支撑底座稳定可控,评价指标涵盖智能体平台管理和运营、智能体开发和管理、API服务和管理共3个能力域,30余个能力项。

2

智能体技术能力

关注智能体各项技术能力及性能,旨在建立全面的能力框架并评估,评价指标涵盖感知认知能力、规划能力、记忆能力、执行能力共4个能力域,30余个能力项。

3

智能体应用服务

关注智能体服务的质量和效果,旨在保障智能体服务稳定可靠,评价指标涵盖应用丰富度、服务优越度、应用成熟度共3个能力域,30余个能力项。


行业智能体

1

金融智能体

关注金融智能体在智能营销、智能投研、智能投顾、智能风控等场景的能力支持度,包含基础能力、业务场景和服务应用3个能力域,20余个能力项。

2

政务智能体

关注城市治理、公共服务、业务办公三大政务场景,包含基础能力、业务场景、服务应用3大能力域,20余个能力项。

3

汽车智能体

关注汽车研发场景、生产场景、营销场景等专用领域场景,包含基础能力、场景支持和服务应用3个能力域,20余个能力项。

4

手机智能体

关注智能体在手机行业的技术及应用效能,包含基础层、模型层、能力层、应用层以及安全层5个能力域,60余个能力项。


任务智能体

1

数据分析智能体

关注数据分析智能体在对话式分析和可视化分析两大场景上的任务覆盖度,包含技术能力、场景能力和服务成熟度3个能力域,20余个能力项。

2

客服智能体

关注客服智能体在用户服务、坐席服务、运营服务等场景的服务能力,包含服务能力和应用成熟度2个能力域,20余个能力项。

3

运维智能体

关注运维智能体在异常检测、故障分析、自主决策、故障修复等运维专用场景上的任务覆盖度,包含基础技术能力、场景应用能力和服务成熟度3个能力域,30余个能力项。

4

营销智能体

关注营销智能体在市场分析、营销策划、沟通表达、产品推广等场景的能力支持度,包含能力支持度和应用服务2个能力域,20余个能力项。

5

办公智能体

关注基础办公、任务管理、协同办公、人力资源等办公场景,包含能力支持、业务场景和应用服务3个能力域,30余个能力项。


图 2 智能体标准体系


表1 智能体系列标准进展情况


联系人

张老师,19852822678

zhangdan3@caict.ac.cn


陶老师 18951766189

taoqiuyu@caict.c.cn


陶老师 15150591515

taoyue@caict.ac.cn


孟老师 13893360177

mengyue@caict.ac.cn


END -


AI工程化推进委员会

2017年10月初,工业和信息化部正式批复中国信息通信研究院承建人工智能关键技术和评测工业和信息化部重点实验室(以下简称“部重点实验室”)。
中国信通院为进一步推动我国人工智能的工程化进程,依托部重点实验室成立了AI工程化推进委员会。委员会聚焦人工智能开发工具和平台,AI研发运营和管理,大模型应用,知识计算应用和AI数据集治理等技术方向,以产业活动、研究报告、标准和评估、最佳实践等手段,推动人工智能工程化相关的工具、系统、流程和治理体系的完善。
企业单位申请链接:

https://mp.weixin.qq.com/s/nZ_ZkBtk18lRyHuCkGEqCg


可信AI评测
“可信AI评测”是依托于中国信息通信研究院开展的第三方评估测试工作,涵盖人工智能产品服务评测、应用成熟度评测和可信风险评估三大模块,目前已完成人工智能评测标准体系,拥有权威的测试数据集和软硬件环境,可为企业单位出具技术产品测试报告和证书。
 最新文章