可信AI智能体-手机智能体专项评估正式启动

文摘   2024-10-30 14:09   北京  




智能体作为大模型应用的重要形态,通过智能体工具调用、智能体工作流、智能体人机交互等方式,进一步拓宽了大模型应用场景。手机智能体以个人移动智能终端为载体,以大模型为决策核心,能够感知用户需求,实现自主决策执行,为用户提供智能化交互模式和个性化服务体验。


中国信息通信研究院(以下简称“中国信通院”)人工智能研究所高度关注手机智能体技术的发展动态,依托中国人工智能产业发展联盟和人工智能关键技术和应用评测工业和信息化部重点实验室,联合业内专家共同编制了《智能体技术要求与评估方法 第7部分:手机智能体》标准,本标准结合技术方产品能力和应用方关注重点,旨在综合评估手机智能体的技术及应用效能。标准自2024年4月启动编制,在标准框架设计、标准内容编写、标准文稿研讨及多轮修订工作中,得到了业界专家的广泛关注和积极参与。


为加速推进手机智能体应用落地,中国信通院现正式启动手机智能体专项评估


评估范围


评估依据《智能体技术要求与评估方法 第7部分:手机智能体》标准,围绕基础层、模型层、能力层、应用层以及安全层展开评估,共计5个能力域,60余个能力项。


1、基础层:关注手机智能体的底层大模型能力,包括端云两侧大模型性能、大模型轻量化等指标。

2、模型层:关注手机智能体的通用模型能力,涵盖文本、视觉、语音等维度,包括语言理解与生成、视觉生成、语音识别、语音合成等指标。

3、能力层:关注手机智能体的各项技术能力及性能,围绕感知、记忆、决策、执行等方面,包括用户感知、对话记忆、任务发起、工具调用等指标。

4、应用层:关注手机智能体在应用过程中的质量和效果,包括助手服务、创作服务、检索服务、交互服务、系统服务、个性化服务等指标。

5、安全层:关注手机智能体的安全可控能力,包括内容安全、数据与隐私安全、执行安全等指标。


图1 评估范围


评估流程


评估流程主要分为商务确认和技术对接两个部分,商务流程依次为参测意向沟通、验证流程申请和商务合同确认,技术对接主要围绕参测材料的准备、评价测试的实施及验证结果的评审展开。


图2 评估流程


评估时间

1. 评估报名:即日起开始;

2. 评估执行:2024年9月至2024年11月底;

3. 专家评审:2024年11月;

4. 证书颁发:2024年11月公开会议。


联系人

张老师,19852822678

zhangdan3@caict.ac.cn


陶老师,15150591515

taoyue@caict.ac.cn


王老师,18755879708

wangyiru@caict.ac.cn


表1 智能体系列标准进展情况


图3 可信AI智能体评估通过情况


END -


AI工程化推进委员会

2017年10月初,工业和信息化部正式批复中国信息通信研究院承建人工智能关键技术和评测工业和信息化部重点实验室(以下简称“部重点实验室”)。
中国信通院为进一步推动我国人工智能的工程化进程,依托部重点实验室成立了AI工程化推进委员会。委员会聚焦人工智能开发工具和平台,AI研发运营和管理,大模型应用,知识计算应用和AI数据集治理等技术方向,以产业活动、研究报告、标准和评估、最佳实践等手段,推动人工智能工程化相关的工具、系统、流程和治理体系的完善。
企业单位申请链接:

https://mp.weixin.qq.com/s/nZ_ZkBtk18lRyHuCkGEqCg


可信AI评测
“可信AI评测”是依托于中国信息通信研究院开展的第三方评估测试工作,涵盖人工智能产品服务评测、应用成熟度评测和可信风险评估三大模块,目前已完成人工智能评测标准体系,拥有权威的测试数据集和软硬件环境,可为企业单位出具技术产品测试报告和证书。
 最新文章