第4390期三川汇文化科技
按照广播电视和网络视听行业标准制定程序和计划安排,国家广播电视总局组织相关单位编制《数字虚拟人技术要求》行业标准,现对已通过全国广播电影电视标准化技术委员会审查的报批稿予以公示。公示时间截止日期为2024年11月24日。
公众号后台关键词回复【数字虚拟人技术要求】获取全文文档。
编审 | 时光
编辑 | 半岛
来源 | 国家广播电视总局
国家广播电视总局科技司关于对《数字虚拟人技术要求》广播电视和网络视听行业标准报批稿进行公示的通知
按照广播电视和网络视听行业标准制定程序和计划安排,国家广播电视总局组织相关单位编制《数字虚拟人技术要求》行业标准,现对已通过全国广播电影电视标准化技术委员会审查的报批稿予以公示。如有异议,可于公示期内向国家广播电视总局科技司提出,并明确提出异议的事实依据、真实姓名、工作单位和联系方式等。公示时间:2024年11月15日至2024年11月24日监督电话:(010)86092148,68016436(传真)
数字虚拟人技术要求
5 总体架构数字虚拟人按照人物形象分类,分为2D数字虚拟人和3D数字虚拟人。数字虚拟人按照交互模式分类,分为非交互式数字虚拟人和交互式数字虚拟人。数字虚拟人按照驱动模式分类,分为算法驱动型数字虚拟人和真人驱动型数字虚拟人。数字虚拟人主要应用场景分为内容播报、交互客服、虚拟演播和内容创作等。其中内容播报包含新闻资讯播报/手语播报、电影/电视/专题片/纪录片介绍和直播带货等;交互客服包含虚拟客服、智能助手和交互问答等;虚拟演播包含综艺主持、虚拟演唱会、文娱活动和用户代理虚拟分身等;内容创作包含影视创作、视频创作、广告创作和游戏创作等。数字虚拟人总体技术架构包括数字虚拟人形象、算法驱动能力、真人驱动能力、平台能力和安全能力等内容,总体架构见图1。数字虚拟人形象包括2D真人、2D卡通、3D写实、3D卡通和建模技术。数字虚拟人算法驱动包括驱动能力、合成能力和多模态能力。其中,驱动能力又分为文本驱动能力、语音驱动能力和视频驱动能力;合成能力包含语音合成能力和视频合成能力;多模态能力包含语音识别能力和自然语言处理能力。数字虚拟人真人驱动包含身体动作捕捉、表情捕捉和捕捉数据。数字虚拟人平台能力,应支持数字虚拟人的制作和生成,支持数字虚拟人的维护配置。平台服务能力可选择云服务或者本地服务。数字虚拟人安全能力,应为数字虚拟人应用提供安全保障,覆盖数据及算法安全和个人信息保护等。△图1 数字虚拟人总体技术架构
6 形象要求a) 符合场景的任务设定,在人物形象、表情、服饰等方面得体、美观;c) 形象完好,不存在扭曲、马赛克、跳帧、破损、音视频延时、口唇不一致等情况;e) 不存在侵犯第三方权利及法律法规禁止的其他情形。a) 支持真人形象复刻,形象逼真自然,语音自然流畅;b) 支持通过照片、视频等方式生成形象,保证面部五官、肤色、牙齿、明暗等准确还原。a) 支持 2D卡通形象绘制,对特有的卡通形象进行建模;b) 支持不同景别、姿态,形象灵动活泼,动作自然舒展。a) 支持通过 3D 建模或真人扫描等方式刻画形象,头部模型覆盖面部、口腔、上下牙、舌头、独立左右眼球、眼睑、泪腺等;头部、面部、身体纹理有效区域面积高;毛发系统,如头发、睫毛、面部绒毛等纹理清晰。e) 支持光照效果的处理,如光影、折射、反射等效果。a) 支持 3D卡通形象绘制等方式,对特有的卡通形象进行建模;b) 支持不同景别、角度、姿态,形象灵动活泼,动作自然舒展;b) 人体网格应闭合,部位之间不应出现缝隙和破洞;c) 应具有易于应用的拓扑结构,能够适应常态化的数据存储和传输需求;d) 骨骼系统设计应符合生物生理及运动结构,实现自然、真实的动作效果;e) 骨骼控制器应易于操作,确保动画制作的精度和效率;f) 蒙皮权重应适用于不同关节和组织部件,实现平滑过渡;g) 建模流程应包括原画设计、3D网格模型搭建与雕刻、贴图和材质绘制;h) 宜支持头发、衣服等配件的物理模拟渲染和交互;7 算法驱动能力要求a) 应支持多种驱动方式,包括文本驱动、语音驱动、视频驱动等;c) 应支持的驱动范围包括口型、面部表情、肢体等;d) 数字虚拟人展示应支持端侧渲染,宜兼容多操作系统。a) 支持不同的TTS模型和实现框架,例如 HiFi-GAN、DurIAN等;b) 支持文本的处理,支持区分文本中的数字和英文字母;c) 支持从文本中提取信息,判断文本对应的情感情绪、重音位置、常见多音字,基于多模态交互系统,驱动生成数字虚拟人的语音、动作、表情;a) 支持通过“语音驱动”及人像合成的处理流程,驱动生成数字虚拟人的语音、动作、表情、口型;d) 具备动态语音活性检测能力,在传统语音活性检测基础上,增加对长语音场景下停顿的检测,动态调整静音门限,识别其中的有效文本。a) 支持计算机视觉算法,基于记录面部表情和肢体动作的视频,驱动生成数字虚拟人的语音、动作、表情、口型;b) 支持的视频包括通过摄像头记录人体面部表情、肢体动作的视频;a) 支持端到端语音合成模型,支持 HiFi-GAN、VAE、Diffusion(扩散模型)、Glow(流生成模型)、DurIAN等多种语音合成模型;c) 实现字词级别的音量、时长的细粒度控制,实现音量、语速的调节;d) 实现多情感高表现力的可控语音合成效果,根据文本内容自动切换合成不同情感的语音;e) 支持文本语音合成、真人语音录制、真人语音变声等多种形式;f) 支持针对应用场景(包括播报、解说、诗歌、阅读、客服等),生成多种语音合成风格;g) 支持从分钟级到小时级不同语料规模快速个性化定制;a) 支持多种渲染引擎技术对数字虚拟人形象进行渲染,包括 UE、Unity等;f) 在 1080P分辨率条件下,视频合成实时率不高于 1;g) 合成后的视频流畅,支持帧率不小于 25FPS。a) 发音准确,不存在漏音吞音、多余发音、音素错误、音调错误等情况;语速、停顿断句、音高、音长、音量、重音等符合自然语言发音规律;语音语调舒适;常见多音字发音正确。b) 口型、唇形自然,与发音同步,符合发音的规律,具备饱满度和表现力。c) 动作精准、自然,与交互语境契合,动作包括但不限于头部、肢体、全身等部位。d) 支持实时渲染技术,支持基于物理光照和实际环境光源、相机位置、材质参数等实时计算,完成图像渲染。e) 在交互客服场景下,支持多轮对话能力,根据上下文内容或用户的问询,进行判断选择,完成用户交互;支持通过对话树等方式,完成不同业务场景下的多轮对话流程跳转及应答。e) 支持将一种语言的文本转化成另一种语言的文本;f) 支持回答用户提出的问题,包括基于检索的问答系统和基于生成的问答系统。8 真人驱动能力要求a) 支持对采集到的运动数据进行去噪、对齐、插值、滤波等处理,得到准确、平滑、连续的运动数据;b) 支持将运动数据应用于虚拟人物角色的动画制作、影视记录、直播等领域中,可以实现逼真、流畅、自然的运动效果;a) 应支持使用红外 LED灯或激光灯作为光源,确保灯光强度和均匀性,同时避免干扰和反射;b) 宜支持采用自发光或高反光率的球体、贴片作为标记点,标记点数量和布局应根据运动物体的特点和运动需求进行合理设置;c) 摄像机数量和布局应根据运动物体的特点和运动需求进行合理设置,确保覆盖面积和视角的完整性和重叠度;d) 应支持使用特殊的光学摄像机和数据采集软件,将运动物体的标记点运动轨迹记录下来,形成运动数据。a) 支持使用惯性传感器进行运动捕捉,传感器数量和布局根据捕捉物体的特点和运动需求进行合理设置,通常包括加速度计、陀螺仪、磁力计等多种传感器;b) 支持将传感器采集到的运动数据记录下来,形成运动数据,在数据采集过程中需要确保传感器的稳定性和准确性。a) 支持使用摄像机进行运动捕捉,摄像机性能、数量和布局根据捕捉物体的特点和运动需求进行合理设置;b) 支持在摄像机采集画面上添加标记点,标记点数量和布局根据运动物体的特点和运动需求进行合理设置;c) 支持将摄像机拍摄到的标记点运动轨迹进行记录,形成运动数据。a) 支持使用摄像机、红外雷达等传感器或标记点的方式对动捕演员面部进行捕捉;b) 支持使用传感器采集面部标记点的位置、形状等数据形成面部表情的运动数据;c) 支持对采集到的面部运动数据进行处理,提取面部表情的关键特征,如面部肌肉的收缩程度、面部皱纹的形状等,形成面部表情的模型;d) 支持将面部表情模型映射到虚拟人物的面部模型上,实现虚拟人物面部表情的变化;e) 支持根据实际应用需求对面部表情的映射效果进行校准和调整,使虚拟人物的面部表情更加逼真、自然、流畅。注:动捕演员又称为“中之人”,是指将自身动作、表情、语音等信息实时映射到数字虚拟人身上的演员。a) 能够兼容捕捉数据文件的格式,以便进行数据解析和处理;b) 支持实时捕捉数据,以便快速响应并展示出相应的动作效果;c) 支持精确还原真实人体的捕捉效果,保证捕捉数据的采样率和精度满足实际使用;d) 支持对动作控制器的参数进行调整,以便实现各种不同的动作效果。9 平台能力要求a) 支持针对内容播报、交互客服、虚拟演播、内容创作等应用场景;c) 支持数字虚拟人形象的资产管理、业务服务配置及内容生产服务;e) 支持数字虚拟人形象选型、音色配置、背景空间管理、发音及动作配置、会话管理、流程管理等功能;j) 真人驱动型平台技术支持真人驱动的模式,真人驱动可以和算法驱动混合使用,相互接管。a) 应支持公有云部署、私有云部署或本地化部署方式;b) 应支持多类型前端接入能力,包括但不限于 PC、移动终端、大屏设备等终端接入设备,以及网页、APP、小程序、H5等应用形式,满足系统的前端兼容性;a) 应支持数字虚拟人形象实时生成和动态配置,支持实时视频推流服务,支持云渲染。b) 应支持可视化的数字虚拟人配置,包括形象、语音、服饰、姿态、位置等。c) 应支持可视化的合成和驱动参数配置,包括 ASR、NLP、TTS 等参数设置;支持 HTTPS、JSON等协议进行参数的调用和配置。d) 应支持用于生成或配置数字虚拟人的素材输入,包括图片、视频、文本等。e) 应支持数字虚拟人形象、音色、服饰、姿态、动作的定制。f) 应支持SSML 文本和数字虚拟人进行视频制作。i) 应支持对接第三方 3D形象模型等数字资产,适配对应的模型参数,完成渲染及驱动。j) 宜配置大屏、音响、麦克风、摄像头等数字虚拟人展示及交互设备,保障数字虚拟人多模态识别及交互效果。k) 云端部署方式应支持 APaaS的接口调用方式,具备权限、公共参数、签名等访问控制机制。l) 本地部署方式应支持数字虚拟人形象与 ASR、NLP、TTS 等底层技术能力的解耦。m) 本地部署方式应支持多种通信协议与第三方音视频系统对接。10 安全能力要求数字虚拟人应用主体对其所处理的数据及算法安全负责,满足如下要求:a) 应在法律、行政法规规定的目的和范围内收集、使用数据;b) 应采取相应的技术措施和其他必要措施,保障数据安全;c) 应根据业务需求,配置数据存储和使用的安全策略,为用户配置合理的权限,具备相应的访问控制机制;d) 在数据采集过程中应采用必要的技术手段,具备数据准确性、安全性的保障能力;e) 在数据传输过程中,对于需要进行加密处理并传输的业务数据,应部署相应的加密措施;数字虚拟人应用主体对其所处理的个人信息安全负责,满足如下要求:a) 处理个人信息应遵循合法、正当、必要和诚信原则,不应通过误导、欺诈、胁迫等方式处理个人信息;b) 处理个人信息应具有明确、合理的目的,并应与处理目的直接相关,采取对个人权益影响最小的方式;c) 处理个人信息前,应以显著方式、清晰易懂的语言真实、准确、完整地向个人告知个人信息的处理目的、方式、范围;d) 当对真实人脸、人声等生物识别信息进行编辑时,应告知被编辑的个人,并取得其单独同意。[1] YD/T 4393.1—2023 虚拟数字人指标要求和评估方法 第1部分:参考框架[2] YD/T 4393.2—2023 虚拟数字人指标要求和评估方法 第2部分:2D真人形象类合成技术[3] T/BIA 17-2024 数字人指标要求及评估方法 第1部分:平台基础能力[4] ITU-T F.748.15 Framework and metrics for digital human application systems[5] ITU-T F.748.14 Requirements and evaluation methods of non-interactive 2Dreal-person digital human application systems 加入私密社区行业窗口与顶尖新媒体【三川汇文化科技】已运维4000多期(持续十多年,跨越4000多天),推送文化、旅游、体育领域专业优质文章8000多篇。【三川汇文化科技】始终秉承权威、专业、准确、及时、实用的特点,聚焦文化、旅游、体育等行业前沿动态、发展思考,直面新时代行业发展重大问题,融汇行业内外精英的观察和理解,得到了全国从中央到地方各级政府公务员、企事业单位负责人、精英从业者的高度关注与大力支持,亦架设起沟通各方的畅通渠道,是中共中央宣传部、国家发展和改革委员会、文化和旅游部 、国家广播电视总局、国家电影局、国家新闻出版署、国家文物局、国家体育总局等有关部门,各地市政府,以及全国各文化、旅游、体育企业的重要助手。欢迎订阅关注!点击下方【阅读原文】加入「三川汇文化科技」,这里,是你的舞台~