【精选】城市台虚拟数字人的研究与实践
职场
科技
2024-11-09 10:18
北京
本篇论文摘要由AI工具根据论文原文生成,阅读原文请访问“广电猎酷”小程序“期刊在线”板块。
媒体深度融合发展和构建全媒体传播体系的大背景下,如何推动虚拟数字人技术在城市台的落地应用,在2D数字人系统的建设费用、制作流程、制作人员方面大幅降本增效,为主流媒体融合转型助力赋能,是我们研究和实践的重要课题。孙德莱(1972—),男,山东省淄博市广播电视台高级工程师,大学本科。主要从事广播电视中心技术、发射技术工作,曾负责电视播出系统、媒资系统以及调频同步网、本市 DTMB项目的技术规划、设计、建设工作,现负责台技术管 理、技术规划、技术创新等工作。
我们通过网络平台调研了市场上多家公司2D数字人制作情况,主要了解了几家主流公司的技术特点、资费标准,并进行了主观评价,如表1所示。这些公司的数字人虽然有各自不同的优点,但是与我们城市台的实际需求有一定的差距。
表1 多家公司2D数字人调研情况
1. 使用效率低:通常只能演播室内部使用,不同演播室之间无法设备共享,演播室制作的栏目通常服务于本地电视栏目播出,无法对其他电视台、自媒体等用户提供演播室制作服务。2. 栏目制作流程繁琐:现有电视栏目制作要经过演播室景区搭建、拍摄、栏目包装、导播、录制、后期、播出等流程以及对应岗位人员,流程多,投入大(见图1)。采用AI数字人资讯包装技术后,可生成和现有架构的融媒体演播室完全相同质量的电视栏目,同时具备如下优势
:1.单个用户端即可生成最终广播级电视栏目:无需演播室景区灯光、无需演播室传统摄录设备、无需导播摄像主播人员、无需后期非编剪辑,一台AI数字人资讯包装系统即可生成成片视频,从根本上改变了电视栏目制作流程。2. 全流程云端部署:用户端、AI数字人主播、栏目包装资源及最终视频均可实现云部署,设计师可不受地方限制完 成最终电视栏目制作。因此,AI数字人资讯包装是现有融媒体演播室向 AI、云渲染、5G、VR等数字化演播室转变的典型应用。
采用 4K 摄像机在蓝箱演播室对真人主播进行视音频采集,在录音棚进行音频采集。视频:分辨率 4K、4︰2︰2 10bit ;摄像机信噪比 >62dB ;音频:需在录音棚单独录制48K采样率,32bit 量化,单声道,信噪比>70dB ;录制文件格式:采用 XAVC-I 3840×2160 50P,保证 4︰2︰2 10bit。在蓝箱背景中对真人主播进行视频采集,每个机位独立 拍摄,确认基础姿态,同时对应多种姿态,每种姿态十分钟以上,动作结束回到基础姿态;不同衣服、表情算作不同姿态。1. 通过Tacotron2模型进行音频训练,通过 wav2lip进行唇形迁移视频训练,生成数字人形象声音模型。2.通过文稿驱动方式,使用数字人推理系统生成带蓝背景的数字人视频。3. 输出生成的视频以流媒体格式或文件格式传输至资讯包装系统服务器。将获取的蓝背景数字虚拟人通过广播级IP色键进行抠像,获取带掩膜的数字虚拟人,作为三维场景中一个元素进行编辑渲染。基于信创PBR渲染引擎/虚幻渲染引擎进行渲染,基于模板化组合动画编辑器进行编辑制作,即可获得广播级的电视栏目效果或者竖屏新媒体视频效果。基于文稿、姿态、情绪等文本/标注驱动,基于数字人推理系统生成带蓝背景的数字虚拟人视频。通过添加组合各类资讯包装模板完成视频播放列表,针对每个播出条目中引出项参数可修改场景中三维模型、贴图、材质、文字、视频、PPT 、颜色、资讯等任意可修改元素,快速生成最终播放列表。播放列表顺序播出,即可按帧生成最终成品电视栏目音视频;每一条单独播出可快速生成微视频,支持横屏/竖屏、4K/高清输出。
Tacotron2 是由Google Brain成员提出的一个基于神经网络的 End-to-End 语音合成框架。Tacotron2由两个部分组成 :一是带有注意力机制的循环序列到序列特征预测网络。它从输入的字符序列中预测梅尔(Mel)频谱序列。二是声码器。它通过预测的梅尔(Mel)频谱,生成时域波形。具体来说,序列到序列特征预测模型是由编码器和带有注意力机制的解码器两部分组成。编码器将字符序列转换为相应的隐藏特征表示,而解码器通过编码器生成的特征表示来预测频谱图。Tacotron2
模型架构如图2所示。LSTM与内容向量一起预测目标梅尔频谱帧,以及是否为最后一帧。预测的结果通过由5层卷积网络构成的后处理网络 进行改善。Tacotron2的损失函数主要由两部分组成:基于梅尔频谱图的损失和基于停止标志的损失。基于谱图的损失是用来衡量模型生成的声音与目标声音之间的差异,而基于停止标志的损失则是用来衡量模型是否在正确的时间停止生成声音。Tacotron2通过循环的序列到序列特征预测模型,将文本内容直接映射到梅尔频谱,实现直接从文本进行语音合成。这种端到端的思路避免了多个分阶段的处理,提高了合成效率。同时,Tacotron2的注意力机制能够有效地关注文本与音频之间的对应关系,使得合成语音的音质更加自然流畅。
5.1 业内首套“基于模板化三维图文包装+AI虚拟数字人”的电视栏目/新媒体微视频制作设备目前业内部分厂家推出“基于时轨编辑的非线编 +AI虚拟数字人”的制作方式,缺陷是每次视频制作都要基于时间 线重新编辑制作,流程繁琐且为基于视频层的特技编辑,栏目形式单一 ;“基于模板化三维图文包装 +AI 虚拟数字人”的视频制作方式则实现了场景/动画编辑制作与视频播出制作分离,将虚拟数字人作为虚拟场景中一个元素,预先制作大量组合动画模板,实际使用中只需调用动画模板修改各类元素即可快速生成最终成品视频/微视频。《基于模板化编辑的AI数字人视频生成方法、装置及设备》等5项自主知识产权获国家发明专利申请和国家发明专利证书。AI 数字人资讯包装系统可广泛支持各厂商的AI虚拟数字人,例如腾讯、百度、华为等知名厂商,随着这些厂家数字虚拟人技术的提高,栏目效果将更加真实。在支持 UE4/UE5渲染引擎的基础上,也支持信创渲染引擎,支持PBR材质渲染,效果等同于Unity渲染引擎。虚拟数字人可对接NLP、ChatGPT、AIGC技术,同时三维虚拟场景中的元素、属性也支持外设控制、内部状态触发,因此AI数字人资讯包装系统也可通过与虚拟数字人的语音交互、场景属性的触屏交互而制作交互式视频。
我们采集淄博市广播电视台主持人的形象和声音素材, 综合应用超写实虚拟数字人、模板化包装、深度神经网络、信创三维渲染引擎等最新技术,创造了广播级4K超高清AI真人数字人“杨小洁”。经主观评价,“杨小洁”数字人的形象气质、语音语调、表情动作等与真人相似度达到 90%,同时创造了一种4K高效新媒体微视频/广播级电视栏目制作方式。城市台通过采用基于模板化制作的 AI数字人资讯包装系统等先进的虚拟数字人技术,可大幅降低制作的门槛、成本和周期,提升制作效能,促进制作流程更加管线化和智能化。同时我们看到,虚拟数字人的形象气质、语音语调、表情动作等效果和真人相比,还有很大的提升空间,这也是我们下一步研究改进的方向。我们要继续跟踪多模态、深度学习、虚实交互等新技术,针对性探索新技术应用落地路径,助力广电行业的转型升级和融合发展。
[1]腾讯研究院.数字人产业发展趋势报告(2023)[R].北京:腾讯研究院, 2023.[2]高洁,肖大军,徐遐龄等.多尺度富有表现力的汉语语音合成[J]. 数据采集与处理, 2023,
38(06):1458-1468.DOI:10.16337/j.1004-9037. 2023.06.19.[3]安鑫,代子彪,李阳等.基于BERT的端到端语音合成方法[J].计算机科学, 2022,49(04):221-226.《广播与电视技术》、“广电猎酷”广告经营与商务合作代理:
北京中广信通文化传媒有限公司
联系人:李聪
联系电话:18518221868