【精选】城市台虚拟数字人的研究与实践

职场科技 2024-11-09 10:18 北京

本篇论文摘要由AI工具根据论文原文生成，阅读原文请访问“广电猎酷”小程序“期刊在线”板块。

媒体深度融合发展和构建全媒体传播体系的大背景下，如何推动虚拟数字人技术在城市台的落地应用，在2D数字人系统的建设费用、制作流程、制作人员方面大幅降本增效，为主流媒体融合转型助力赋能，是我们研究和实践的重要课题。

本文作者：

孙德莱淄博市广播电视台

第一作者简介：

孙德莱（1972—），男，山东省淄博市广播电视台高级工程师，大学本科。主要从事广播电视中心技术、发射技术工作，曾负责电视播出系统、媒资系统以及调频同步网、本市 DTMB项目的技术规划、设计、建设工作，现负责台技术管理、技术规划、技术创新等工作。

NO.1

数字人市场调研情况

我们通过网络平台调研了市场上多家公司2D数字人制作情况，主要了解了几家主流公司的技术特点、资费标准，并进行了主观评价，如表1所示。这些公司的数字人虽然有各自不同的优点，但是与我们城市台的实际需求有一定的差距。

表1 多家公司2D数字人调研情况

NO.2

需求分析和解决思路

2.1现有融媒体演播室建设的不足

1. 使用效率低：通常只能演播室内部使用，不同演播室之间无法设备共享，演播室制作的栏目通常服务于本地电视栏目播出，无法对其他电视台、自媒体等用户提供演播室制作服务。

2. 栏目制作流程繁琐：现有电视栏目制作要经过演播室景区搭建、拍摄、栏目包装、导播、录制、后期、播出等流程以及对应岗位人员，流程多，投入大（见图1）。

图1 现有栏目制作流程

2.2 AI数字人资讯包装的优势

采用AI数字人资讯包装技术后，可生成和现有架构的融媒体演播室完全相同质量的电视栏目，同时具备如下优势：

1.单个用户端即可生成最终广播级电视栏目：无需演播室景区灯光、无需演播室传统摄录设备、无需导播摄像主播人员、无需后期非编剪辑，一台AI数字人资讯包装系统即可生成成片视频，从根本上改变了电视栏目制作流程。

2. 全流程云端部署：用户端、AI数字人主播、栏目包装资源及最终视频均可实现云部署，设计师可不受地方限制完成最终电视栏目制作。

因此，AI数字人资讯包装是现有融媒体演播室向 AI、云渲染、5G、VR等数字化演播室转变的典型应用。

NO.3

技术方案

3.1 虚拟数字人采集

采用 4K 摄像机在蓝箱演播室对真人主播进行视音频采集，在录音棚进行音频采集。

1. 视音频采集指标

视频：分辨率 4K、4︰2︰2 10bit ；摄像机信噪比 >62dB ；

音频：需在录音棚单独录制48K采样率，32bit 量化，单声道，信噪比>70dB ；

录制文件格式：采用 XAVC-I 3840×2160 50P，保证 4︰2︰2 10bit。

2. 多机位/多姿态

在蓝箱背景中对真人主播进行视频采集，每个机位独立拍摄，确认基础姿态，同时对应多种姿态，每种姿态十分钟以上，动作结束回到基础姿态；不同衣服、表情算作不同姿态。

3.2 虚拟数字人训练推理

1. 通过Tacotron2模型进行音频训练，通过 wav2lip进行唇形迁移视频训练，生成数字人形象声音模型。

2.通过文稿驱动方式，使用数字人推理系统生成带蓝背景的数字人视频。

3. 输出生成的视频以流媒体格式或文件格式传输至资讯包装系统服务器。

3.3 融媒体资讯包装

将获取的蓝背景数字虚拟人通过广播级IP色键进行抠像，获取带掩膜的数字虚拟人，作为三维场景中一个元素进行编辑渲染。

基于信创PBR渲染引擎/虚幻渲染引擎进行渲染，基于模板化组合动画编辑器进行编辑制作，即可获得广播级的电视栏目效果或者竖屏新媒体视频效果。

3.4 使用流程

基于文稿、姿态、情绪等文本/标注驱动，基于数字人推理系统生成带蓝背景的数字虚拟人视频。

通过添加组合各类资讯包装模板完成视频播放列表，针对每个播出条目中引出项参数可修改场景中三维模型、贴图、材质、文字、视频、PPT 、颜色、资讯等任意可修改元素，快速生成最终播放列表。

播放列表顺序播出，即可按帧生成最终成品电视栏目音视频；每一条单独播出可快速生成微视频，支持横屏/竖屏、4K/高清输出。

NO.4

Tacotron2模型特点

Tacotron2 是由Google Brain成员提出的一个基于神经网络的 End-to-End 语音合成框架。Tacotron2由两个部分组成：一是带有注意力机制的循环序列到序列特征预测网络。它从输入的字符序列中预测梅尔（Mel）频谱序列。二是声码器。它通过预测的梅尔（Mel）频谱，生成时域波形。具体来说，序列到序列特征预测模型是由编码器和带有注意力机制的解码器两部分组成。编码器将字符序列转换为相应的隐藏特征表示，而解码器通过编码器生成的特征表示来预测频谱图。Tacotron2 模型架构如图2所示。

图2 Tacotron2 模型架构

LSTM与内容向量一起预测目标梅尔频谱帧，以及是否为最后一帧。预测的结果通过由5层卷积网络构成的后处理网络进行改善。Tacotron2的损失函数主要由两部分组成：基于梅尔频谱图的损失和基于停止标志的损失。基于谱图的损失是用来衡量模型生成的声音与目标声音之间的差异，而基于停止标志的损失则是用来衡量模型是否在正确的时间停止生成声音。

Tacotron2通过循环的序列到序列特征预测模型，将文本内容直接映射到梅尔频谱，实现直接从文本进行语音合成。这种端到端的思路避免了多个分阶段的处理，提高了合成效率。同时，Tacotron2的注意力机制能够有效地关注文本与音频之间的对应关系，使得合成语音的音质更加自然流畅。

NO.5

项目的创新性

5.1 业内首套“基于模板化三维图文包装+AI虚拟数字人”的电视栏目/新媒体微视频制作设备

目前业内部分厂家推出“基于时轨编辑的非线编 +AI虚拟数字人”的制作方式，缺陷是每次视频制作都要基于时间线重新编辑制作，流程繁琐且为基于视频层的特技编辑，栏目形式单一；“基于模板化三维图文包装 +AI 虚拟数字人”的视频制作方式则实现了场景/动画编辑制作与视频播出制作分离，将虚拟数字人作为虚拟场景中一个元素，预先制作大量组合动画模板，实际使用中只需调用动画模板修改各类元素即可快速生成最终成品视频/微视频。《基于模板化编辑的AI数字人视频生成方法、装置及设备》等5项自主知识产权获国家发明专利申请和国家发明专利证书。

5.2 支持各厂商的虚拟数字人

AI 数字人资讯包装系统可广泛支持各厂商的AI虚拟数字人，例如腾讯、百度、华为等知名厂商，随着这些厂家数字虚拟人技术的提高，栏目效果将更加真实。

5.3 支持信创渲染引擎

在支持 UE4/UE5渲染引擎的基础上，也支持信创渲染引擎，支持PBR材质渲染，效果等同于Unity渲染引擎。

5.4 支持AIGC技术

虚拟数字人可对接NLP、ChatGPT、AIGC技术，同时三维虚拟场景中的元素、属性也支持外设控制、内部状态触发，因此AI数字人资讯包装系统也可通过与虚拟数字人的语音交互、场景属性的触屏交互而制作交互式视频。

NO.6

项目效果

我们采集淄博市广播电视台主持人的形象和声音素材，综合应用超写实虚拟数字人、模板化包装、深度神经网络、信创三维渲染引擎等最新技术，创造了广播级4K超高清AI真人数字人“杨小洁”。经主观评价，“杨小洁”数字人的形象气质、语音语调、表情动作等与真人相似度达到 90%，同时创造了一种4K高效新媒体微视频/广播级电视栏目制作方式。

NO.7

结束语

城市台通过采用基于模板化制作的 AI数字人资讯包装系统等先进的虚拟数字人技术，可大幅降低制作的门槛、成本和周期，提升制作效能，促进制作流程更加管线化和智能化。同时我们看到，虚拟数字人的形象气质、语音语调、表情动作等效果和真人相比，还有很大的提升空间，这也是我们下一步研究改进的方向。我们要继续跟踪多模态、深度学习、虚实交互等新技术，针对性探索新技术应用落地路径，助力广电行业的转型升级和融合发展。

end

广播与电视技术-12期全册_第1页.jpg

参考文献

[1]腾讯研究院.数字人产业发展趋势报告(2023)[R].北京:腾讯研究院, 2023.

[2]高洁,肖大军,徐遐龄等.多尺度富有表现力的汉语语音合成[J]. 数据采集与处理, 2023, 38(06):1458-1468.DOI:10.16337/j.1004-9037. 2023.06.19.

[3]安鑫,代子彪,李阳等.基于BERT的端到端语音合成方法[J].计算机科学, 2022,49(04):221-226.

《广播与电视技术》、“广电猎酷”广告经营与商务合作代理：

北京中广信通文化传媒有限公司

联系人：李聪

联系电话：18518221868

好文共赏请转发有话要说请留言

http://mp.weixin.qq.com/s?__biz=MjM5ODM0MjY5OQ==&mid=2650835674&idx=1&sn=f0444f70f7fce7fe85ceb6e54cf3284a

广电猎酷

“广电猎酷”是国家广播电视总局广播电视规划院旗下的互联网媒体平台，致力于为广电行业提供科技资讯、规划咨询、标准、工程、产品等信息和资源的链接与服务，打造广电科技新媒体平台。

最新文章

甘肃省广电局微波传输中心开展安全检查工作

广西广电大数据科技公司与阿里云签订合作协议

央视和省级卫视“一周视点”【2024年11月11日-11月17日】

内蒙古局积极推动广播电视媒体融合发展

IAB技术实验室推出“广告格式典范”计划

【精选】城市台虚拟数字人的研究与实践

《广播与电视技术》2024年10期目录 · 导读（热点·论点：数字人）

《8K超高清转播车技术要求和测量方法》正式发布！

全国率先！上海IPTV健康频道正式启用

系统性变革！重庆报业华龙网与重庆广电第1眼合并整合

青海实现广电技术领域国家级科技进步奖零的突破

广东省广电5G用户达356.93万户，有线电视实际用户1696.17万户

四川广电与中文宣三百文化产业集团签署战略合作协议

从试点走向示范——四川应急广播吹响蜀安之声

成功入围！中国广电入围央采互联网项目

中国电影电视技术学会2024年学术年会盛大开幕

广电总局批复“京津冀大视听生态协同创新”等12个“未来电视”试点

江苏智慧广电乡村工程已覆盖全省800多个乡镇（街道）

芬兰广播公司推出先进的广告测量体系

2024年广电视听科学实验展演汇演、科普微视频大赛获奖名单公布！

加拿大MSCTV选择Witbe的监控技术作为虚拟网络运营中心

江苏有线开展“向前向新向美”江苏智慧广电乡村工程媒体行活动

聚视而行和合致远——「南宁论道」圆满落幕

聚焦车载视听——第四届中国广电媒体融合发展大会首场活动举办

中国广电重庆公司圆满完成传承经典温暖夕阳“重温经典”频道进养老机构公益活动

央视和省级卫视“一周视点”【2024年11月4日-11月10日】

Vantiva推出集成AI驱动的SDR-HDR转换器的机顶盒

应急广播服务防汛救灾（2024年）专项行动十佳案例（下）

应急广播服务防汛救灾（2024年）专项行动十佳案例（中）

揭牌、签约！浙江“全省一网”整合取得新突破

应急广播服务防汛救灾（2024年）专项行动十佳案例（上）

全国应急广播现场会暨应急广播服务防汛救灾（2024年）专项行动总结会在成都举办

经典进校园·文化共传承—“重温经典进校园”北京高校示范活动在京举办

2024—2025年度“网络视听节目精品创作传播工程”扶持项目申报开始啦！

期刊订阅不再老套——订精品期刊享一站式视听科技信息服务

发展低空经济华数集团与陕航集团签署战略合作协议

甘肃开展民族地区机顶盒推广普及项目验收暨应急广播体系建设督导工作

湖南省广电局等单位开展“重温经典”频道进养老机构活动

北京门头沟区应急广播系统高水平筑牢首都安全防线

Run3TV与TVision合作开展下一代电视测量工作

“融致远·视无界”——车载视听主题交流活动即将举办

讲好“黄河故事”2024黄河流域视听合作发展大会在山西举办

深化合作！华数集团与浙江省应急管理厅签署战略合作协议

湖南召开2024年三季度全省广播电视安全播出保障工作电视电话会议

数字替身！《Double》短片中的DI4D动画后期制作技术

同比增长！2024年前三季度广播电视服务业总收入突破万亿元

多快好爽！湖南广电新一代短视频平台——风芒App上线

央视和省级卫视“一周视点”【2024年10月28日-11月3日】

江苏有线召开2024年四季度高质量发展推进会

媒体与娱乐行业最受欢迎的视频制作系统引入AIGC

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉