《现代电影技术》|数字电影沉浸式音频实时处理技术研究

学术   电影   2024-05-10 11:10   北京  

本文刊发于《现代电影技术》2024年第4期

专家点评


数字电影沉浸式音频技术是现代电影制作与放映领域的重大创新,它通过提供更为丰富和真实的声音体验,显著提升了观众的沉浸感和临场感。在国际上,诸如Dolby Atmos和DTS∶X等系统已成为沉浸式音频技术的代表。这些系统不仅规定了音频编码与传输的标准,还明确了音频渲染和还音的具体要求,以确保沉浸式音频在不同制作与放映环境中的一致性和互操作性。沉浸式音频技术的核心在于运用对象音频和元数据来实现声音在三维空间的精准定位和渲染,而基于元数据的沉浸式音频比特流实时处理是实现数字电影沉浸式音频还音的关键。《数字电影沉浸式音频实时处理技术研究》一文展示了国内电影专业技术研究机构在沉浸式音频技术领域取得的显著进展。文章详细阐述了数字电影沉浸式音频实时处理技术的多个方面,涵盖技术规范解读、实时处理方案设计,以及相关工具的研发与实现。特别值得关注的是,文中提出的沉浸式音频实时处理方案和所研发的工具紧密结合了国际规范与国内技术现状,着眼于推动国产沉浸式音频技术的规范化和标准化发展,有助于中国技术与标准实现更广泛的推广与应用。


 ——童雷

教授

北京电影学院副院长


作 者 简 介


董强国

董强国(1984-),男,硕士,高级工程师,中国电影科学技术研究所(中央宣传部电影技术质量检测所)检测认证南方中心副主任,主要研究方向:电影技术。

龚波(1969-),男,博士,正高级工程师,中国电影科学技术研究所(中央宣传部电影技术质量检测所)副所长,主要研究方向:电影技术。




龚  波




摘要

本文首先对符合国际规范的数字电影沉浸式音频还音技术进行概述,对数字电影集成媒体模块(IMB)与沉浸式音频处理器之间的对接协议规范进行解读,提出一种沉浸式音频实时处理方案,并对研发的一套数字电影沉浸式音频实时处理工具的实现方法进行了阐述。通过对数字电影沉浸式音频实时处理技术的研究,期望为符合国际相关规范的国产沉浸式音频技术的研发提供借鉴,旨在推动国产沉浸式音频还音系统向标准化和规范化发展。


关键词

数字电影;沉浸式音频;实时处理技术;元数据;渲染


1 引言

自有声电影诞生以来,从1927年首部单声道好莱坞影片《爵士歌王》到2012年首部沉浸式音频制式影片《勇敢传说》,电影还音制式经历了单声道、模拟和数字立体声、环绕声(5.1、7.1等)和沉浸式音频制式共4个阶段的发展。每次技术的变革都围绕声音如何在放映空间内精准定位还音展开。传统的单声道、立体声和环绕声是基于声道的概念,依靠增加声道数量来营造声音在影厅的空间环绕效果。影厅为了获得较为真实的沉浸式还音效果,需要在传统声道制式的基础上增加大量的声道。单纯通过增加声道来获取沉浸感效果的方式,将会给电影声音制作和还音带来很大挑战,且需要制作端和还音端的扬声器声场布局保持一致,造成放映系统间互操作性差,给发行机构带来多版本发行压力。数字电影沉浸式音频采用对象+元数据的技术架构,元数据提供声音发声位置的三维空间坐标信息,通过渲染算法,将声音对象渲染到元数据提供的三维空间坐标所在区域内,实现声音在影厅空间内的精准定位发声。这种通过元数据控制声音位置的方式,具有内容制作便捷、扬声器布局较为灵活、系统间兼容性强的技术特点,其同时具有高效的制作方式和灵活的渲染方式,不再拘泥于扬声器系统布局。随着音频处理芯片性能的提升,该项技术将成为未来声音制式的主要发展方向。

由于数字电影沉浸式音频技术能为观众营造更加自然和逼真的视听体验,一经推出便获得市场的高度认可。近几年,随着沉浸式音频技术的发展,数字电影沉浸式音频影厅已成为当今影院的热门配置,国内厂家也纷纷推出各自的沉浸式音频还音系统,但因国内厂家生产的音频处理器仅支持数字电影集成媒体模块(Integrated Media Block, IMB)AES/EBU接口的输入,且最多支持8路AES/EBU音频信号输入,暂不支持基于元数据格式的沉浸式音频比特流(IAB)接口。由于受到IMB输出音频信号通道数量的限制,导致各个厂家生产的沉浸式音频处理系统还音各具特点,还音效果参差不齐,使国产系统难以在影院大范围推广,严重限制了国产沉浸式音频技术的提升。

基于元数据的沉浸式音频技术主要由影厅空间位置元数据+对象音频文件组成,传统的AES/EBU传输通道无法传输这种基于元数据+对象的音频内容。SMPTE ST 430⁃14《数字电影同步信号和辅助数据传输协议》和SMPTE ST 2098⁃2《沉浸式音频比特流规范》的发布,为我国沉浸式音频传输技术的实现提供了很好的技术借鉴。为解决国产沉浸式音频内容传输技术所面临的难题,规范市场,助力企业的研发和生产,提高国产沉浸式音频系统的国内外市场竞争力,推动国产沉浸式音频技术的发展,我国亟需开展符合国内技术现状、兼容国际标准的IMB与沉浸式音频处理器之间的沉浸式音频文件传输技术和实时处理技术的研究工作。

2 数字电影安全放映和传输技术相关规范解读

数字电影沉浸式音频处理系统为了能够获取IAB,需要与IMB进行通信,并从辅助数据轨获取相关的IAB。SMPTE定义了数字电影辅助数据和同步信号的传输协议,本章节主要对如何从IMB辅助数据区提取辅助数据的相关规范进行解读。

2.1 辅助内容同步协议

SMPTE ST 430⁃10 辅助内容同步协议是将合成播放列表(CPL)中的辅助资源同步到播放时间线的协议标准,规定了如何将辅助资源展示列表(RPL)中的辅助资源同步到播放时间线上,主要用于数字影院服务器(DCS)和一个或多个辅助内容服务器(ACS)之间的通信。其中,合成播放列表(CPL)定义了播放期间要呈现的资源,这些资源至少包括视频和/或音频,也可能包含字幕等。

DCS和ACS之间的主要通信方式为ACS向DCS发出连接请求后,DCS向ACS发出声明以验证ACS协议的正确性,ACS正确接收到声明后向DCS发出声明响应确认信息,然后DCS向ACS发出续租请求,ACS向DCS回复续租响应,随后DCS向ACS发出获取状态请求,ACS回复确认获取状态响应,DCS向ACS发出设置RPL位置请求,ACS向DCS回复设置RPL位置响应状态,DCS向ACS发出获取状态信息请求后,ACS向DCS发出获取状态响应,DCS发出终止续租请求后,ACS终止租约,DCS继续发送续租请求。DCS和ACS之间的主要通信交互规则流程如图1所示。

图1 DCS和ACS间的通信交互规则

2.2 辅助资源展示列表

SMPTE ST 430⁃11 RPL用于指定数字电影服务器上内容资源所在的存储位置,以及在单个素材或由多个素材组成的播放素材所在时间线上的相对位置。在播放开始前,DCS将RPL发送给ACS,ACS从DCS获得时间线更新,并确定应提供哪些资源。RPL至少包含播放ID、时间线偏移、卷ID、编辑速率、卷资源ID、资源类型、语言、进入点、持续时间、固有持续时间、资源文件等信息,RPL架构如图2所示。

图2 RPL架构

2.3 辅助数据传输协议

SMPTE ST 430⁃14《数字电影同步信号和辅助数据传输协议》定义了一个用于将辅助数据轨迹文件中的数据项传输到处理器的传输协议,数据的传输使用超文本传输协议(HTTP),图像媒体模块、服务器、DCS和ACS之间的通信传输规则如图3所示。

图3 同步信号和辅助数据通信规则

2.4 数字同步信号传输协议

SMPTE ST 430⁃14《数字电影同步信号和辅助数据传输协议》定义了用于处理器与图像媒体模块同步播放的同步信号协议,图像媒体模块播放视频内容时会自动生成一个二进制同步信号,该同步信号精度可达到音视频信号播放的帧速率级别。该同步信号应至少包含图像播放状态信息(如开始、播放、暂停)、播放ID、播放帧位置、采样频率、播放音视频文件的UUID、合成播放列表UUID等信息。DCS与ACS间建立通信连接后,ACS接收到来自图像媒体模块发出的同步信号后,同步信号存放在ACS的缓冲存储器中,根据同步信号的状态进行播放,当播放ID发生变化时,将返回到缓冲存储器提取新的播放信息,当ACS接收到的同步信号无效时,将返回到等待命令,ACS与DCS之间数字同步信号的通信流程如图4所示。

图4 数字同步信号通信流程

3 数字电影沉浸式音频实时处理技术研究方案

数字电影倡导组织(DCI)发布的《基于对象的数字电影沉浸式音频附录》规定沉浸式音频内容DCP打包时,应使用IMB的数字证书制作密钥传送消息(KDM),完成沉浸式音频内容与IMB的绑定,沉浸式音频内容只有通过对应的IMB才能播放。根据数字电影放映技术要求,结合国际相关规范和国内技术现状,基于对象的数字电影沉浸式音频还音系统应由媒体播放服务器、沉浸式音频处理器、声频功率放大器和扬声器系统组成。IMB载入带有KDM的沉浸式音频播放素材后,首先应进行有效性检验、解密和播放,沉浸式音频处理器接收到来自沉浸式音频播放服务器传输的IAB后进行解码,并将IAB文件实时渲染到相应的沉浸式音频通道,经过均衡和延时调节,通过扬声器系统将沉浸式音频还原到影厅。基于对象的数字电影沉浸式音频还音流程如图5所示。本章节主要介绍IMB与沉浸式音频处理器之间的通信、沉浸式音频实时解码和渲染、沉浸式音频实时处理硬件接口要求等。

图5 基于对象的数字电影沉浸式音频还音流程

3.1 IMB与沉浸式音频处理器之间的通信

数字电影沉浸式音频处理器应能够接收来自媒体播放服务器的IAB,并能够与视频实现同步播放。IMB加载数字电影沉浸式音频文件后,将自动生成带有播放内容帧率、时长、播放文件存储地址等信息的RPL,并向沉浸式音频处理器发送带有播放当前帧、播放内容时长、音频采样速率、图像和沉浸式音频信号UUID等信息的同步信号。数字电影沉浸式音频处理器应能够向IMB提取播放RPL信息,获取同步信号信息,根据RPL提供的播放文件存储地址和同步信号信息,提取相关帧的沉浸式音频内容,然后进行IAB的解码和渲染,实现沉浸式音视频同步播放。沉浸式音频处理器与IMB之间的数据交互模式应符合图6所示模式。 

图6 数字沉浸式音频实时处理系统数据交互模式

时钟同步信号传输接口采用AES/EBU接口,IAB传输采用HTTP协议RJ45以太网接口。数字电影沉浸式音频实时接收协议要求如表1所示。

表1 数字电影沉浸式音频实时处理传输协议要求

3.2 沉浸式音频实时解码和渲染

数字电影沉浸式音频处理器接收到来自IMB的音视频同步信号和IAB后,需要对其进行解包、解码和渲染处理。数字电影沉浸式音频实时解码和渲染工具要求如表2所示。

表2 数字电影沉浸式音频实时解码和渲染要求

3.3 沉浸式音频实时处理硬件接口

数字电影沉浸式音频处理器的硬件接口应至少具备音视频同步信号接收接口、IAB接收接口、数模转换接口和调试接口。数字电影沉浸式音频处理器接口应符合表3要求。

3 数字电影沉浸式音频实时处理器接口要求

4 数字电影沉浸式音频实时处理技术的实现

2018年至今,中国电影科学技术研究所(中央宣传部电影技术质量检测所)围绕数字电影基于对象元数据沉浸式音频高新技术格式的国产化,以国际数字电影沉浸式音频技术规范为参考,结合我国技术现状,对沉浸式音频的制作、编码和打包、解码和渲染算法进行了研究,已完成沉浸式音频混录、编码和打包、沉浸式音频还音端的解码和渲染算法的实验验证研究。为了能够实现国产沉浸式音频处理器与IMB之间的IAB传输,推动国产沉浸式音频技术产品化应用,我们联合IMB生产厂家开展了IAB实时接收、解码和渲染技术的研究工作,研发了一套数字电影沉浸式音频实时处理工具,该工具可以实时接收来自IMB的基于对象的IAB和同步信号,并可实现IAB的实时解码和渲染。该项技术的还音流程和系统间的通信协议符合图5中的相关规定。本章节主要介绍数字电影沉浸式音频实时接收技术中系统间的通信、RPL提取、同步信号接收和IAB提取技术的实现,以及数字电影沉浸式音频实时解码和渲染技术中沉浸式音频实时解码、渲染、均衡和延时调节技术的实现。

4.1 数字电影沉浸式音频实时接收技术实现

依据SMPTE ST 430⁃10、SMPTE ST 430⁃11和SMPTE ST 430⁃14相关标准规定,笔者研发了一款IAB实时接收模块,可实时接收来自图像媒体模块发出的音视频同步信号,可实时接收和处理IAB。该模块具备网络链接、实时接收和读取RPL、使用AES/EBU声卡设备实时接收同步信号、根据RPL和同步信号的信息提取IAB的功能。IAB实时接收模块主界面如图7所示。

图7 IAB实时接收模块

(1)系统间的通信实现

IAB实时接收模块与IMB之间的通信规则符合图1中的相关规定,通信协议编码标识如表4所示。

表4 通信协议标识

(2)RPL提取实现

RPL应符合图2的RPL架构相关规定,IAB实时接收模块接收的RPL主要包含 Resource PresentationList PlayoutID、ReelResources EditRate、ReelID、TimelineOffset、ReelResource Duration、EntryPoint、 Id、IntrinsicDuration、Language、 ResourceType、ResourceFile等信息,该模块接收到的RPL示例如图8所示。

图8 RPL示例

(3)同步信号接收实现

当图像媒体服务模块加载数字电影IAB文件后,将实时向IAB接收模块发送音视频播放状态的同步信号,当该模块接收到该同步信号后, 需要对同步信号的状态进行控制,同步信号接收通信规则符合图4中的相关规定,IAB实时接收模块接收到的同步信号信息主要包含Flags、Timeline Edit Unit、Playout ID、Edit Unit Duration、Sample Duration Numerator、Sample Duration Denominator、Primary Picture Output Offset、Primary Screen Output Offset、Primary Picture Track File Edit Unit、Primary Picture Track File UUID、Primary Sound Track File Edit Unit、Primary Sound Track File UUID、Composition Playlist UUID等内容,该模块接收到的同步信号示例如图9所示。

图9 同步信号示例

(4)IAB提取实现

IAB实时接收模块接收到来自RPL和同步信号的IAB文件存储地址、播放ID和播放帧信息后,将向存储服务器发出指定的IAB提取信息,服务器收到请求后向IAB实时接收模块发送指定的IAB。该模块提取IAB的通信规则符合图3中的相关规定。IAB通信标识如表5所示。

表5 IAB通信标识

4.2 数字电影沉浸式音频实时解码、渲染实现

数字电影沉浸式音频实时解码渲染模块接收到IAB后,需对其进行解码和渲染处理,通过声频功率放大器和扬声器系统还原到影厅。针对IAB的技术特点,笔者研发了一款数字电影沉浸式音频实时解码和渲染模块,其主界面如图10所示,主要用于播放UUID的获取、AES/EBU音频接口同步信号的获取、渲染后的音频信号输出、渲染质量的调节等。

图10 数字电影沉浸式音频实时解码和渲染模块

(1)IAB解码实现

数字电影沉浸式音频实时解码模块支持符合SMPTE ST 2098⁃2相关规定的IAB解码,其标识如表6所示。解码后的数字电影沉浸式音频文件以128个音频文件+元数据的格式存在,该工具最多支持10个声床和118个对象+元数据的解码。

表6 IAB标识

(2)数字电影沉浸式音频文件的渲染实现

数字电影沉浸式音频渲染是将沉浸式音频文件的声床映射到相应的声道上,根据空间位置元数据信息将对象声音渲染到元数据所规定的影厅位置处。该工具的渲染算法基于6阶HOA+幅度矢量合成混合算法,最大可渲染输出49个通道,支持符合SMPTE 2098⁃1相关规定的沉浸式音频空间位置元数据的渲染,可根据影厅尺寸和扬声器布局预设扬声器系统的数量和摆放位置,生成适配的沉浸式音频渲染算法,数字电影沉浸式音频渲染通道设置界面如图11所示,该工具可设置房间尺寸;可设置扬声器系统数量和摆放位置,输入位置格式为扬声器系统在影厅内的长(X)、宽(W)、高(Z)坐标;可进行扬声器阵列的设置、扬声器的音频输入信号路由设置等。

图11 数字电影沉浸式音频渲染通道设置界面

(3)均衡和延时调节

数字电影影厅的电声响应特性应符合GY/T 312—2017 《电影录音控制室、室内影厅B环电声响应规范和测量》中相关规定。为使数字电影沉浸式音频影厅能够满足上述要求,数字电影沉浸式音频实时解码和渲染工具支持对每个通道的扬声器系统进行增益、延时和均衡调节,支持对单个声床和对象通道进行B环电声响应调试;调试数据可实时保存和调用,数字电影沉浸式音频实时解码和渲染工具B环电声响应调试界面如图12所示,该界面支持单个声床和对象通道的B环电声响应调试,支持31段均衡和延时调节。

图12 B环电声响应调试界面

5 总结

基于对象的数字电影沉浸式音频技术采用对象+空间位置元数据的理念,通过空间声渲染算法,将对象声音按照元数据空间位置信息精准灵活地渲染到元数据所规定的影厅位置处,其全新的制作和还音理念逐步被国际社会所认可,已成为当今世界主流的数字电影沉浸式音频制作和还音方式。基于对象+元数据和声床的沉浸式制作和安全还音方式,将是未来沉浸式音频发展的主要趋势。

本文通过对数字电影安全放映和内容传输技术规范的解读,提出一种兼顾国际安全放映规范的数字电影沉浸式音频还音方案,联合IMB厂家搭建了国产沉浸式音频实时处理技术实验环境,研发了一套数字电影沉浸式音频实时处理工具,该工具可与IMB建立通信,实时获取音视频同步信号和IAB,实时对IAB进行解码和渲染,并能够对声床和对象通道进行均衡和延时调节。

该项技术符合当前数字电影内容安全还音机制,为国产沉浸式音频技术尽快得到应用、推广、演示、落地和标准化提供了技术支撑,为国产沉浸式音频技术的研发提供借鉴,旨在推动国产数字电影沉浸式音频技术向标准化和规范化发展,最终实现沉浸式音频制版的相对统一、系统间互操作以及与国际技术标准兼容,为中国电影沉浸式音频技术和行业标准的国际技术市场推广打下夯实基础。

参考文献


(向下滑动阅读)

[1] Methods for the subjective assessment of small impairments in audio systems:ITU⁃R BS.1116⁃3⁃2015 [S], 2015.

[2] Method for the subjective assessment of intermediate quality level of audio systems:ITU⁃R BS.1534⁃2 [S],2014.

[3] Immersive Audio Metadata: SMPTE ST 2098⁃1∶2018 [S], 2018.

[4] Immersive Audio Bitstream Specification:SMPTE 2098⁃2:2018 [S], 2018.

[5] D⁃Cinema Packaging ⁃ Immersive Audio Track File:SMPTE 429⁃18:2019 [S], 2019.

[6] D⁃Cinema Immersive Audio Channels and Soundfield Groups:SMPTE ST 2098⁃5:2018 [S], 2018.

[7] Immersive Audio Bitstream Level 0 Plug⁃in: SMPTE ST 2067⁃201:2019 [S], 2019.

[8] Immersive Audio Bitstream and PackagingConstraints: IAB Application Profile 1:SMPTE RDD 57[S], 2021.

[9] D⁃Cinema OperationsAuxiliary ⁃ Content Synchronization Protocol: SMPTE ST 430⁃10:2010 [S], 2010.

[10] D⁃Cinema Operations ⁃ Digital Sync Signal and Aux Data Transfer Protocol : SMPTE ST 430⁃14:2015 [S], 2015.

[11] D⁃Cinema Operations ⁃ Auxiliary Resource Presentation List:SMPTE ST 430⁃11:2010 [S], 2010.

[12] Digital Cinema Initiatives, LLC (DCI).Digital Cinema Object⁃Based Audio Addendum [Z]. 2018.

[13] Digital Cinema Initiatives, LLC (DCI).Digital Cinema System Specification (V1.4.3)[Z]. 2023.

[14] 国家新闻出版广电总局.音频系统小损伤主观评价方法:GY/T 298—2016[S/OL].(2020⁃04⁃28).http://www.nrta.gov.cn/art/2020/4/28/art_3715_50883.html.

[15] 国家广播电视总局.三维声编解码及渲染:GY/T 363—2023[S/OL].[2024⁃03⁃26].http://big5.www.gov.cn/gate/big5/www.gov.cn/zhengce/zhengceku/2023⁃02/06/5740320/files/b7ddc38fb405489c802367c400a3006b.pdf.

[16] 国家新闻出版广电总局. 电影录音控制室、室内影厅B环电声响应规范和测量:GY/T 312—2017 [S]. 北京:中国电影科学技术研究所,2017.

[17] 国家电影局. 数字电影放映用还音设备技术要求和测量方法:DY/T 6-2021 [S]. 北京:中国电影科学技术研究所,2017.

[18] 赵茜,孟子厚. 环屏扬声器阵列的声场不均匀度分析[C]//中国声学学会.2019年全国声学大会论文集,2019:2.

[19] 刘鹏超,高楠,孟子厚.基于声景重构方法的多声道渲染[J].音乐与声音研究,2022(02):136⁃154.

[20] 张莹,沈希辰.从Ambisonics到双耳听觉——VR电影声音制作方案研究[J].复旦学报(自然科学版),2017,56(02):215⁃221.DOI:10.15943/j.cnki.fdxb⁃jns.2017.02.011.












主管单位:国家电影局

主办单位:电影技术质量检测所

标准国际刊号:ISSN 1673-3215

国内统一刊号:CN 11-5336/TB


投稿系统:ampt.crifst.ac.cn

官方网站:www.crifst.ac.cn

广告合作:010-63245082

期刊发行:010-63245081





中国电影科技
关注电影技术的探索与实践,关注电影创新理论的形成与发展,为广大读者和网民提供电影科技信息。
 最新文章