光场视频采传技术及应用

学术   2024-10-22 18:04   北京  

‍‍

光场能够记录光在空域、视角、光谱和时域等多个维度的数据。相较于传统二维成像和以双目立体视觉为代表的传统三维成像,光场提供了更高精度的三维信息,为智能系统提供场景理解与决策能力,为用户带来全新的沉浸式视觉体验。光场相关技术正逐步应用于工业检测、生物医学、无人系统、具身智能、虚拟现实/增强现实、国家安全等领域,具有广阔的应用前景。本文从光场视频的采集、压缩传输及行业应用几个方面进行了分析,并探讨了光场视频未来发展的机遇及挑战。

什么是光场?

真实物理世界中的物体均为三维实体,而传统基于相机的成像系统仅能捕捉二维图像,其相当于将空间三维信息投影在二维像面上,从而丢失了场景的深度信息。三维成像技术旨在从二维图像中恢复对应的深度信息。相较于双目成像等其他三维成像技术,光场成像能够获得更高精度的三维信息,从而实现更准确的环境感知和场景重建。

“光场”的概念最早出现在1936年,用于描述光线在三维空间中的传输特性,并采用七维全光函数描述光线的位置、方向、波长及时间信息。随后,研究者简化了七维全光函数,提出了基于双平面的四维光场函数L(u,v,s,t),其中(u,v)为第一个平面的坐标,代表光场的角度信息,(s,t)为第二个平面的坐标,代表光场的空域信息。

目前,主流的光场成像技术大多采用上述四维光场模型,通过采集光场的角度和空间信息,实现三维场景的重建。光场图像为通过光场成像技术获得的图像,光场视频则为基于光场成像技术获得的视频或图像序列。

图1 四维光场模型

光场视频的采集方法

基于四维光场模型,光场视频的采集方式主要分为三类:序列成像、相机阵列和光场相机

图2 光场视频采集设备分类

序列成像

单相机单次成像可以记录一个方向的光线,序列成像是通过运动的相机进行多次成像,通过时序图像记录光场信息。例如,可以通过机械系统控制相机以球形轨迹运动,从而记录球面内部的静态光场信息。

虽然序列成像方法可以获得高空间、高角度分辨率的光场数据,但由于相机的机械运动,其采集过程较为耗时,且不适用于动态目标的光场视频采集。

相机阵列

为了提高光场数据的采集效率,可以将多个相机组合成为相机阵列,从不同的角度、位置拍摄场景以获取光场视频。基于相机阵列的光场视频采集系统时间效率很高,可以采集动态目标。然而,由于相机阵列通常体积庞大,硬件成本较高,多相机之间的同步和数据传输挑战较大,因此在实际应用中受到一定限制。

光场相机

为了兼顾系统成本和采集时间的需求,一些研究者提出了利用微透镜阵列配合单相机的光场采集方法。光场相机将微透镜阵列置于主镜头和图像传感器之间,根据微透镜阵列和图像传感器的相对位置,可以分为一代光场相机和二代光场相机。一代全光相机将微透镜阵列放置在主镜头的像平面上,而图像传感器放置在微透镜阵列的焦平面位置。由于微透镜阵列将原本主透镜汇聚的光线发散,因此一代全光相机也被称为散焦型光场相机。二代全光相机则将微透镜阵列从主镜头像平面上前移或后移,微透镜阵列对主镜头所成的像进行二次成像并记录在图像传感器上,因此二代全光相机为聚焦型全光相机。

图3 全光相机光路示意图 (a)一代全光相机 (b)二代全光相机

二代光场相机相较于一代,具有更高的空间分辨率,并且可以通过调整微透镜阵列的焦距来权衡角度与空间分辨率。由于真实世界中对空间分辨率的高需求,目前市面上的光场相机大多为二代光场相机。光场相机具有便携、低成本的优点,能够有效地采集动态场景,因此随着技术的发展,全光相机在光场数据采集中的应用日益广泛。

光场数据的压缩传输

相较于传统的二维图像、视频,高维光场视频数据体量更大,且数据格式与传统视频不同,现有的二维图像视频编码方法难以高效地压缩光场数据,这对光场数据的压缩和传输提出了巨大挑战,极大地阻碍了光场技术的实际应用与推广进程。

图4 (a) 原始图像 (b) 二代全光相机拍摄图像

在此背景下,众多研究者正积极探索光场数据压缩技术。目前,光场数据压缩方法主要分为以下三类:基于变换的压缩方法、基于伪视频序列的压缩方法和基于预测的压缩方法,详细对比情况见表1。

除学术界的研究外,国际标准组织ISO/IEC JPEG、MPEG已分别展开光场图像、光场视频编码标准的制定工作。


光场视频行业应用

随着传感器、光学器件制作工艺的进步,光场成像技术飞速发展,在工业、文娱、教育、安防等诸多领域展现出广泛的应用潜力

国际标准组织ISO/IEC MPEG在《光场视频编码用例和需求》标准中列举了光场视频的若干应用场景;其中,中国移动提供了通信领域的代表性应用场景,包含裸眼3D大屏通话、裸眼3D大屏直播及6G全息通信,并提出面向通信场景的编码需求。

同时,在工业检测领域,基于光场相机捕获的小透镜数据,可计算渲染多视角、合成焦堆栈、灵活控制景深并实现全体积重建,从而提升工业检测和质量控制的精度。在具身智能方面,全光相机可以作为同步定位和建图 (SLAM) 系统的单目深度传感器,用于获取机器人在 3D 环境中移动时的小透镜数据。这些数据可用于视觉里程计的深度估计、精确姿势检测、尺度恢复以及实时 3D 重建,上述应用对于机器人的导航、感知和交互有着重要意义。除此之外,光场视频可以辅助人、物、场的高精度三维重建,在元宇宙、数字孪生城市等领域中有着巨大的应用前景。

图5 光场视频应用


光场视频未来发展机遇及挑战

光场视频作为一种创新的视频格式,有望成为传统二维视频的有力补充,并预期在即将到来的6G通信网络中实现快速的发展与应用。然而,光场视频技术在产业化应用层面仍面临多方面的严峻挑战,亟需产学研各界持续开展深入的研究与突破。这些挑战包括但不限于:改进光场采集技术、开发更高效的光场数据压缩技术,以及推进相关标准的制定,确保光场视频格式、编码和传输标准的统一。此外,建立一个完善的光场数据质量评估体系也至关重要。这些举措将为光场视频技术的广泛推广和应用提供坚实的基础。

【参考文献】
【1】Gershun A. The light field[J]. Journal of Mathematics and Physics, 1939, 18(1-4): 51-151.
【2】殷永凯, 于锴, 于春展, 等. 几何光场三维成像综述[J]. Chinese Journal of Lasers, 2021, 48(12): 1209001.
【3】Gaochang Wu, Belen Masia, “Light Field Image Processing: An Overview”, IEEE Journal of selected topcis in signal processing, Oct. 2017
【4】Fan Jiang, Xin Jin, Tingting Zhong, “Exploration Experiment of Plenoptic 2.0 test sequences for Dense Light Field Compression”, MPEG2020/M53793, Alpbach, Austria.
【5】刘宇洋, 朱策, 郭红伟. 光场数据压缩研究综述[J]. 2019.
【6】Xin Jin, Mehrdad Teratani, Gauthier Lafruit, Toshiaki Fujii, “Use cases and application scenarios for Dense Light Fields”, MPEG2021/ N0066, Online, April 2021.

审稿:杨蕾、郭勐 | 业务研究所

本文作者


史宛鑫  业务研究所
就职于中国移动研究院业务研究所,主要从事视频AI、沉浸媒体等领域研究工作。

赵丽丽  业务研究所
就职于中国移动研究院业务研究所,主要从事视频、3D视觉数据的编码、视觉定位及重建技术研究及标准化。

李  杰  业务研究所
就职于中国移动研究院业务研究所,主要从事视频领域视频AI、视频边缘智能及沉浸媒体相关技术研究、能力构建及产品开发工作。

免责声明:本公众号平台对分享、转载的内容、陈述、观点判断保持中立,本公众号内容为作者观点,仅供读者参考,本公众平台不承担任何责任。以上声明内容的最终解释权归本公众平台所有,本声明适用于本平台所分享与转载的文章,谢谢您的合作!

关于我们:中移智库以中国移动研究院为主体建设,广泛汇聚数字经济研究力量,着力提升政策性课题研究的专业性和权威性,并扩大研究成果的影响力、公信力、传播力,为数字经济的高质量发展贡献智慧力量。

中移智库
中移智库以中国移动研究院为主体建设,广泛汇聚数字经济研究力量,着力提升政策性课题研究的专业性和权威性,并扩大研究成果的影响力、公信力、传播力,为数字经济的高质量发展贡献智慧力量。 联系我们:cminfo@chinamobile.com
 最新文章