AIGC逆生成:实现像素级一致的高保真视频通信

文摘   2024-11-05 10:41   陕西  
本推文转载至:
https://www.chaspark.com/#/research/paper/1070495335706705920
推荐语:以Sora、Stable DIffusion为代表的文生视频(text2video)、文生图(text2image)AIGC大模型当下受到广泛关注,催生了AI作图、AI影视编辑等新兴产业。用户只需输入一段提示词(prompt)描述,此类AIGC大模型便可生成高质量的视频、图像。最近,来自北京大学的研究团队创新性地提出基于AIGC逆生成的语义通信,即输入“现实中的任意视频”,其算法能逆向生成对应的“prompt”;这样,在视频通信中,发送端只需传输prompt,接收端利用AIGC可重现出像素级一致的原始视频。基于这一技术,视频通信的数据量从传统的Mbps量级(基于H.264/265视频编码)降低到了100kbps级别(基于prompt),带宽需求降低了75%以上。此方案兼顾了传统视频编码的信号保真度和语义通信的低码率,提供了一种新的视频通信范例。(该推文由论文作者提供,并由黄大年茶思屋科技网站通信大模型社区团队进行编辑整理)

图1:基于prompt逆生成的像素级一致视频通信 vs基于传统方案的语义级一致视频通信

Can Prompts Streaming Replace Video Streaming with Stable Diffusion


Jiangkai Wu, Liming Liu, Yunpeng Tan, Junlin Hao, Xinggong Zhang


Peking University


原文链接

https://arxiv.org/abs/2405.20032

该分享仅用于技术交流,未经许可禁止用于商业用途。

一、 引言

随着视频流媒体应用的快速发展,网络视频流量持续增长。为降低流量,传统编解码器通过消除冗余来实现压缩。但冗余是有限的,压缩比存在上限。进一步压缩不可避免地需要丢弃视频中的非冗余内容,从而严重降低了视频质量。为提高压缩效率,近年来一些基于深度学习的编解码器[1]和视频传输框架[2-5]被提出,但依然在压缩性能或场景通用性上受限。

以扩散算法(Diffusion[6])为核心的AIGC大模型(如Stable Diffusion、Sora)近年来由于其强大的文生图(text2image)、文生视频(text2video)能力而受到广泛关注。通过在Internet-scale的海量数据上进行预训练,此类大模型学习到了几乎所有人类视觉域(visual domain)的先验知识,同时也学习到了从文本到图像的映射关系。因此,大模型可以根据由仅几个词组成的简短prompt生成高保真的图像,原理如图2所示。

图 2:AIGC大模型如何基于prompt生成高质量图像

我们受此启发,提出一个问题:大模型是否能取代视频编解码器?即:发送端传输的是prompt而非编码后的视频,接收端根据prompt生成视频而非解码视频。如此,便可将网络视频流量从视频级别压缩到prompt级别,大幅提高视频通信效率。在本文中,我们提出了一套名为Promptus的系统,将原始视频逆生成为prompt进行传输,从而实现超低码率的视频通信,原理如图3所示。

图 3:Promptus原理图:将视频逆生成为prompts,维持像素级一致

二、研究内容

为实现上述愿景,我们解决了下述技术难题:

1、如何确保生成视频与原始视频之间的像素级一致?将视频逆生成为prompt最简单直接的方法是利用人工或者AI进行文本描述(Captioning[7])。然而,使用这种描述作为prompt生成的视频只能保证与原始视频在语义层面一致,而像素层面的差异巨大,如图1所示。

为实现像素级一致,Promptus提出了一套基于梯度下降的Prompt逆生成框架。具体来说,prompt被随机初始化,并用其生成视频帧;计算生成帧与真实帧之间的逐像素差异作为损失值;计算损失值对于prompt的偏导数;使用梯度下降迭代求解prompt。当损失值收敛后,prompt便能逐像素重现出真实帧的视频内容。

2、如何控制Prompt的码率?由于Promptus使用语义嵌入作为prompt,其维度固定导致prompt码率无法适应动态的网络带宽。为此,Promptus提出了一套基于低秩(low rank)分解的码率控制算法。具体来说,Promptus将低秩分解的逆过程集成到梯度下降中,直接拟合分解后的低秩prompt。使用秩(rank)来控制prompt的质量和码率之间的权衡。当秩增大时,prompt的表征能力更强,可以描述视频帧中的更多细节,但码率也更大。相反地,当秩减小时,码率得以降低,但prompt的表征能力变弱,生成帧会与真实帧出现不一致。图4展示了不同秩下prompt的生成结果,可以看到:当秩为4时,生成帧中的耳环被丢失。当秩数增加到16时,耳环被成功还原。因此,Promptus会根据当前可用的网络带宽自适应地控制prompt的秩,以实现码率自适应。

图 4:不同秩的prompt拟合结果

3、如何对prompt进行帧间压缩?在视频通信时,Promptus可以考虑帧与帧之间的相关性,进一步降低传输数据量。具体地,我们观察到:prompt是高层语义信息,所以连续视频帧的prompt会连续变化。如果两个时序上相近的帧在prompt空间中也足够接近,那么这两帧之间帧的prompt可以通过线性插值来近似估计。为此,Promptus在梯度下降的过程中增加了prompt空间中的时序平滑正则项,确保相邻帧在prompt空间中也足够接近。以此,Promptus只需稀疏地传输少量关键帧的prompt,其余帧的prompt可以通过关键帧prompt的线性插值来近似估计,如图5所示。

图 5:prompt插值

三、实验评估

实验设置:

  • 我们构建了一套包含多种domains的测试视频集,跨越自然风景和人类活动、户外远景和室内近景、真实场景和CG合成场景、3D游戏和2D动画等。

  • 我们实现了一套视频传输系统,搜集了现实中的真实网络traces,采用Mahimahi进行重现。在Nvidia 4090D上,使用CUDA、TensorRT与TAESD进行生成加速。

  • 我们将Promptus与H.265、VAE[6]等baselines进行比较。H.265是先进的视频编解码器。VAE是基于深度学习的神经编解码器。我们采用更符合人眼感知的LPIPS[8]指标衡量生成视频的保真度。LPIPS值越低,代表视觉质量越高。

超4倍码率降低。图6展示了相同码率下,视频帧的质量分布对比结果。Promptus可以在维持相同视频质量的情况下实现超过4倍的码率降低。例如,Promptus在140 kbps下平均LPIPS优于H.265在540 kbps下的表现。这是由于当码率降低时,Promptus损失的是prompt的表征能力。这虽然影响了其准确描述视频内容,导致生成帧存在轻微不一致,但凭借AIGC大模型固有的高质量图像生成能力,Promptus生成的帧仍然具有良好的锐度和细节,因此优于VAE和H.265。

图 6:相同码率下(左140 kbps,右540 kbps),视频帧质量的累积分布图和平均值

真实网络下,减少91.7%帧失真。图7展示了真实网络条件下,视频帧的质量分布。Promptus只有5.2%的帧LPIPS高于0.32,而VAE和H.265分别为94.5%和96.9%,可见Promptus可以大幅减小严重失真帧的比例。

图 7:真实网络条件下,视频帧质量的累积分布图和平均值

通用于各类视频。图8显示了Promptus和baselines在四个domains差异巨大的数据集上的平均帧质量。Promptus在各数据集上的平均LPIPS都大幅优于baselines,可见其具有通用性。为直观展示这一优势,我们在图9中可视化了各方法在四个数据集上的压缩结果。可以观察到,在低码率下,与出现模糊和块状伪影的baselines相比,Promptus保留了更多高频细节,从而获得了更高的视频质量。

图 8:不同数据集(Domain差异巨大)的平均视频质量

图 9:相同码率时在不同数据集上各方法的压缩结果可视化

实时视频生成。表1展示了Promptus生成一帧画面的细粒度时间开销。播放端从接收prompt到生成完整画面,包括以下步骤:prompt反量化、prompt重组、prompt插值、加噪前序帧、大模型图像生成。其中大部分步骤只涉及简单的线性计算,所以时间开销几乎可忽略不计,大模型图像生成占据绝大部分时间开销。由于我们采用TAESD与TensorRT 进行生成加速[9],以及prompt逆生成过程中单步解噪的端到端优化,图像生成的时间被降低到6.16毫秒。综上,Promptus图像生成的总时间开销为6.226毫秒,实现了prompt到视频的实时生成。

表1:生成一帧画面的时间开销

四、结论与未来工作

本文提出了Promptus,将视频逆生成为AIGC大模型的prompt,将视频传输替换为prompt传输,实现了像素级一致的语义通信。Promptus将AIGC大模型的应用扩展到了视频传输,提供了一种全新的通信范式。作为一个初步的尝试,当前版本还有一些局限,比如prompt逆生成过程的时间开销、prompt插值的延时。这些局限导致点播视频是此版本Promptus适合的场景。因此,进一步提高prompt的逆生成效率、优化prompt帧间建模是未来的研究方向。

参考文献:

[1] Lu G, Ouyang W, Xu D, et al. Dvc: An end-to-end deep video compression framework[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 11006-11015.

[2] Yeo H, Jung Y, Kim J, et al. Neural adaptive content-aware internet video delivery[C]//13th USENIX Symposium on Operating Systems Design and Implementation (OSDI 18). 2018: 645-661.

[3] Sivaraman V, Karimi P, Venkatapathy V, et al. Gemino: Practical and robust neural compression for video conferencing[C]//21st USENIX Symposium on Networked Systems Design and Implementation (NSDI 24). 2024: 569-590.

[4] Jiang P, Wen C K, Jin S, et al. Wireless semantic communications for video conferencing[J]. IEEE Journal on Selected Areas in Communications, 2022, 41(1): 230-244.

[5] Li T, Sivaraman V, Karimi P, et al. Reparo: Loss-Resilient Generative Codec for Video Conferencing[J]. arXiv preprint arXiv:2305.14135, 2023.

[6] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10684-10695.

[7] Yang A, Nagrani A, Seo P H, et al. Vid2seq: Large-scale pretraining of a visual language model for dense video captioning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 10714-10726.

[8] Zhang R, Isola P, Efros A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 586-595.

[9] Kodaira A, Xu C, Hazama T, et al. Streamdiffusion: A pipeline-level solution for real-time interactive generation[J]. arXiv preprint arXiv:2312.12491, 2023.



GenAINet公众号简介

GenAINet公众号由IEEE Large Generative AI Models in Telecom (GenAINet) ETI成立,由GenAINet公众号运营团队负责维护并运行。

GenAINet公众号运营团队:

孙黎,彭程晖 (华为技术有限公司)

杜清河,肖玉权,张朝阳 (西安交通大学)

王锦光,俸萍 (鹏城实验室)

编辑:肖玉权
校对:张朝阳

GenAINet

微信公众号

茶思屋科技网站

通信大模型社区

扫码关注更多“通信大模型”最新进展




GenAINet通信大模型
本公众号是IEEE Large Generative AI Models in Telecom (GenAINet) ETI 的中文媒体平台,介绍通信大模型相关的研究进展、业界动态、技术活动等。
 最新文章