图1:基于prompt逆生成的像素级一致视频通信 vs基于传统方案的语义级一致视频通信
Can Prompts Streaming Replace Video Streaming with Stable Diffusion
Peking University
原文链接:
https://arxiv.org/abs/2405.20032
一、 引言
随着视频流媒体应用的快速发展,网络视频流量持续增长。为降低流量,传统编解码器通过消除冗余来实现压缩。但冗余是有限的,压缩比存在上限。进一步压缩不可避免地需要丢弃视频中的非冗余内容,从而严重降低了视频质量。为提高压缩效率,近年来一些基于深度学习的编解码器[1]和视频传输框架[2-5]被提出,但依然在压缩性能或场景通用性上受限。
以扩散算法(Diffusion[6])为核心的AIGC大模型(如Stable Diffusion、Sora)近年来由于其强大的文生图(text2image)、文生视频(text2video)能力而受到广泛关注。通过在Internet-scale的海量数据上进行预训练,此类大模型学习到了几乎所有人类视觉域(visual domain)的先验知识,同时也学习到了从文本到图像的映射关系。因此,大模型可以根据由仅几个词组成的简短prompt生成高保真的图像,原理如图2所示。
图 2:AIGC大模型如何基于prompt生成高质量图像
我们受此启发,提出一个问题:大模型是否能取代视频编解码器?即:发送端传输的是prompt而非编码后的视频,接收端根据prompt生成视频而非解码视频。如此,便可将网络视频流量从视频级别压缩到prompt级别,大幅提高视频通信效率。在本文中,我们提出了一套名为Promptus的系统,将原始视频逆生成为prompt进行传输,从而实现超低码率的视频通信,原理如图3所示。
图 3:Promptus原理图:将视频逆生成为prompts,维持像素级一致
二、研究内容
为实现上述愿景,我们解决了下述技术难题:
1、如何确保生成视频与原始视频之间的像素级一致?将视频逆生成为prompt最简单直接的方法是利用人工或者AI进行文本描述(Captioning[7])。然而,使用这种描述作为prompt生成的视频只能保证与原始视频在语义层面一致,而像素层面的差异巨大,如图1所示。
为实现像素级一致,Promptus提出了一套基于梯度下降的Prompt逆生成框架。具体来说,prompt被随机初始化,并用其生成视频帧;计算生成帧与真实帧之间的逐像素差异作为损失值;计算损失值对于prompt的偏导数;使用梯度下降迭代求解prompt。当损失值收敛后,prompt便能逐像素重现出真实帧的视频内容。
2、如何控制Prompt的码率?由于Promptus使用语义嵌入作为prompt,其维度固定导致prompt码率无法适应动态的网络带宽。为此,Promptus提出了一套基于低秩(low rank)分解的码率控制算法。具体来说,Promptus将低秩分解的逆过程集成到梯度下降中,直接拟合分解后的低秩prompt。使用秩(rank)来控制prompt的质量和码率之间的权衡。当秩增大时,prompt的表征能力更强,可以描述视频帧中的更多细节,但码率也更大。相反地,当秩减小时,码率得以降低,但prompt的表征能力变弱,生成帧会与真实帧出现不一致。图4展示了不同秩下prompt的生成结果,可以看到:当秩为4时,生成帧中的耳环被丢失。当秩数增加到16时,耳环被成功还原。因此,Promptus会根据当前可用的网络带宽自适应地控制prompt的秩,以实现码率自适应。
图 4:不同秩的prompt拟合结果
3、如何对prompt进行帧间压缩?在视频通信时,Promptus可以考虑帧与帧之间的相关性,进一步降低传输数据量。具体地,我们观察到:prompt是高层语义信息,所以连续视频帧的prompt会连续变化。如果两个时序上相近的帧在prompt空间中也足够接近,那么这两帧之间帧的prompt可以通过线性插值来近似估计。为此,Promptus在梯度下降的过程中增加了prompt空间中的时序平滑正则项,确保相邻帧在prompt空间中也足够接近。以此,Promptus只需稀疏地传输少量关键帧的prompt,其余帧的prompt可以通过关键帧prompt的线性插值来近似估计,如图5所示。
图 5:prompt插值
三、实验评估
实验设置:
我们构建了一套包含多种domains的测试视频集,跨越自然风景和人类活动、户外远景和室内近景、真实场景和CG合成场景、3D游戏和2D动画等。
我们实现了一套视频传输系统,搜集了现实中的真实网络traces,采用Mahimahi进行重现。在Nvidia 4090D上,使用CUDA、TensorRT与TAESD进行生成加速。
我们将Promptus与H.265、VAE[6]等baselines进行比较。H.265是先进的视频编解码器。VAE是基于深度学习的神经编解码器。我们采用更符合人眼感知的LPIPS[8]指标衡量生成视频的保真度。LPIPS值越低,代表视觉质量越高。
超4倍码率降低。图6展示了相同码率下,视频帧的质量分布对比结果。Promptus可以在维持相同视频质量的情况下实现超过4倍的码率降低。例如,Promptus在140 kbps下平均LPIPS优于H.265在540 kbps下的表现。这是由于当码率降低时,Promptus损失的是prompt的表征能力。这虽然影响了其准确描述视频内容,导致生成帧存在轻微不一致,但凭借AIGC大模型固有的高质量图像生成能力,Promptus生成的帧仍然具有良好的锐度和细节,因此优于VAE和H.265。
图 6:相同码率下(左140 kbps,右540 kbps),视频帧质量的累积分布图和平均值
真实网络下,减少91.7%帧失真。图7展示了真实网络条件下,视频帧的质量分布。Promptus只有5.2%的帧LPIPS高于0.32,而VAE和H.265分别为94.5%和96.9%,可见Promptus可以大幅减小严重失真帧的比例。
图 7:真实网络条件下,视频帧质量的累积分布图和平均值
通用于各类视频。图8显示了Promptus和baselines在四个domains差异巨大的数据集上的平均帧质量。Promptus在各数据集上的平均LPIPS都大幅优于baselines,可见其具有通用性。为直观展示这一优势,我们在图9中可视化了各方法在四个数据集上的压缩结果。可以观察到,在低码率下,与出现模糊和块状伪影的baselines相比,Promptus保留了更多高频细节,从而获得了更高的视频质量。
图 8:不同数据集(Domain差异巨大)的平均视频质量
图 9:相同码率时在不同数据集上各方法的压缩结果可视化
实时视频生成。表1展示了Promptus生成一帧画面的细粒度时间开销。播放端从接收prompt到生成完整画面,包括以下步骤:prompt反量化、prompt重组、prompt插值、加噪前序帧、大模型图像生成。其中大部分步骤只涉及简单的线性计算,所以时间开销几乎可忽略不计,大模型图像生成占据绝大部分时间开销。由于我们采用TAESD与TensorRT 进行生成加速[9],以及prompt逆生成过程中单步解噪的端到端优化,图像生成的时间被降低到6.16毫秒。综上,Promptus图像生成的总时间开销为6.226毫秒,实现了prompt到视频的实时生成。
表1:生成一帧画面的时间开销
四、结论与未来工作
本文提出了Promptus,将视频逆生成为AIGC大模型的prompt,将视频传输替换为prompt传输,实现了像素级一致的语义通信。Promptus将AIGC大模型的应用扩展到了视频传输,提供了一种全新的通信范式。作为一个初步的尝试,当前版本还有一些局限,比如prompt逆生成过程的时间开销、prompt插值的延时。这些局限导致点播视频是此版本Promptus适合的场景。因此,进一步提高prompt的逆生成效率、优化prompt帧间建模是未来的研究方向。
参考文献:
[1] Lu G, Ouyang W, Xu D, et al. Dvc: An end-to-end deep video compression framework[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 11006-11015.
[2] Yeo H, Jung Y, Kim J, et al. Neural adaptive content-aware internet video delivery[C]//13th USENIX Symposium on Operating Systems Design and Implementation (OSDI 18). 2018: 645-661.
[3] Sivaraman V, Karimi P, Venkatapathy V, et al. Gemino: Practical and robust neural compression for video conferencing[C]//21st USENIX Symposium on Networked Systems Design and Implementation (NSDI 24). 2024: 569-590.
[4] Jiang P, Wen C K, Jin S, et al. Wireless semantic communications for video conferencing[J]. IEEE Journal on Selected Areas in Communications, 2022, 41(1): 230-244.
[5] Li T, Sivaraman V, Karimi P, et al. Reparo: Loss-Resilient Generative Codec for Video Conferencing[J]. arXiv preprint arXiv:2305.14135, 2023.
[6] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10684-10695.
[7] Yang A, Nagrani A, Seo P H, et al. Vid2seq: Large-scale pretraining of a visual language model for dense video captioning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 10714-10726.
[8] Zhang R, Isola P, Efros A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 586-595.
[9] Kodaira A, Xu C, Hazama T, et al. Streamdiffusion: A pipeline-level solution for real-time interactive generation[J]. arXiv preprint arXiv:2312.12491, 2023.
GenAINet公众号简介
GenAINet公众号由IEEE Large Generative AI Models in Telecom (GenAINet) ETI成立,由GenAINet公众号运营团队负责维护并运行。
GenAINet公众号运营团队:
孙黎,彭程晖 (华为技术有限公司)
杜清河,肖玉权,张朝阳 (西安交通大学)
王锦光,俸萍 (鹏城实验室)
GenAINet
微信公众号
茶思屋科技网站
通信大模型社区
扫码关注更多“通信大模型”最新进展