AIGC逆生成：实现像素级一致的高保真视频通信

文摘 2024-11-05 10:41 陕西

本推文转载至：

https://www.chaspark.com/#/research/paper/1070495335706705920

推荐语：以Sora、Stable DIffusion为代表的文生视频（text2video）、文生图（text2image）AIGC大模型当下受到广泛关注，催生了AI作图、AI影视编辑等新兴产业。用户只需输入一段提示词（prompt）描述，此类AIGC大模型便可生成高质量的视频、图像。最近，来自北京大学的研究团队创新性地提出基于AIGC逆生成的语义通信，即输入“现实中的任意视频”，其算法能逆向生成对应的“prompt”；这样，在视频通信中，发送端只需传输prompt，接收端利用AIGC可重现出像素级一致的原始视频。基于这一技术，视频通信的数据量从传统的Mbps量级（基于H.264/265视频编码）降低到了100kbps级别（基于prompt），带宽需求降低了75%以上。此方案兼顾了传统视频编码的信号保真度和语义通信的低码率，提供了一种新的视频通信范例。（该推文由论文作者提供，并由黄大年茶思屋科技网站通信大模型社区团队进行编辑整理）

图1：基于prompt逆生成的像素级一致视频通信 vs基于传统方案的语义级一致视频通信

Can Prompts Streaming Replace Video Streaming with Stable Diffusion

Jiangkai Wu, Liming Liu, Yunpeng Tan, Junlin Hao, Xinggong Zhang

Peking University

原文链接：

https://arxiv.org/abs/2405.20032

该分享仅用于技术交流，未经许可禁止用于商业用途。

一、引言

随着视频流媒体应用的快速发展，网络视频流量持续增长。为降低流量，传统编解码器通过消除冗余来实现压缩。但冗余是有限的，压缩比存在上限。进一步压缩不可避免地需要丢弃视频中的非冗余内容，从而严重降低了视频质量。为提高压缩效率，近年来一些基于深度学习的编解码器[1]和视频传输框架[2-5]被提出，但依然在压缩性能或场景通用性上受限。

以扩散算法（Diffusion[6]）为核心的AIGC大模型（如Stable Diffusion、Sora）近年来由于其强大的文生图（text2image）、文生视频（text2video）能力而受到广泛关注。通过在Internet-scale的海量数据上进行预训练，此类大模型学习到了几乎所有人类视觉域（visual domain）的先验知识，同时也学习到了从文本到图像的映射关系。因此，大模型可以根据由仅几个词组成的简短prompt生成高保真的图像，原理如图2所示。

图 2：AIGC大模型如何基于prompt生成高质量图像

我们受此启发，提出一个问题：大模型是否能取代视频编解码器？即：发送端传输的是prompt而非编码后的视频，接收端根据prompt生成视频而非解码视频。如此，便可将网络视频流量从视频级别压缩到prompt级别，大幅提高视频通信效率。在本文中，我们提出了一套名为Promptus的系统，将原始视频逆生成为prompt进行传输，从而实现超低码率的视频通信，原理如图3所示。

图 3：Promptus原理图：将视频逆生成为prompts，维持像素级一致

二、研究内容

为实现上述愿景，我们解决了下述技术难题：

1、如何确保生成视频与原始视频之间的像素级一致？将视频逆生成为prompt最简单直接的方法是利用人工或者AI进行文本描述（Captioning[7]）。然而，使用这种描述作为prompt生成的视频只能保证与原始视频在语义层面一致，而像素层面的差异巨大，如图1所示。

为实现像素级一致，Promptus提出了一套基于梯度下降的Prompt逆生成框架。具体来说，prompt被随机初始化，并用其生成视频帧；计算生成帧与真实帧之间的逐像素差异作为损失值；计算损失值对于prompt的偏导数；使用梯度下降迭代求解prompt。当损失值收敛后，prompt便能逐像素重现出真实帧的视频内容。

2、如何控制Prompt的码率？由于Promptus使用语义嵌入作为prompt，其维度固定导致prompt码率无法适应动态的网络带宽。为此，Promptus提出了一套基于低秩（low rank）分解的码率控制算法。具体来说，Promptus将低秩分解的逆过程集成到梯度下降中，直接拟合分解后的低秩prompt。使用秩（rank）来控制prompt的质量和码率之间的权衡。当秩增大时，prompt的表征能力更强，可以描述视频帧中的更多细节，但码率也更大。相反地，当秩减小时，码率得以降低，但prompt的表征能力变弱，生成帧会与真实帧出现不一致。图4展示了不同秩下prompt的生成结果，可以看到：当秩为4时，生成帧中的耳环被丢失。当秩数增加到16时，耳环被成功还原。因此，Promptus会根据当前可用的网络带宽自适应地控制prompt的秩，以实现码率自适应。

图 4：不同秩的prompt拟合结果

3、如何对prompt进行帧间压缩？在视频通信时，Promptus可以考虑帧与帧之间的相关性，进一步降低传输数据量。具体地，我们观察到：prompt是高层语义信息，所以连续视频帧的prompt会连续变化。如果两个时序上相近的帧在prompt空间中也足够接近，那么这两帧之间帧的prompt可以通过线性插值来近似估计。为此，Promptus在梯度下降的过程中增加了prompt空间中的时序平滑正则项，确保相邻帧在prompt空间中也足够接近。以此，Promptus只需稀疏地传输少量关键帧的prompt，其余帧的prompt可以通过关键帧prompt的线性插值来近似估计，如图5所示。

图 5：prompt插值

三、实验评估

实验设置：

我们构建了一套包含多种domains的测试视频集，跨越自然风景和人类活动、户外远景和室内近景、真实场景和CG合成场景、3D游戏和2D动画等。
我们实现了一套视频传输系统，搜集了现实中的真实网络traces，采用Mahimahi进行重现。在Nvidia 4090D上，使用CUDA、TensorRT与TAESD进行生成加速。
我们将Promptus与H.265、VAE[6]等baselines进行比较。H.265是先进的视频编解码器。VAE是基于深度学习的神经编解码器。我们采用更符合人眼感知的LPIPS[8]指标衡量生成视频的保真度。LPIPS值越低，代表视觉质量越高。

超4倍码率降低。图6展示了相同码率下，视频帧的质量分布对比结果。Promptus可以在维持相同视频质量的情况下实现超过4倍的码率降低。例如，Promptus在140 kbps下平均LPIPS优于H.265在540 kbps下的表现。这是由于当码率降低时，Promptus损失的是prompt的表征能力。这虽然影响了其准确描述视频内容，导致生成帧存在轻微不一致，但凭借AIGC大模型固有的高质量图像生成能力，Promptus生成的帧仍然具有良好的锐度和细节，因此优于VAE和H.265。

图 6：相同码率下（左140 kbps，右540 kbps），视频帧质量的累积分布图和平均值

真实网络下，减少91.7%帧失真。图7展示了真实网络条件下，视频帧的质量分布。Promptus只有5.2%的帧LPIPS高于0.32，而VAE和H.265分别为94.5%和96.9%，可见Promptus可以大幅减小严重失真帧的比例。

图 7：真实网络条件下，视频帧质量的累积分布图和平均值

通用于各类视频。图8显示了Promptus和baselines在四个domains差异巨大的数据集上的平均帧质量。Promptus在各数据集上的平均LPIPS都大幅优于baselines，可见其具有通用性。为直观展示这一优势，我们在图9中可视化了各方法在四个数据集上的压缩结果。可以观察到，在低码率下，与出现模糊和块状伪影的baselines相比，Promptus保留了更多高频细节，从而获得了更高的视频质量。

图 8：不同数据集（Domain差异巨大）的平均视频质量

图 9：相同码率时在不同数据集上各方法的压缩结果可视化

实时视频生成。表1展示了Promptus生成一帧画面的细粒度时间开销。播放端从接收prompt到生成完整画面，包括以下步骤：prompt反量化、prompt重组、prompt插值、加噪前序帧、大模型图像生成。其中大部分步骤只涉及简单的线性计算，所以时间开销几乎可忽略不计，大模型图像生成占据绝大部分时间开销。由于我们采用TAESD与TensorRT 进行生成加速[9]，以及prompt逆生成过程中单步解噪的端到端优化，图像生成的时间被降低到6.16毫秒。综上，Promptus图像生成的总时间开销为6.226毫秒，实现了prompt到视频的实时生成。

表1：生成一帧画面的时间开销

四、结论与未来工作

本文提出了Promptus，将视频逆生成为AIGC大模型的prompt，将视频传输替换为prompt传输，实现了像素级一致的语义通信。Promptus将AIGC大模型的应用扩展到了视频传输，提供了一种全新的通信范式。作为一个初步的尝试，当前版本还有一些局限，比如prompt逆生成过程的时间开销、prompt插值的延时。这些局限导致点播视频是此版本Promptus适合的场景。因此，进一步提高prompt的逆生成效率、优化prompt帧间建模是未来的研究方向。

参考文献：

[1] Lu G, Ouyang W, Xu D, et al. Dvc: An end-to-end deep video compression framework[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 11006-11015.

[2] Yeo H, Jung Y, Kim J, et al. Neural adaptive content-aware internet video delivery[C]//13th USENIX Symposium on Operating Systems Design and Implementation (OSDI 18). 2018: 645-661.

[3] Sivaraman V, Karimi P, Venkatapathy V, et al. Gemino: Practical and robust neural compression for video conferencing[C]//21st USENIX Symposium on Networked Systems Design and Implementation (NSDI 24). 2024: 569-590.

[4] Jiang P, Wen C K, Jin S, et al. Wireless semantic communications for video conferencing[J]. IEEE Journal on Selected Areas in Communications, 2022, 41(1): 230-244.

[5] Li T, Sivaraman V, Karimi P, et al. Reparo: Loss-Resilient Generative Codec for Video Conferencing[J]. arXiv preprint arXiv:2305.14135, 2023.

[6] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10684-10695.

[7] Yang A, Nagrani A, Seo P H, et al. Vid2seq: Large-scale pretraining of a visual language model for dense video captioning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 10714-10726.

[8] Zhang R, Isola P, Efros A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 586-595.

[9] Kodaira A, Xu C, Hazama T, et al. Streamdiffusion: A pipeline-level solution for real-time interactive generation[J]. arXiv preprint arXiv:2312.12491, 2023.

GenAINet公众号简介

GenAINet公众号由IEEE Large Generative AI Models in Telecom (GenAINet) ETI成立，由GenAINet公众号运营团队负责维护并运行。

GenAINet公众号运营团队：

孙黎，彭程晖（华为技术有限公司）

杜清河，肖玉权，张朝阳（西安交通大学）

王锦光，俸萍（鹏城实验室）

编辑：肖玉权

校对：张朝阳

GenAINet

微信公众号

茶思屋科技网站

通信大模型社区

扫码关注更多“通信大模型”最新进展

http://mp.weixin.qq.com/s?__biz=MzkxMTYzOTYzNw==&mid=2247484628&idx=1&sn=6c005bb6eb8b9d7c522261167cb1c104

GenAINet通信大模型

本公众号是IEEE Large Generative AI Models in Telecom (GenAINet) ETI 的中文媒体平台，介绍通信大模型相关的研究进展、业界动态、技术活动等。

最新文章

AIGC逆生成：实现像素级一致的高保真视频通信

IEEE OJCOMS征稿启事：生成式AI与大模型增强的6G无线通信与感知

通信大模型研究论文集（V2.0）

生成式人工智能驱动的车辆网络：基础、框架和案例研究

打破学科边界，点亮通信未来——通信大模型社区上线

语义通信和知识学习的相互作用

【大咖观点】TelecomGPT: 电信领域的专属大模型

IEEE Networking Letters征稿启事：基于生成式AI与大模型的边缘智能

WirelessAgent: 面向智能无线网络的大模型智能体

6G：从连接泛在到智慧泛在

用生成式人工智能实现低碳智能物联网——基于大语言模型的讨论

GenAINet ETI 第四次会议成功召开

网络大语言模型：应用、使能技术和挑战

GenAINet ETI 2024第二季度Newsletter

AI模型边云协作框架：云端大模型与边缘小模型协同分布式训练和部署

生成式人工智能在先进无人机网络中的应用

【延期至8月31日】IEEE Networking Letters征稿启事：人工智能在6G网络中的应用

语义连续优化：一种生成式AI辅助的语义通信框架

【延期至8月20日】IEEE GLOBECOM 2024 Workshop征稿启事：多模态大语言模型对6G的影响

TelecomGPT：面向电信领域的大语言模型

IEEE GLOBECOM 2024 Workshop征稿启事：下一代智能无线应急通信

第四届通算一体网络理论与技术研讨会成功召开

【8月7日】第四届通算一体网络理论与技术研讨会

RF-Diffusion：面向射频信号的生成式扩散模型

迈向智能通信：大模型使能的语义通信

IEEE Networking Letters征稿启事：人工智能在6G网络中的应用

大模型驱动的生成式图像语义传输：计算视觉赋能6G时间敏感网络通信范式

IEEE GLOBECOM 2024 Workshop征稿启事：多模态大语言模型对6G的影响

CDDM: 无线通信的信道去噪扩散模型

并行分割学习中的资源编排与调度优化

IEEE WF-IoT 2024 Workshop征稿启事：生成式人工智能增强的物联网系统

生成扩散模型(GDM)在Wi-Fi网络性能优化中的应用

【6月28日】IEEE Singapore 6G Summit：探讨大模型时代的无线前沿技术

GenAINet ETI 第三次会议成功召开

IEEE ComSoc GenAINet ETI 研讨会：用大语言模型重新定义电信

孙凝晖院士讲座：人工智能与智能计算的发展

通过提示工程优化移动边缘AI生成一切(AIGX)服务：基础，框架和案例研究

基于生成式AI与强化学习的Wi-Fi网络通算一体化方案

将大语言模型推向6G边缘

IEEE Vehicular Technology Magazine征稿启事：生成式人工智能在未来车联网中的应用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉