大模型驱动的生成式图像语义传输:计算视觉赋能6G时间敏感网络通信范式

文摘   2024-07-18 15:07   陕西  


近日,由北京理工大学、英国萨里大学和芬兰奥卢大学组成的研究团队,提出了一种基于预训练生成式人工智能(AI)模型的低延迟、信道自适应语义通信框架。该研究成果《Latency-Aware Generative Semantic Communications with Pre-Trained Diffusion Models》已被IEEE Wireless Communication Letters(IF=4.6)录用,展示了在超低速率、低延迟和信道自适应语义通信领域的显著进展。论文第一作者为课题组博士研究生乔力。



研究背景与动机

随着6G及未来无线通信技术的发展,传输大量多模态数据并满足严格的延迟和可靠性要求成为了一项重大挑战。例如在无线元宇宙、全息传送和感官互联网等应用场景中,处理和传输的数据量巨大,对延迟和可靠性有着极高的要求。传统的通信方式难以在保证高质量感知体验的同时,实现高效的数据传输,这就需要一种新型的通信机制,以应对速率-失真-感知质量(Rate-Distortion-Perception)之间的权衡[1]-[3]。

生成式AI大模型的出现,为开发超低速率高保真的语义通信系统提供了新的机遇。视觉生成AI大模型如Sora [4], Lumiere [5]和DALL.E [6] ,经过大量数据的预训练,能够合成高质量的AI生成内容(AIGC,AI-Generated Content)。例如,提示词 “热带地区冲浪的泰迪熊” 可以用来生成一段语义内容匹配的短视频。研究团队意识到,利用预训练的生成式AI大模型,尤其是扩散模型,有望在发送端传输极度压缩的语义信息,然后在接收端合成具有高保真度的语义一致信号,从而显著提升6G通信系统的性能。


[1] Gündüz, D., et al. "Beyond transmitting bits: Context, semantics, and task-oriented communications," IEEE J. Select. Areas Commun., vol. 41, no. 1, pp. 5--41, 2023. 

[2] Chen, J., et al. "On the rate-distortion-perception function," IEEE J. Sel. Areas Inf. Theory, vol. 3, no. 4, pp. 664--673, 2022. 

[3] Blau, Y., et al. "Rethinking lossy compression: The rate-distortion-perception tradeoff," Proc. Int. Conf. Mach. Learn. (ICML), pp. 675--685, 2019. 

[4] Brooks, T., et al. "Video generation models as world simulators," 2024. [Online]. Available: https://openai.com/research/video-generation-models-as-world-simulators 

[5] Bar-Tal, O., et al. "Lumiere: A space-time diffusion model for video generation," arXiv preprint arXiv:2401.12945, 2024. 

[6] Ramesh, A., et al. "Zero-shot text-to-image generation," Proc. Int. Conf. Mach. Learn. (ICML), vol. 139, 18--24 Jul 2021, pp. 8821--8831.


所提方案概述

我们提出了一种基于预训练基础AI模型(Foundation Model)的通用生成式语义通信框架,如图1所示。该框架包括三大核心模块:多模态语义分解与合成、语义感知的多流传输和低延迟的语义功率分配。在发送端,预训练的文本转换编码器将输入信号进行超低速率的信源到文本转换,提取出作为生成式AI过程提示的文本信息。同时,从源信号中提取额外的语义信息,通过多种模态编码和压缩后传输到接收端。在接收端,这些多模态语义内容被输入到预训练的生成式扩散模型中,进行高保真信号合成。

图1. 所提生成式语义通信框架。



01

创新点总结


1. 语义分解方案:在发送端提取输入信号的多种语义模态,将最重要的内容提取为紧凑的文本消息或提示词,并结合多种其他模态引导接收端生成模型的合成过程。

2. 多流传输方案:根据通信意图,采用适当的编码和通信技术传输每个提取的语义模态。由于文本提示词的重要性,采用重传方案确保其可靠接收,其他模态则根据无线信道条件自适应调整调制方案。

3. 语义和延迟感知方案:根据语义重要性分配传输功率,并根据无线信道条件自适应调整调制阶数,以满足低延迟需求。


02

所提方案优势


1. 丰富的通用知识:基础生成AI大模型通过大规模数据的自监督训练,消除了发送端和接收端之间共享知识库/图谱的需求,避免了现有框架中的知识共享开销。
2. 模块化的语义通信架构:采用预训练模型允许基于模块化的架构,减轻了端到端联合训练的需求。这种架构与现有无线通信网络设计更兼容,能够灵活应对不同信道条件。


仿真结果

实验考察了图像语义通信任务,接收端对图像中的主要物体(如“汽车”、“建筑物”)及其总体结构(即物体的形状和位置)的语义信息感兴趣。因此,我们采用双模态语义分解框架,通过文本提示传达宏观语义信息,通过边缘图传达结构语义信息。相应的,我们采用:语义相似性和结构相似性两个评价指标。语义相似性通过对比语言-图像预训练模型(CLIP)进行评估,定义为原始图像和生成图像的CLIP embedding的余弦相似性;结构相似性则通过多尺度结构相似性(MS-SSIM)指标进行评估。

图2. 语义传输质量可视化结果(文本语义信息由GPT-4生成)。


我们测试了GPT4或BLIP 两种文本语义提取模型的性能,在无差错信道下,两种模型的CLIP 评分分别是0.918 和0.896,其MS-SSIM 表现相似。尽管有一定的性能损失,BLIP 模型相比于GPT4 更适用于本地部署。边缘图信息用预训练的HED模型提取,通过非线性变换编码进行压缩。在接收端,使用预训练的稳定扩散模型(Stable Diffusion)从接收到的文本提示和边缘图生成图像。通过对自然图像的仿真结果表明,该框架在超低速率传输下,仍能保持优异的语义质量。如图2所示,在提示词和边缘图的比特率分别低至0.0024和0.017 bpp时,接收端重建的图像仍具有良好的视觉质量

生成模型对边缘图误码率的敏感性

图3. 归一化的CLIP,MS-SSIM指标与边缘图BER的关系。


研究表明,所提出的框架的端到端性能取决于接收端生成AI模型的表现,即其对边缘图误码率(BER)的敏感性。通过大量仿真,如图3所示,我们发现CLIP和MS-SSIM指标随着边缘图BER的增加而单调下降。当误码率低于1e-4时,传输边缘图显著提升了语义质量。然而,当误码率高于1e-3时,边缘图的传输错误导致生成图像的质量下降。例如,在高误码率下,即使文本提示中包含 “栅栏” ,生成的图像中也可能缺少 “栅栏” ,如图2所示。总的来说,与仅依赖文本提示相比,传输边缘图不仅提升了结构相似性,还增强了语义相似性,使得生成的图像更符合预期。

信道和语义质量自适应传输

图4. 给定语义质量(BER)下,不同信噪比下最优传输参数: (a) 用于文本提示词传输的功率占比;(b) 通信传输延迟;(c) 用于边缘图传输的调制阶数(比特数、符号);(d) 文本提示词重传的平均次数。


在不同的信道质量(信噪比)下,所提出的框架能够自适应地调整传输参数,以在满足给定语义质量要求的前提下,最小化传输延迟。图4显示了在不同语义指标要求下,传输信噪比与最优通信参数之间的对应关系。图5则给出了语义质量、调制阶数、传输/计算延迟和信噪比之间的对应关系表,便于工程应用。

图5. 语义质量,调制阶数,传输/计算延迟,信噪比的对应关系表。


结论

这项研究利用生成式AI大模型解决了6G通信中海量多模态数据高效传输难的挑战。提出的框架显著降低了传输延迟并提升了信号的语义保真度,在元宇宙,全息传送,智能物联网,自动驾驶、增强/混合现实等领域具有广阔的应用前景。

论文信息

Essentials

标题:Latency-Aware Generative Semantic Communications with Pre-Trained Diffusion Models

作者:Li Qiao, Mahdi Boloursaz Mashhadi, Zhen Gao, Chuan Heng Foh, Pei Xiao, and Mehdi Bennis

引用格式{L. Qiao, M. B. Mashhadi, Z. Gao, C. H. Foh, P. Xiao, and M. Bennis, ``Latency-aware generative semantic communications with pre-trained diffusion models,'' to appear in IEEE Wireless Commun. Lett. arXiv:2403.17256v1 [cs.IT], Mar 2024.}

链接:

https://arxiv.org/abs/2403.17256






GenAINet通信大模型
本公众号是IEEE Large Generative AI Models in Telecom (GenAINet) ETI 的中文媒体平台,介绍通信大模型相关的研究进展、业界动态、技术活动等。
 最新文章