语义连续优化:一种生成式AI辅助的语义通信框架
文摘
科学
2024-08-20 17:18
河北
语义通信技术能够仅根据语义特征信息在接收端重建与原始图像语义等效的图像,从而有效降低通信负载,因此有望成为6G通信的关键技术。但当前的语义通信系统仍缺乏从精练的语义信息中构建复杂场景的能力,显然在平衡语义信息生成方法的有效性和传输信息的复杂性方面存在技术空白。为弥合这一差距,来自西北工业大学李立欣教授团队与三星剑桥AI研究中心、西安电子科技大学和休斯顿大学的研究团队提出了一种扩散模型增强语义通信框架。该框架融合了扩散模型在合成多媒体内容时保留语义特征的强大能力,通过高度压缩语义信息来减少带宽使用,使用扩散模型丰富图像的信息,确保与原始语义信息的一致性,实现对重建图像的语义连续优化。(本推文内容由论文作者提供)Semantic Successive Refinement: A Generative AI-aided Semantic Communication Framework
Kexin Zhang1, Lixin Li1, Wensheng Lin1, Yuna Yan1, Rui Li2, Wenchi Cheng3, and Zhu Han4
1School of Electronics and Information, Northwestern Polytechnical University, Xi’an, China
2Samsung AI Cambridge Center, Cambridge CB1 2RE, U.K.
3State Key Laboratory of Integrated Services Networks, Xidian University, Xi’an, China
4Department of Electrical and Computer Engineering, University of Houston, Houston, US
https://arxiv.org/abs/2408.05112
本文分享仅用于技术交流,未经许可禁止用于商业用途。语义通信系统如图1所示,过程包括:发送端利用语义知识库提取原始图像的语义信息,生成的语义特征序列送入信道编码模块后传输。接收端通过信道解码获得语义特征序列,再利用语义知识库进行解码和恢复,重建原始数据或直接用于分类、目标检测等任务。许多语义通信系统采用基于深度学习的联合信源信道编/解码框架,这依赖于语义知识库提供的强先验知识,才能保证传输的有效性和可靠性。语义知识库作为数据压缩和重建的基础,需要通过发送端和接收端的交互进行构建,并在正式通信前部署。基于深度学习的系统将语义知识库嵌入神经网络的模型参数中,其训练、更新和部署相当于知识库的构建和维护。若发送端和接收端的语义知识库不匹配,通信性能将大幅下降。作为一类基于似然度的模型,扩散模型包括两个过程,即正向扩散和反向推理。在正向扩散过程中,扩散模型逐渐向训练数据加入高斯噪声,直到数据完全变成纯噪声。在反向推理过程中,网络学习如何从噪声中恢复数据。然而,经典的扩散模型需要在大型去噪模型上进行大量的迭代步骤,从而精确建模的数据细节,这会导致大量的计算资源消耗。不同于从头生成每个像素的图像合成任务,轻量化的条件扩散模型只需在解码器的噪声图像中添加准确细节,充分利用扩散模型强大的分布映射能力来恢复图像。这种机制与语义通信知识库的功能相似,知识库提供背景知识和上下文信息,使接收端能够有效地理解和重构传输内容。类似地,扩散模型通过学习逐步去除噪声来恢复数据细节,展现了从噪声中提取有用信息的能力。基于此,本文提出了一种生成式AI辅助的语义通信框架。本文提出了一种针对下行传输场景的生成式语义通信框架,系统结构如图2所示。该框架不仅包括现有语义通信中的语义编解码器和信道编码器模块,还增加了一个核心模块,即语义微调模块。对于给定的图像集,首先对图像进行信息挖掘和特征提取。捕获的关键语义信息通过先进的Swin Transformer编码为潜在空间中的,其中H 和W 分别表示图像的高度和宽度,C 表示特征向量块的投影尺寸。在训练阶段,为适应测试数据集的分辨率,解码器包含两阶段的Transformer架构,以确保模型能够捕获丰富的视觉特征。这种逐层处理不仅能快速识别图像的主要区域,还能深入挖掘细节,提高特征提取的准确性。此外,语义解码器遵循与编码器对称的逆结构。针对语义解码后的失真图像,本文基于扩散模型开发了语义微调模块,其核心是一个轻量的扩散模型,包括两个主要网络:精简先验网络()和图像重建网络()。主要提取先验表征向量Z ,以减少传统扩散模型的计算负担;则利用来自预训练知识库的语义信息指导高质量图像的生成。经过语义微调,语义通信系统可以利用扩散模型在合成多媒体内容方面的优势,通过保留传输的语义信息来重建高质量图像。这种方法提高了数据传输效率,并优化了从有损信号中恢复复杂语义内容的能力,从而显著提升整体系统性能。在训练过程中,首先将原始训练集图像与其对应的解码失真图像 进行连接。接下来对合并后的图像进行下采样来作为的输入,在此过程中提取的向量用Z 表示,然后可以使用提取的向量Z 来恢复图像,过程如下:这些图像与Unet形状的动态Transformer块堆叠在一起。动态Transformer块由动态多头转位注意力机制和动态门控前馈网络组成,它们可以利用 作为动态调制参数,将恢复细节添加到特征图中,从而有效地聚合局部和全局空间特征。主要通过扩散模型的有效数据估计函数从有损解码的图像中生成准确恢复的图像,这一过程包括两个关键部分:前向扩散和后向推理。首先,使用预训练的捕获解码图像的先验表征向量Z ,记为,并通过T 次迭代将的前向扩散过程应用于样本。每次迭代如下:在扩散过程中,调度器在每个时刻都逐渐添加高斯噪声,直到图像的初始语义信息变成纯噪声:式中,是一个已知的具有时间相关常数的方差表,而 是一个单位矩阵O 的高斯噪声。前向扩散过程是将数据噪声化,反向推理过程就是一个去噪的过程,推理阶段只使用反向扩散过程。与传统的DM算法在迭代过程中随机选择一个时刻来优化去噪网络不同,本模块可以使用更少的迭代和更小的模型尺寸来获得与传统扩散模型质量相当的估计。具体地说,从特定的时刻开始进行所有的去噪迭代,并将的先验表征向量发送给,与去噪网络进行联合优化。然后利用和估计每个时刻t 的噪声,得到:经过T次迭代后,生成 ,然后再利用恢复语义信息图像。本文使用CIFAR10数据集进行训练和测试,采用DeepJSCC和经典基于分离的信源信道编码方案作为性能比较的基准。对于经典的传统通信方案,采用JPEG编解码器进行压缩,使用低密度奇偶校验码(LDPC)和正交调幅(QAM)方案对抗信道噪声或衰落,该方案记为JPEG+LDPC+QAM。图3显示了不同信噪比(SNR)下生成式AI辅助语义通信(GSC)的PSNR性能。可以看到,对于传统的JPEG+LDPC+QAM方法,当信道恶化超过一个阈值(信噪比<3)时,接收端无法正确进行信道解码,因此无法正确传输任何语义信息。相比而言,当信噪比>6时,PSNR达到传统通信算法的饱和性能,此时的图像相似度评分几乎收敛到20,进一步增强信噪比并不能提高输出图像的质量。然而,随着信噪比的降低,传统方法的性能明显下降,且不如语义通信系统。由于语义信息可以通过微调模块得到增强,在低信噪比下,所提出的生成式AI辅助语义通信方案比DeepJSCC更具竞争力。图4显示了在瑞利衰落信道下使用生成式AI辅助语义通信和对比算法获得的信噪比的PSNR。尽管瑞利信道条件更为苛刻,但所提算法在语义通信中仍显示出优势。这是因为尽管LDPC编码和QAM调制增强了数据传输的鲁棒性,但JPEG压缩算法有性能损耗,可能导致不可逆的信息丢失,降低了整个系统的容错性,若出现传输错误,则会进一步导致图像质量下降或数据完整性下降。与DeepJSCC相比,该方法在较低信噪比下具有较小的性能差距,即使接收到的语义信息图像被严重破坏,仍能生成与原始传输语义信息一致的高保真图像。图 4 PSNR性能 vs Rayleigh信道信噪比为了分析语义微调模块的作用,还通过消融实验来验证所提出的方法,将所提出的生成式AI辅助语义通信方法与非生成框架(NGF)的图像传输性能进行了比较。NGF采用一个直接的语义接收器,但关闭了GSC的语义微调模块。以AWGN信道传输为例,图5比较了GSC和NGF在不同信噪比下传输图像的视觉效果。随着信噪比的提高(从左到右,信噪比范围从0 dB到15 dB),来自两个框架的图像从斑驳的马赛克样外观转变为更高质量的纹理,但在低信噪比下GSC的图像质量显著优于NGF。图 5 AWGN信道中不同SNR下两种传输框架的图像细节。(a-f) NGF。(b-l) GSC。本研究提出了一种生成式AI辅助的语义通信系统,该系统引入了先进的、可解释的语义微调模块来增强语义信息。实验表明,与传统的通信方法和DeepJSCC相比,生成式AI辅助语义通信提供了更好的传输质量,显著改善了资源受限无线网络中的通信服务,即使是在低信噪比条件下,生成式AI辅助语义通信仍能恢复出质量较好的图像GenAINet公众号由IEEE Large Generative AI Models in Telecom (GenAINet) ETI成立,由GenAINet公众号运营团队负责维护并运行。
GenAINet公众号运营团队:
孙黎,彭程晖 (华为技术有限公司)
杜清河,肖玉权,张朝阳 (西安交通大学)
王锦光,俸萍 (鹏城实验室)
编辑:张朝阳
校对:肖玉权