迈向智能通信:大模型使能的语义通信

文摘   2024-07-26 09:28   陕西  


论文分享

 GenAINet通信大模型 


深度学习(Deep Learning, DL)支持的语义通信展示了显著的潜力,通过高效地交换数据背后的语义从而显著提高传输效率和缓解频谱稀缺问题。最近,具有数十亿参数的大模型的出现展示出了令人惊叹的类人智能,为通过增强语义和上下文理解来推进语义通信提供了新的途径。针对于此,来自暨南大学、清华大学以及休斯顿大学的研究团队从潜在的应用到系统设计全方面地研究了大模型(Large Models, LMs)支持的语义通信系统。首先,研究人员提出了一种新的语义通信架构,通过引入一个存储模块,将LMs无缝集成到语义通信中。然后,研究人员通过介绍潜在的典型应用展示了新架构的优势,并讨论了从模块设计到系统训练在实现新语义通信系统中的关键部分。最后,研究人员确定了LMs使能的语义通信中的潜在研究方向。

Toward Intelligent Communications: Large Model Empowered Semantic Communications


Huiqiang Xie1, Zhijin Qin2, Xiaoming Tao2, and Zhu Han3


1Jinan University, China

2Tsinghua University, China

3University of Houston, USA

原文链接

https://ieeexplore.ieee.org/document/10599117

论文版权归属IEEE Communications Magazine及IEEE版权方,本文分享仅用于技术交流,未经许可禁止用于商业用途。
本文介绍一种大模型(Large Models, LMs)使能的语义通信框架,着重回答三个方面的问题:1)LMs会给语义通信带来什么?2)如何将LMs集成到语义通信中?3)在LMs使能的语义通信框架中,核心设计是什么?
1.  LMs使能的语义通信框架

图1显示了提出的语义通信架构。该架构不仅包括现有语义通信中的模块,即语义编码器和信道编码器,还包括新的模块,即存储模块和大模型。在提出的架构中,语义被定义为与内容/任务相关的信息。

图1 LMs使能的语义通信框架

1.1 上下文信息

在我们的日常生活中,上下文信息可能指的是对话。然而,在语义通信中,上下文信息不仅限于对话,还包括传输的语义信息和自感知信息。传输的语义信息包含在过去的时隙中从发射端传输的多模态语义,例如文本特征、语音特征和视觉特征。这些信息可以提供补充信息,以避免语义歧义。例如,给定句子“我想要那个,而不是这个”,如果没有上下文“那个是苹果,这个是香蕉”,很难理解句子中“那个”的含义。

另一种上下文信息是自感知信息,例如用户行为、从摄像头获取的环境信息和从导频估计的信道状态信息(CSI),这些信息可以为感知任务提供上下文,包括手势感知和室内定位。例如,通过根据之前的轨迹和用户行为,室内行人轨迹预测可以更加精准。

1.2 记忆模块

人脑有一个记忆区域,人类可以在其中学习和分析过去的信息,以帮助做出当前情境的决策。此外,大模型可以通过上下文学习来解决零样本或少样本任务。受此启发,我们在新架构中引入了存储模块。存储模块用于存储接收到的上下文信息,它可以处理存储的上下文信息,并选择性地用接收到的上下文信息更新存储的上下文信息,其中过时的上下文将被新信息替换。这对于支持更多种类的任务和提高任务的准确性很有帮助。

与大模型提供一般信息不同,存储模块是短期知识。这些历史信息为语义通信引入了时间域,使系统能够学习过去几个时隙的特征,并准确预测未来的语义。

1.3 大模型模块

大模型是增强语义通信能力的核心部分,因为它们可以生成多样化的数据,并具有强大的语义表示和理解能力。根据应用,大模型基本上可以分为两类:判别模型和生成模型。判别大模型能够在给定复杂输入时准确提取简明的语义信息,这可以增强语义通信的语义理解。相比之下,生成大模型可以生成包含细致信息的数据,并提供简明的语义信息。这对语义通信中的语义表示有益。通过利用这两种类型的大模型,有可能使语义通信系统传输较少的语义信息,但生成更复杂的数据,并处理更难的任务。

2.  LMs使能的语义通信的潜在应用

本节介绍了新语义通信架构的几种典型应用,包括意图理解、多模态生成、复杂任务执行和场景生成,如图2所示。

图2 LMs使能的语义通信的典型应用

2.1 意图理解

在面向任务的语义通信中,用户希望接收者执行所需的任务。识别用户的意图是成功执行任务的关键部分,特别是在多任务场景中,多个任务同时进行。新的语义通信架构可以帮助接收者识别用户的意图。传输方的上下文信息通常包含用户的意图,这些意图可能是执行一个简单任务或一系列任务。我们可以使用存储模块首先存储和处理接收到的上下文信息,然后将其提供给大型语言模型(如ChatGPT、LLamDA等)以清楚地理解用户的意图,最后选择合适的模型来执行任务。如图2a所示,用户首先向接收者发送句子,然后接收者识别意图,即执行图像分类任务,最后选择相应的模型对接收到的图像中的对象进行分类。

2.2 多模态生成

可以利用大型模型,例如文本生成图像或文本生成视频的模型(如DALL·E、Midjourney、Stable Diffusion 等),来生成多模态数据,提供个性化服务,例如元宇宙和个性化生活,因为它可以提供更低的延迟和更准确的内容生成。如图 2a 所示,大型模型可以利用接收到的语义生成艺术级的视频或图像,这将语义通信的能力从数据重构扩展到个性化数据生成。记忆模块可以提供额外的短期信息来控制数据生成。例如,给定句子“生成一个兔子弹吉他的视频,现代迪士尼风格”,记忆模块可以提供用户在上一个时隙中收到的兔子图像,而大型模型可以提供有关弹吉他和迪士尼风格的信息。值得注意的是,兔子图像属于短期知识,因为它们可能因用户而异,而弹吉他和迪士尼风格对大多数用户来说是常识。与传统通信直接传输句子相比,大型模型赋能的语义通信可以更准确地传达语义,从而实现所期望的数据生成。

2.3 复杂任务执行

本文提出的语义通信架构使语义通信能够执行更复杂的任务。大型模型有能力通过思维链将复杂任务分解为多个简单问题,并调用不同的语义解码器共同完成复杂任务。此外,由于大型模型属于多任务模型,可以用一个大型模型替代多个语义解码器。借助记忆模块,系统能够同时执行无记忆任务和有记忆任务。无记忆任务仅与当前时隙接收到的输入相关,例如接收图像并识别其类别。有记忆任务则与当前和过去时隙接收到的输入相关,例如对话中的回应不仅依赖于当前听到的句子,还依赖于之前的上下文。如图 2c 所示,在视觉问题回答任务场景中,记忆模块可以存储接收到的图像的语义,然后将其提供给大型模型。给定问题:“这张图片和上一张图片中有多少个球?”大型模型可以首先理解意图,然后将其分解为几个步骤,即识别图像中的球并进行计数。

2.4 场景生成

收集真实世界数据是具有挑战性的,但生成式AI可以生成用于通信和语义方面的训练数据。在自动驾驶中,生成式 AI 提供了更丰富和自动化的数据,例如语义多视角全景和重建的真实场景,为模型训练提供了大量标注数据。

在收集新通信场景数据困难的情况下,生成式 AI可以通过模拟器描述模拟边缘的通信环境。然后,接收机可以首先在生成的场景中进行训练,以适应新环境,这有助于语义通信系统快速适应不同的通信环境。如图 2d 所示,利用场景描述生成的信道可以用于端到端方式训练图像语义通信。此外,生成的场景提供了优化波束形成的有价值的补充信息,从而提高了传输的鲁棒性。除了在通信中的应用,这些生成型大型模型还扩展了其多样性,可以生成各种任务所需的不同数据类型。例如,它可以为图像分类任务和图像检索任务生成大量特定类别的图像。

3.  LMs使能的语义通信框架的核心设计

除了典型应用,本节将介绍设计LMs使能的语义通信时面临的主要挑战,包括记忆模块的设计、大型模型的设计、联合训练的设计、自适应传输以及训练方法,如图3所示。

图3 LMs使能的语义通信框架的核心模块设计

3.1 记忆模块

记忆模块的设计主要关注上下文存储模型和上下文更新模型,如图 3a 所示。

上下文存储模型上下文存储模型的设计需要考虑空间的大小、多模态上下文信息的对齐以及时间编码的设计。空间的大小影响可以存储多少上下文信息,其中较小的空间适合需要新鲜信息和低计算能力的任务,反之亦然。此外,多模态上下文信息的对齐是指寻找两种或多种模态之间的关系和连接。更好的对齐设计可以帮助提高对多模态上下文信息的理解,并使上下文管理更加容易。此外,对于上下文信息,识别在上下文中发生的特征的时间顺序也很重要。因此,我们需要设计合适的时间编码来描述这些上下文特征之间的时间关系。

上下文更新模型上下文更新模型应仔细设计更新规则,以用新到的上下文替换现有的上下文。这些规则可能包括信息的新鲜度、信息的价值、信息的相关性等。信息的新鲜度适用于需要频繁和定期更新某些信息的任务。及时更新上下文是这些任务的重要方面,例如元宇宙、自动驾驶车辆的远程控制/监控等。信息的价值衡量上下文对任务的贡献,适用于资源分配决策。上下文之间相关性的测量对需要长期检索的任务有益,其中相关性最少的上下文将被替换。这些规则可以单独使用或联合使用,以更新存储的上下文,从而为任务提供更准确的上下文信息。

最近有研究将记忆模块形式化为具有有限长度的队列用于记忆任务。在图 4 中,我们展示了有记忆模块和没有记忆模块的语义通信的比较。考虑了场景问答任务。观察到具有记忆模块的语义通信系统在答案准确性方面明显优于没有记忆模块的系统。

3.2 大模型模块

大型模型的设计可以分为仅编码器、仅解码器和编码器-解码器三种类型,如图 3b 所示。这些设计关注于不同的能力,即理解和生成。

仅编码器设计仅编码器模型主要专注于将输入数据编码为固定维度的表示,通常称为嵌入或潜在表示,以捕捉输入数据的有意义特征或表示。这种模型通过随机遮盖信息并用未遮盖的信息预测遮盖的信息进行训练。仅编码器模型的设计简化了架构,降低了计算复杂性,使其在需要特征提取或表示学习的任务中高效,例如分类任务,而不需要数据生成或序列到序列的转换。代表性的仅编码器模型包括文本的 BERT 和图像的 Mask-Autoencoder。

仅解码器设计仅解码器模型,也称为生成模型,专注于从给定的输入或潜在表示生成输出数据或序列,即将输入数据或潜在表示转换为目标序列或结构化输出。这种模型通常以自回归的方式进行训练,根据先前的词语或像素预测下一个词语或像素。仅解码器模型缺乏编码器虽然削弱了理解能力,但增强了生成能力,适用于需要数据生成或序列到序列转换的任务。代表性的仅解码器模型包括 GPT-4 和稳定扩散模型。

编码器-解码器设计编码器-解码器模型利用编码器学习源数据的潜在表示,利用解码器生成目标数据,其中编码器具有理解能力,解码器具有生成能力。这种模型可以使用监督学习进行训练,通过对齐的数据对(例如,机器翻译中的源句子和目标句子)来学习将输入序列映射到目标序列。这种设计将数据理解和数据生成结合在一起,适用于诸如图像描述生成这样的任务,其中编码器处理图像,解码器生成文本描述。近期的编码器-解码器模型包括 Flan-UL2 和Flan-T5。

最新研究主要采用仅解码器设计,因为它们在生成结果方面表现出色,并且在容量有限的设备上运行更加高效。

3.3 通信系统联合设计

基于香农定理,目前的通信系统采用了分离设计,其中每个模块分别进行优化。这种分离设计没有考虑各模块之间的误差传播,达到了局部优化。因此,我们可以通过联合设计和训练模型来缓解误差传播。存在两种联合设计,如图 3c 所示:联合接收发射机设计和联合语义-信道编码设计。

联合接收发射机训练首先讨论联合接收发射机训练。通过输入大量训练数据和设置损失函数,接收机和发射机的权重将通过随机梯度下降(SGD)算法进行更新,接收机通过反向传播将梯度传递给发射机,这可以缓解误差传播并以端到端的方式实现全局优化。然而,这需要一个稳定的反馈通道来准确传输梯度以进行在线训练。因此,这种设计通常在本地进行,然后将模型部署到设备上。

联合语义-信道编码设计第二种是联合语义-信道编码设计,在这种设计中,语义编码和信道编码是联合优化的,但发射机和接收机是分别训练的。这种设计不需要从接收机到发射机的梯度反馈,适用于在线训练。由于局部优化,联合语义-信道编码设计在某些情况下略逊于联合接收发射机设计,但优于分离设计。

选择哪种联合设计取决于稳定反馈通道的可用性。近期的语义通信研究主要采用联合接收发射机设计,因为在数据重构和任务执行方面表现更好。在图 4 中,我们展示了不同设计的比较。模拟结果表明,联合设计可以实现比分离设计更好的答案准确性。

图4 在AWGN信道下,不同语义通信系统设计之间的性能

3.4 自适应传输
在传统通信中,自适应传输可以通过采用不同组合的信道编码速率和调制阶数来避免不同信道条件下的中断。在语义通信中,自适应传输可以通过遮蔽传输信号中的非必要元素来实现,即在低信噪比(SNR)环境下减少遮蔽以确保任务执行的可靠性,而在高 SNR 环境下遮蔽更多元素以实现更高的传输速率。如图 3d 所示,语义通信中的自适应传输有两种类型:基于学习和基于理论。
基于学习的自适应传输:基于学习的方法引入速率控制网络,通过对抗训练预测不同 SNR下的遮蔽元素数量,其中遮蔽元素数量和数据重构质量达到纳什均衡。然而,这种基于学习的方法面临几个挑战。首先,该方法可能面临模式崩溃,即不同 SNR 下的遮蔽元素数量将收敛到相同的值。这需要精心设计的网络结构和超参数。此外,由于遮蔽生成基于动态语义信息和 SNR,因此遮蔽信息需要传输给接收机以填充零。已经提出了不同的速率控制网络,例如空间遮蔽网络和基于 Gumbel Softmax 的网络等。

基于理论的自适应传输:遮蔽元素数量与 SNR 之间的关系通过数学推导得出。然后,通过遮蔽预定义数量的元素来训练接收发射机。基于理论的方法可以避免模式崩溃,并且不需要传输遮蔽信息。然而,它需要找到语义噪声与信道噪声之间的联系。有时,语义噪声很难用数学模型描述,尤其是对于大型模型。

3.5 训练方法

大型模型包含数十亿个参数,使得训练过程既耗时又计算密集。与大型模型联合训练系统变得不太可行。如图 3e 所示,我们可以采用低秩适应(LoRA)来更新大型模型的参数,而不是更新所有参数,其中梯度被替换为两个可学习的低秩矩阵。还可以将 LoRA 与联邦训练结合使用,以保护用户隐私。此外,对于训练语义编码器,可以冻结大型模型并引入交叉注意力层,以融合来自大型模型的知识。

4.  总结与未来研究方向

本文提出了LMs使能的语义通信,以充分利用大型模型的能力来增强语义通信的容量。在研究过程中,仍有以下挑战需要解决:

4.1 记忆模块建模

当前的记忆模块仅被建模为具有有限长度的先进先出队列,其中记忆存储模型是队列,记忆更新模型是先进先出。然而,这种设计没有考虑多模态语义的对齐以及上下文信息之间的相关性,因此不适用于更复杂的场景。为了支持对上下文信息的更有效处理,我们需要在记忆存储模型和记忆更新模型上设计新方案,以最大化利用效率。

4.2 大模型部署

尽管大型模型在各种任务中展现了强大的能力,但其包含数百亿个参数,使得大型模型难以在移动设备上部署。将大型模型直接应用于语义通信的成本包括高功耗甚至设备崩溃。一种将大型模型部署到容量有限设备上的方法是通过模型压缩技术来压缩大型模型,即权重剪枝、权重量化和知识蒸馏。另一种方法是利用边缘计算执行大型模型,这可以将计算密集型任务卸载到边缘服务器。然而,压缩技术和边缘计算不可避免地会降低大型模型的性能或增加延迟。因此,需要新的模型压缩和边缘计算技术,以实现平滑的性能下降,从而加速大型模型的部署,同时考虑计算资源、通信资源和性能之间的权衡。

4.3 联合训练算法

从头开始训练大型模型既耗资又费时。例如,GPT-3 的训练需要超过 1,000,000 个 V100 GPU 小时。因此,主流做法是训练一个具有数十亿个参数的基础模型,然后对预训练的基础模型进行微调,以适应下游任务,这通常需要多个训练周期。然而,这种微调仍然耗时且不稳定,依赖于训练数据和超参数设置。此外,语义通信系统通常以联合方式进行训练以获得更好的性能。额外的模块,如记忆模块和信道编码器,也会增加联合训练的复杂性。因此,设计一个有效的训练算法以加速预训练的大型模型、记忆模块和信道编码器的联合训练仍然至关重要。

4.4 多模态信息处理

最近的研究关注于两种模态的信息处理,即文本和图像,这已显示出比仅训练单一模态模型的优势。现实世界中不仅存在文本和图像,还包括其他模态的数据,例如音频、深度图像、雷达信息、CSI 信息等。此外,记忆模块在时间域中引入了多模态信息。融合所有这些新类型的数据可以提高大型模型在现实世界中对更多任务的泛化能力。如何设计模型以融合这些信息仍需进一步研究。

GenAINet公众号简介

GenAINet公众号由IEEE Large Generative AI Models in Telecom (GenAINet) ETI成立,由GenAINet公众号运营团队负责维护并运行。

GenAINet公众号运营团队:

孙黎,彭程晖 (华为技术有限公司)

杜清河,肖玉权,张朝阳 (西安交通大学)

王锦光,俸萍 (鹏城实验室)

:肖玉权
:张朝阳

GenAINet通信大模型
本公众号是IEEE Large Generative AI Models in Telecom (GenAINet) ETI 的中文媒体平台,介绍通信大模型相关的研究进展、业界动态、技术活动等。
 最新文章