论文解读 |【KDD 2024】OpenDiff:基于公开数据与扩散模型的移动网络流量生成

文摘   2024-09-15 21:39   北京  

OpenDiff:基于公开数据与扩散模型的移动网络流量生成


背景介绍




5G网络的商业化极大地促进了新兴业务的出现,越来越多垂直领域业务对网络性能提出了更高要求,比如更快的传输速率,泛在的网络覆盖,万物智能互联,以及绿色节能与可持续发展。


VR视频

具身智能

低空经济


为了实现上述网络性能要求,高效、合理的网络优化与规划变得尤为重要。比如,在网络规划中,合理的基站布局不仅可以提升用户覆盖率,还能有效减少信号盲区,从而增强网络的稳定性与用户体验;在网络优化方面,高效的网络资源分配能够根据用户偏好和应用需求提供定制化服务,提升用户满意度 。总的来说,合理的网络优化与规划的能够实现覆盖、吞吐量与能耗之间的有效权衡。在保证用户良好覆盖与高效数据传输的同时,减少能源的使用,构建一个高效、环保、可持续发展的无线网络系统。


在此背景下,移动流量数据生成在网络优化与规划中展现出巨大的潜力。移动流量数据生成不仅能帮助网络运营商分析地区潜在用户网络需求,指导网络规划方案;还能够预测未来流量数据变化,前瞻性地掌握网络资源消耗情 况以及用户服务质量,针对不同应用场景与业务需求灵活地编排网络资源,完成 从被动响应式网络优化到主动预防式网络治理的转变,实现用户“零等待”,网络“零故障“。


但是,生成准确的移动网络流量并非易事。


一方面,移动流量数据表现出明显的时空复杂性 ,在不同时间段会出现显著波动,包括高峰期的流量激增与低谷期的流量减少,并且在不同地理位置,流量分布差异巨大。这对生成算法设计提出了一定挑战。


另一方面,现有模型 [1,2] 为了实现移动流量数据生成,通常使用了专用数据进行辅助。比如,采用移动用户轨迹作为条件信息,或者采用基站地理位置、城市地区功能属性挖掘移动流量空间特性。但是上述辅助数据通常涉及隐私问题,运营商、设备商等机构不愿公开,研究人员很难直接获取,这极大地增加了流量生成模型的部署难度。


所以,清华大学团队提出OpenDiff模型,该模型基于完全公开的数据,采用扩散模型对城市环境中的移动流量进行生成。该模型以classifier-free guidance diffusion model作为基础网络结构,在其中设计了交叉注意力机制捕捉移动流量复杂的时空特性,来解决上述第一个研究挑战;并且采用了卫星图像、人口分布、POI分布三类完全公开数据源作为移动流量生成的辅助信息,避免使用基站位置、用户轨迹等敏感数据,来解决上述第二个研究挑战。



论文地址:https://dl.acm.org/doi/pdf/10.1145/3637528.3671544


代码链接:

https://github.com/tsinghua-fib-lab/opendiff 



模型构建



PART

01 问题定义

移动流量生成问题定义


移动流量生成问题可以定义为:


给定任意一个城市区域,我们目标是设计一个生成模型,使得该模型能够根据环境空间特征输出移动流量数据序列,即,其中时刻区域中的流量大小,为需要生成的序列长度。

PART

02 解决思路

1.收集公开数据源中与移动流量具有较强关联的数据。移动网络流量是人类在城市/乡村等环境下网络行为的具象化表现,其变化特征会受到地理环境、人口数量、区域功能等多种因素的影响 [3, 4]。为此,OpenDiff设计过程中主要选取了三种公开数据:卫星遥感图像数据、常驻人口分布数据、区域POI分布数据。

卫星图像

人口分布

POI分布

上述三类数据均与移动网络流量具有关联,并且能够通过公开api进行调取使用。


2.时空耦合特征融合:在收集到与移动流量数据相关的公开数据源后,Opendiff采用表征学习方法在低维空间中挖掘与提取与环境相关的隐特征,并进一步通过diffusion model捕捉移动流量中时序特征与环境特征的关联性,实现时空特征的融合过程。

时空耦合特征融合示意图

PART

03 方案设计


OpenDiff总体方案流程图

整体方案主要可以分为两大部分:


1.多正样本对比学习(Multi-positive contrastive learning algorithm ):该模块将公开数据源中与移动流量关系最为密切的特征提取出来,作为后续生成模型的条件信息。


2.基于分类梯度指导的扩散模型(Classifier-Free Guidance diffusion model):该模块根据对比学习中的条件特征,利用分类梯度更新策略与交叉注意力机制,捕捉移动流量与环境特征间的潜在关联,从而可控地生成流量数据。

PART

04 多正样本对比学习

OpenDiff首先定义了三种特征,来表征影响移动流量变化的因素:


1.POI分布:在城市环境中,不同的POI分布对应不同区域功能,POI分布可以表示为:,其中是区域中第类POI的数量。


2.人口密度:人口密度表示了区域中使用网络人数的统计特征,OpenDiff将城市区域分解为个像素级(100m*100m粒度)栅格,则城市区域中人口密度可以表示为,其中是区域中栅格的数量,是区域中第个栅格中人口数量。


3.地理距离:一般来说,地理距离接近的网格流量特征也呈现相似特征,所以,OpenDiff将地理特征表示为区域的经纬度坐标。


根据上述三种环境特征的定义,OpenDiff进一步计算了不同区域()间的三种相似度:
POI相似度:表示为两个区域POI分布的余弦相似度
人口相似度:表示为区域中人口密度的余弦相似度
地理相似度:该工作中直接采用欧氏距离作为地理相似度.



在计算不同卫星图片的相似度之后,该工作选取与锚点图片相似度最高的三张图片作为正样本,并将锚点、正样本输入到神经网络中进行特征提取与对齐,本文使用了InFoNCE作为特征提取损失函数,可以表示为:


基于公开数据的多正样本对比学习算法

PART

05 基于分类梯度指导的扩散模型

在获取到对齐的环境特征后,OpenDiff进一步设计了梯度指导的扩散模型(classifier-free guidance diffusion model),用于捕捉移动流量与环境特征间的关联性,整体模块的示意图如下所示:

梯度指导的扩散生成模型


首先,根据环境特征的输入,该工作利用Classifier-free conditioning机制,按照一定概率将环境特征引入扩散网络中,可以表示为 

这种依概率方式引入的条件机制能够让模型在条件控制和非条件生成场景中进行权衡,同时确保模型的可控性和多样性。而后,在模型更新阶段,该工作采用了超参数来进行模型权重更新,可以表示为:

classifier-free conditioning机制帮助模型引入了环境特征,进一步地,该工作设计了交叉注意力机制来确保模型将流量时序特征与环境空间特征进行关联,可以表示为:

其中表示注意力机制中query、key、value参数矩阵,为最终计算获得的注意力得分。

PART

06 实验结果

该工作收集了三座城市北京、上海、南京对模型的测试, 其中,北京拥有4000多个基站,数据覆盖7天,并以每小时为粒度进行记录;上海拥有5000多个基站,数据覆盖30天,记录的时间粒度为每半小时;南京则拥有4500多个基站,数据覆盖60天,记录粒度同样为每小时。  

北京数据集典型特征

上海数据集典型特征

南京数据集典型特征


实验结果一:OpenDiff的生成表现

OpenDiff在不同规模城市下的生成效果(从上至下依次为北京、上海、南京)


可以看出,该工作提出的算法相比其他baseline具有更好的生成精度,可以达到12.25%-20.43%的提升。


实验结果二:OpenDiff的生成可控性

从左到右分别表示OpenDiff---CSDI---spectraGAN算法,从上到下分别表示上海数据集中不同的流量特征


实验结果三:对于多样本对比学习算法评估

No-Geo表示在对比学习过程不考虑地理距离因素;No-Human表示在对比学习过程不考虑人口密度因素,No-POI表示在对比学习过程不考虑POI分布因素


由上述实验可知,人口和POI分布对于移动流量生成的精准度具有更强的影响。


总结




OpenDiff能够有效利用开放数据来生成移动流量,并通过基于分类梯度指导的扩散模型引导实现了良好的可控性。此外,人类活动与城市背景信息的结合进一步提升了移动流量生成的性能。借助所提出的OpenDiff,研究人员可以在多类型区域生成移动流量数据,极大地扩展了移动流量研究的应用场景与可能性。


参考文献

[1]  Chuanhao Sun, Kai Xu, Marco Fiore, Mahesh K. Marina, Yue Wang, and Cezary Ziemlicki. 2022. AppShot: A Conditional Deep Generative Model for Synthesizing Service-Level Mobile Traffic Snapshots at City Scale. IEEE Transactions on Network and Service Management 19, 4 (2022).  


[2]  Shiyuan Zhang, Tong Li, Shuodi Hui, Guangyu Li, Yanping Liang, Li Yu, Depeng Jin, and Yong Li. 2023. Deep Transfer Learning for City-Scale Cellular Traffic Generation through Urban Knowledge Graph.   Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, KDD '23.


[3]  Zi Wang, Jia Hu, Geyong Min, Zhiwei Zhao, and Jin Wang. 2021. DataAugmentation-Based Cellular Traffic Prediction in Edge-Computing-Enabled Smart City. IEEE Transactions on Industrial Informatics 17, 6 (2021), 4179–4187.  


[4]  Kai Xu, Rajkarn Singh, Marco Fiore, Mahesh K. Marina, Hakan Bilen, Muhammad Usama, Howard Benn, and Cezary Ziemlicki. 2021. SpectraGAN: Spectrum Based Generation of City Scale Spatiotemporal Mobile Network Traffic Data, Proceedings of the 17th International Conference on emerging Networking EXperiments and Technologies, CoNEXT '21.



数据科学与智能实验室
本公众号为清华大学电子系数据科学与智能实验室的公众账号,主要推送实验室重要通知、日常活动、文章导读、前沿分享等资讯,敬请关注。
 最新文章