来源||转载自将门创投
目前,各类社交媒体上充斥着各类生成式人工智能加工生产的内容,其中一些信息会严重影响公众舆论的发展, 尤其是一 些经过刻意设计的”网络水军“伪装机器人 。如何从海量信息中精确的将其检出,已经成为该领域的关键性问题。本文提出了一个 基于结构信息原理的对抗性社会行为建模框架SIASM,其能够为社交机器人检测器的开发实现更准确有效的对抗性行为建模 。在同质和异构社交网络上进行的广泛对比实验表明,SIASM框架在网络影响力和可持续隐蔽性方面产生了显著的性能改进。
论文名称:
Adversarial Socialbots Modeling Based on Structural Information Principles 论文链接:
https://arxiv.org/abs/2312.08098 代码链接:
https://github.com/SELGroup/SIASM
一、引言 社交机器人在操纵社交媒体上的公众舆论方面已经成为不可或缺的一部分 。它们能够模仿普通用户的互动伪装自己,并且在社交媒体平台上传播虚假信息,引导操控公众舆论,破坏网络舆论生态。 因此,如何将社交机器人与普通用户账户区分开来是社区的重点研究内容 。
现有的社交机器人检测手段很多,例如有监督或无监督的机器学习方法。研究人员基于这种方法已经开发出了可扩展性和泛用性良好的框架,利用最少的账户元数据实现检测[1]。 然而,这种方法在本质上是一种被动检测,在算法完成学习并得出合适的检测标准之前,社交机器人依然能够通过伪装避开检测 。
一些研究尝试利用主动检测来弥补被动检测上的不足,一些研究采用多智能体分层强化学习(multi-agent HRL)机制[2] 模拟社交机器人的对抗性行为 ,通过决定活动类型提高在检测器下的持续隐蔽能力,通过选择关注者最大化网络影响力。然而,实现分层强化学习机制时存在两大挑战: 上层代理忽略社交网络结构和下层代理的计算效率低下 。
面对社交机器人检测的困境,我们进行了思考: 如何改进强化学习框架,应对分层强化学习方法的两大挑战?
二、研究动机
为了应对两大挑战,我们提出了以下两个问题:
问题 1:如何量化网络影响力这个概念?
问题1的需求是衡量网络影响力,而网络影响力与结构信息原理中的结构熵概念有很多共通之处。社交用户之间的社交行为可以建模为在该社交网络下用户节点之间的随机游走过程,而结构熵则是实现了对于复杂网络结构中随机游走动态不确定性的度量。基于这个启示,我们提出了一种 利用结构熵来量化社交网络影响力 的新方法。
问题 2:能否减少下层代理维护的特征数量?
为了减少计算耗时,我们可以采取两个方向:提高计算能力和降低计算量。在关注者选择阶段,我们希望预先筛选出一部分用户,从而减少下层代理需要维护的用户本体特征数量,以提高计算效率。 关注者选择行为的对抗性目的是提高网络影响力 ,因此,我们需要尝试找到那些对网络影响力较小的用户节点并将它们忽略,因为它们很可能不是关注者选择的最佳解决方案。
基于对于上述两个问题的分析,我们提出了一种结构信息理论指导的对抗性社交机器人建模框架SIASM,其应用示意图如下图1所示。
具体来说, SIASM框架具有用户图构建、社交活动决策和关注者选择三个阶段 。首先我们将异构社交网络转换为多关系用户图,并编码其网络结构;其次选择具体的社会活动,简化多关系图为同质图,最小化结构熵,生成最优编码树;最后量化用户的网络影响力,过滤无关用户和影响较小的树节点,使用条件结构熵指导关注者选择。
三、方法
3.1 用户图构建
如图2所示,我们提取用户元素和各种社交活动,包括发文、转发、提及和回复,以构建一个异构社交网络,再将其转化为多关系用户图 ,其中顶点集合 表示社交平台用户的集合,由社交机器人、关注用户、普通用户构成。接下来,采用R-GCN网络[3]对多关系用户图的结构信息进行编码,得到用户节点嵌入表征。对于每个用户顶点 ,将其特征和多关系结构信息结合在一起,得到 维嵌入 。 3.2 社会活动决策 在这个阶段, 为了简化多关系图,我们引入了一个强化学习代理,它能够通过动态决定在每个时间节点选择的社会活动 ,将多关系图简化为同构用户图 。在这个同构图中,每条有向边 的权 重为: 为了评估某一特定活动对社交网络的影响, 我们将消息建模为 中发生在用户节点之间的随机游走,并引入结构熵来量化结构中固有的动态不确定性 。 通过最小化结构熵为 构造一个最优编码树作为用户社区的分层划分结构,如图3所示, 其中树的每个节点代表着一个用户社区,其高度表示社区在分层结构中的位置 。 对于每个用户社区 ,SIASM会通过遍历从根节点 开始到该节点 的路径上的每一个树节点 发生的可能性并整合它们的分配结构熵,以量化该用户社区的网络影响力 并以此为依据,我们可以对网络影响力低的树节点(用户社区)进行剪枝,缩小用户选择范围,提高算法效率 。随后,通过计算社交机器人和每个叶子节点之间的条件结构熵如下:
将其定义为在最大化网络影响力前提下每个用户节点的初始被选择概率,并采用演员-评论家强化学习算法[4]进一步优化这个概率;并引入状态抽象机制从节点的表征向量中提取基本特征并实现选择决策,最终,我们向用户图中添加新的关注者,实现社交机器人动态对抗性行为的精准模拟。
4.1 对比实验 为了验证SIASM框架的优越性, 我们选用从推特上采集的100篇热门文章以及Higgs-Twitter数据集,分别对同质和异质社交网络进行了实证和比较实验 ,并测试了几种主要的方法,包括ACORN、启发式方法和DEGREE。试验结果表明,应用SIASM框架在对抗性社交机器人网络影响能力和可持续隐蔽能力上卓有成效,使得分层强化学习算法在回合奖励和回合长度上都有显著提升。
图 5 SIASM在同构和异构社交网络中的回合奖励和回合长度学习曲线
关于强化学习算法性能以及关于对抗性社交机器人表现的实验结果分别由表 1、表 2中展示。 可以看出,SIASM在各种实验设置下显著地优化了分层强化学习算法的回合奖励和回合长度,体现了其对于社交机器人行为建模在网络影响能力和持续隐蔽能力两个方面的优势 ,提升算法性能。 4.2 消融实验
除此之外, 我们也对SIASM进行了消融实验研究,检验用户过滤阶段和关注者选择阶段阶段对结果的影响 ,图 6中的结果表明,无论去除哪一个阶段,都会导致算法性能的下降。 这表明了SIASM基于结构信息原理的过滤阶段和选择阶段对提高对抗建模的性能发挥着关键作用 。图 6 SIASM消融实验回合奖励与回合长度学习曲线 我们 提 出 引入结构信息原理中的结构熵以及编码树概念,设计了一个全新的对抗性社交机器人行为建模框架SIASM 。大量实验也验证了SIASM框架相较于其他建模方法带来的显著性能提升。我们期望能 通过更加准确的对抗性社交机器人行为建模,为未来社交机器人主动性检测器的开发提供一个新的思路 ,推动现实场景下社交机器人检测手段的进一步发展。 篇幅原因,我们在本文中忽略了诸多细节,更多细节可以在论文( https://arxiv.org/abs/2312.08098 )中找到。感谢阅读!
参考 [1] Yang et al. Scalable and generalizable social bot detection through data selection. In AAAI, 2020. [2] Le, T et al. Socialbots on Fire: Modeling Adversarial Behaviors of Socialbots via MultiAgent Hierarchical Reinforcement Learning. In WWW, 2022. [3] Schlichtkrull, M.et al. Modeling relational data with graph convolutional networks. In ESWC 2018. [4] Schulman, J.et al. Proximal policy optimization algorithms. arXiv, 2017.