论文分享| AAAI 2024 北航开源社交机器人行为对抗仿真计算平台SIASM，高效提升网络行为对抗能力

文摘 2023-12-25 10:43 澳大利亚

来源||转载自将门创投

目前，各类社交媒体上充斥着各类生成式人工智能加工生产的内容，其中一些信息会严重影响公众舆论的发展，尤其是一些经过刻意设计的”网络水军“伪装机器人。如何从海量信息中精确的将其检出，已经成为该领域的关键性问题。本文提出了一个基于结构信息原理的对抗性社会行为建模框架SIASM，其能够为社交机器人检测器的开发实现更准确有效的对抗性行为建模。在同质和异构社交网络上进行的广泛对比实验表明，SIASM框架在网络影响力和可持续隐蔽性方面产生了显著的性能改进。

论文名称：
Adversarial Socialbots Modeling Based on Structural Information Principles
论文链接：
https://arxiv.org/abs/2312.08098
代码链接：
https://github.com/SELGroup/SIASM

一、引言

社交机器人在操纵社交媒体上的公众舆论方面已经成为不可或缺的一部分。它们能够模仿普通用户的互动伪装自己，并且在社交媒体平台上传播虚假信息，引导操控公众舆论，破坏网络舆论生态。因此，如何将社交机器人与普通用户账户区分开来是社区的重点研究内容。

现有的社交机器人检测手段很多，例如有监督或无监督的机器学习方法。研究人员基于这种方法已经开发出了可扩展性和泛用性良好的框架，利用最少的账户元数据实现检测[1]。然而，这种方法在本质上是一种被动检测，在算法完成学习并得出合适的检测标准之前，社交机器人依然能够通过伪装避开检测。

一些研究尝试利用主动检测来弥补被动检测上的不足，一些研究采用多智能体分层强化学习(multi-agent HRL)机制[2]模拟社交机器人的对抗性行为，通过决定活动类型提高在检测器下的持续隐蔽能力，通过选择关注者最大化网络影响力。然而，实现分层强化学习机制时存在两大挑战：上层代理忽略社交网络结构和下层代理的计算效率低下。

面对社交机器人检测的困境，我们进行了思考：如何改进强化学习框架，应对分层强化学习方法的两大挑战？

二、研究动机

为了应对两大挑战，我们提出了以下两个问题：

问题 1：如何量化网络影响力这个概念？

问题1的需求是衡量网络影响力，而网络影响力与结构信息原理中的结构熵概念有很多共通之处。社交用户之间的社交行为可以建模为在该社交网络下用户节点之间的随机游走过程，而结构熵则是实现了对于复杂网络结构中随机游走动态不确定性的度量。基于这个启示，我们提出了一种利用结构熵来量化社交网络影响力的新方法。

问题 2：能否减少下层代理维护的特征数量？

为了减少计算耗时，我们可以采取两个方向：提高计算能力和降低计算量。在关注者选择阶段，我们希望预先筛选出一部分用户，从而减少下层代理需要维护的用户本体特征数量，以提高计算效率。关注者选择行为的对抗性目的是提高网络影响力，因此，我们需要尝试找到那些对网络影响力较小的用户节点并将它们忽略，因为它们很可能不是关注者选择的最佳解决方案。

基于对于上述两个问题的分析，我们提出了一种结构信息理论指导的对抗性社交机器人建模框架SIASM，其应用示意图如下图1所示。

图 1 SIASM框架应用示意图

具体来说，SIASM框架具有用户图构建、社交活动决策和关注者选择三个阶段。首先我们将异构社交网络转换为多关系用户图，并编码其网络结构；其次选择具体的社会活动，简化多关系图为同质图，最小化结构熵，生成最优编码树；最后量化用户的网络影响力，过滤无关用户和影响较小的树节点，使用条件结构熵指导关注者选择。

三、方法

3.1 用户图构建

如图2所示，我们提取用户元素和各种社交活动，包括发文、转发、提及和回复，以构建一个异构社交网络，再将其转化为多关系用户图，其中顶点集合表示社交平台用户的集合，由社交机器人、关注用户、普通用户构成。接下来，采用R-GCN网络[3]对多关系用户图的结构信息进行编码，得到用户节点嵌入表征。对于每个用户顶点，将其特征和多关系结构信息结合在一起，得到维嵌入。

图 2 用户图构建阶段流程图

3.2 社会活动决策

在这个阶段，为了简化多关系图，我们引入了一个强化学习代理，它能够通过动态决定在每个时间节点选择的社会活动，将多关系图简化为同构用户图。在这个同构图中，每条有向边的权重为：

其中是维顶点表示的秩。

为了评估某一特定活动对社交网络的影响，我们将消息建模为 中发生在用户节点之间的随机游走，并引入结构熵来量化结构中固有的动态不确定性。

通过最小化结构熵为构造一个最优编码树作为用户社区的分层划分结构，如图3所示，其中树的每个节点代表着一个用户社区，其高度表示社区在分层结构中的位置。

图 3 社会活动决策阶段流程图

3.3 影响力关注者选择

对于每个用户社区，SIASM会通过遍历从根节点开始到该节点的路径上的每一个树节点发生的可能性并整合它们的分配结构熵，以量化该用户社区的网络影响力

并以此为依据，我们可以对网络影响力低的树节点（用户社区）进行剪枝，缩小用户选择范围，提高算法效率。

随后，通过计算社交机器人和每个叶子节点之间的条件结构熵如下：

将其定义为在最大化网络影响力前提下每个用户节点的初始被选择概率，并采用演员-评论家强化学习算法[4]进一步优化这个概率；并引入状态抽象机制从节点的表征向量中提取基本特征并实现选择决策，最终，我们向用户图中添加新的关注者，实现社交机器人动态对抗性行为的精准模拟。

图 4 关注者选择阶段流程图

四、实验结果与分析

4.1 对比实验

为了验证SIASM框架的优越性，我们选用从推特上采集的100篇热门文章以及Higgs-Twitter数据集，分别对同质和异质社交网络进行了实证和比较实验，并测试了几种主要的方法，包括ACORN、启发式方法和DEGREE。试验结果表明，应用SIASM框架在对抗性社交机器人网络影响能力和可持续隐蔽能力上卓有成效，使得分层强化学习算法在回合奖励和回合长度上都有显著提升。

图 5 SIASM在同构和异构社交网络中的回合奖励和回合长度学习曲线

关于强化学习算法性能以及关于对抗性社交机器人表现的实验结果分别由表 1、表 2中展示。可以看出，SIASM在各种实验设置下显著地优化了分层强化学习算法的回合奖励和回合长度，体现了其对于社交机器人行为建模在网络影响能力和持续隐蔽能力两个方面的优势，提升算法性能。

4.2 消融实验

除此之外，我们也对SIASM进行了消融实验研究，检验用户过滤阶段和关注者选择阶段阶段对结果的影响，图 6中的结果表明，无论去除哪一个阶段，都会导致算法性能的下降。这表明了SIASM基于结构信息原理的过滤阶段和选择阶段对提高对抗建模的性能发挥着关键作用。

图 6 SIASM消融实验回合奖励与回合长度学习曲线

五、结论与展望

我们提出引入结构信息原理中的结构熵以及编码树概念，设计了一个全新的对抗性社交机器人行为建模框架SIASM。大量实验也验证了SIASM框架相较于其他建模方法带来的显著性能提升。我们期望能通过更加准确的对抗性社交机器人行为建模，为未来社交机器人主动性检测器的开发提供一个新的思路，推动现实场景下社交机器人检测手段的进一步发展。

篇幅原因，我们在本文中忽略了诸多细节，更多细节可以在论文（https://arxiv.org/abs/2312.08098）中找到。感谢阅读！

参考

[1] Yang et al. Scalable and generalizable social bot detection through data selection. In AAAI, 2020.

[2] Le, T et al. Socialbots on Fire: Modeling Adversarial Behaviors of Socialbots via MultiAgent Hierarchical Reinforcement Learning. In WWW, 2022.

[3] Schlichtkrull, M.et al. Modeling relational data with graph convolutional networks. In ESWC 2018.

[4] Schulman, J.et al. Proximal policy optimization algorithms. arXiv, 2017.

深度强化学习实验室

【开源开放、共享共进】强化学习社区\x26amp;实验室，分享推动DeepRL技术落地与社区发展，社区 deeprlhub.com

清华团队提出RL专用神经网络优化器，性能位居榜首

【第二弹】强化微调，用少量样本训练专家模型

【清华大学】当鲁棒控制遇到强化学习：零和博弈视角的非线性拓展

【重磅】阿尔伯塔大学提出“Stream-X”强化学习新范式，无需经验重放、目标网络或批量更新。

强化学习之父Sutton万字采访：炮轰深度学习只是瞬时学习，持续学习才是智能突破的关键

开放式物理RL环境空间，智能体零样本解决未见过人类设计环境！

控制系统可控性检验理论的变革：从模型驱动到数据驱动

【图灵奖得主Yoshua Bengio】提出强化学习新策略，解决策略KL正则化漏洞问题。

【NeurlPS2024分享】北航提出“结构信息原理指导的高效智能体探索”(末尾附开源代码)

【Nature重磅】AlphaChip，谷歌用强化学习设计多代TPU芯片速度超越人类，开源预训练代码

【清华北大腾讯等】联合综述OpenAI o1背后的自博弈(Self-Play)方法原理与技术细节

【重磅发布】OpenAI o1模型(草莓)问世，五级AGI再突破！使用「强化学习」再立大功。

【Nature重磅】RL教父Rich. S. Sutton提出持续反向传播算法，Mujoco中效果良好，深度学习还不如浅层网络？

【清华大学】李升波教授团队总结“强化学习和模型预测控制的区别与联系”

【顶会速递】RLC2024—128篇Accept论文汇总

【首届RL领域会议】Barto、Sutton、Sliver师徒3代，7篇杰出论文奖，独有论文评审机制公布。

【重磅头条】Agent Q智能体发布，利用自我对弈和强化学习, 实现自我纠正和自主改进！

【人物观点】RLHF 只是勉强 RL，前OpenAI大牛Andrej Karpathy全面解读与AlphaGo区别

【滴滴实习生招聘】强化学习项目落地(有转正机会)

【重磅快讯】强化学习大牛John Schulman离职OpenAI, 曾开发PPO|TRPO等, 领导OpenAI强化学习团队！

【重磅最新】OpenAI为RL设计出新的奖励机制

【字节招聘】强化学习智能体研究员

【顶会速递】清华大学提出“利用强化学习破解火箭回收过程的控制难题”

【粉丝福利】抽奖赠书《GPT图解：大模型是怎样构建的》

【腾讯招聘】游戏AI强化学习算法研究员

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

【重磅开源】LeCun新作Puppeteer=基于强化学习+数据驱动+视觉全身人形控制方法

【好书力荐】大规模语言模型与强化学习：从理论到实践(文末抽奖赠送5本)

【最新综述！】「大模型+强化学习」详解四条主流技术路线

【今日头条招聘】机器人强化学习研究员(2024届优先)

重磅 | 南栖仙策发布强化学习工业决策软件REVIVE 1.0

【开放源码】强化学习经典教材《RL for Sequential Decision and Optimal Control》

【腾讯招聘】强化学习岗位汇总

【吴恩达来信】AI智能体的黎明时刻

【LSTM之父Schmidhuber总结博客】利用循环世界模型和人工好奇心进行强化学习和规划

Richard Sutton ||智能决策器通用模型的探索

【Nature重磅】DeepMind数学模型AlphaGeometry，做对25道几何题，GPT-4惨败得0分

2023计算机科学7项重大突破！「P与NP」50年经典难题，大模型密集涌现上榜

论文分享| AAAI 2024 北航开源社交机器人行为对抗仿真计算平台SIASM，高效提升网络行为对抗能力

【真伪鉴别】OpenAI内幕文件惊人曝出，Q*疑能破解加密！是否具有元认知能力？

新书《面向工业控制的强化学习理论与方法》

【书籍推荐】清华大学李升波教授撰写《面向工业控制的强化学习理论与方法》

OpenAI神秘Q*项目解密！诞生30+年「Q学习」算法引全球网友终极猜想

【官方公布】2023中国科学院院士、中国工程院增选当选院士名单公布

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉