基于反事实因果的图对比学习负样本生成

文摘科技 2023-04-13 09:30 中国香港

记得给 “应用机器学习” 添加星标，收取最新干货

作者：悉尼科技大学，香港城市大学杨浩然

今天跟大家分享一篇来自于悉尼科技大学、香港城市大学关于为图对比学习生成高质量对比样本的文章，该文章运用了反事实因果的概念来生成负样本。该文章首先总结了目前图对比学习工作中现有对比样例生成方法及其局限性，随后介绍了生成高质量对比样例的要求并分析了其与反事实因果概念之间的联系，最后作者们基于此分析提出了一种新颖的对比样例生成方法用于生成高质量对比样例并提高图对比学习模型的表现效果。

论文: https://arxiv.org/abs/2207.00148

在本文所介绍的文章中，其技术方面主要涵盖三部分内容：

反事实因果概念简介 ：一个关于反事实因果的通俗解释就是在决策中用尽可能少的改变来使得最终决策结果发生变化从而判定该决策过程中的关键因素。而生成高质量负样本的要求则是生成样本在形式上要尽可能相似，使得分类器难以对其进行区别，但在语义层面生成的样本要与原始样本有显著不同。不难发现，反事实因果概念与高质量负样本生成要求高度相似。
问题建模 ：由于该文章首先尝试采用反事实因果概念来自适应生成对比样例，因此很有必要先提出一个抽象的训练目标来作为整篇文章的核心，后续的具体技术方案将围绕该核心展开。
两种自适应图扰动方法 ：图数据是复杂且抽象的，蕴含了多层次的信息（如结构信息和特征信息等），该文章以反事实因果为核心提出了两种自适应图扰动方法，分别针对图数据的结构信息和特征信息生成负样本用于进行后续的对比学习。

本文将在后续内容中详细介绍该论文的技术细节，列出相关实验结果分析，并总结。

1 反事实因果概念简介

反事实推理是一种基本的推理方式，有助于人们了解他们的行为和世界规则。一个反事实推理的简单定义指出反事实是对“如果XXX会发生什么”问题所给出的概率性回答。为帮助读者更好理解反事实因果的概念，本文借用论文中的示例来做一个解释。

如上图所示，该图以向金融机构申请贷款为例：有人想申请贷款，但在金融机构进行风险评估后，申请被拒绝。许多因素与最终决定有关，例如申请人的年龄、收入和信用卡数量。申请人为获得贷款所需做出的最低改变是每月额外赚取1000美元或取消两张信用卡。

反事实是一种思维机制，用于发现与现有事实相矛盾的事实，并可能改变决策过程的结果。反事实有一些限制。首先，许多因素可能会影响最终结果。然而，反事实必须应用尽可能小的变化来实现这样的目标。其次，反事实必须是可行和合理的。在上图中，如果申请者每月多赚 100 万美元，金融机构会毫不犹豫地发放贷款。但是，申请者的薪水变化远高于前文中所提到的“每月多赚1000美元”且不太可能在短期内实现，因此，每月多赚一百万美元并不是反事实。

2 问题建模

在该论文中，作者运用了反事实因果概念来生成高质量的负样本用于对比学习，并给出了形式化的描述。假设为输入的原始图数据，和是基于输入图生成的负样本，则目标函数可表示如下：

其中代表着相似度衡量模块，用于计算两个图之间的相似性（如结构相似性和特征相似性），是用于预测图数据语义的预测器（如标签预测），而则是KL-散度公式，用于衡量预测器输出的概率分布差异。不难看出，第一个目标是期望生成的负样本在形式上跟原始输入数据尽可能相似，而第二个目标则是让负样本和原始输入数据在语义层面上尽可能不同。后文将细化这两个抽象的目标。下图为该论文所提出的方法的概览图。

3 两种自适应图扰动方法

该论文为尽可能获取图数据的多层次信息，分别从图结构和图特征两方面来进行对比学习，因此也针对两各不同层次设计了不同的负样本生成方法。

3.1 结构扰动

结构扰动旨在改变图形结构以生成对比样本，可以帮助模型学习原始图中的关键结构信息。给定一个扰动矩阵对原始输入图的邻接矩阵进行扰动：

但我们要注意到得到的值域并不是，因此为了让符合邻接矩阵定义，我们还需要额外处理：

其中函数是为了使中的值均在范围内，而是一个决定是否保留边的阈值。

3.2 特征掩盖

特征掩盖是常用的一种图扰动方法，在该论文中作者基于反事实因果给出了一种自适应的特征掩盖方法。首先给定一个掩盖矩阵，并限制它所有值均在范围内：

其中与类似，都是阈值，通常设定为0.5。然后可以得到经过部分掩盖的特征矩阵：

需要注意的是此处矩阵乘法为点乘而不是上一节中的叉乘。

3.3 扰动程度衡量

为了确保得到的负样本与原始输入在形式上尽可能相似，我们需要衡量扰动的程度并确保其尽可能的小。针对结构扰动，我们需要让两个邻接矩阵的差距尽可能小，而针对特征扰动，我们则需要让掩盖矩阵中“1”尽可能多：

其中F指矩阵的F-范数。

4 实验结果

根据对比实验结果，该论文提出的方法在大多数情况下有最好的表现：

5 总结

在该论文中，作者提出了一种名为 CGC 的新方法来生成图对比学习的高质量负样本。与当前的图对比学习方法和一些经典的图核和图嵌入方法相比，它在对比实验中大多数情况下都有着最好的表现。此外，作者还研究并验证了使用不同类型的图学习模型来生成负样本的有效性。作者指出发现对图数据的更复杂部分（例如，节点特征或邻接矩阵）进行扰动将为图对比学习带来更多优势。另外，作者还从矩阵范数的角度探讨了如何为高质量负样本生成选择相似性度量。现在有来越多的人关注此项工作已提出新的方法来取代传统的随机扰动方法来取得更好的效果。

点击左下角 “阅读原文”，获取原始论文。

http://mp.weixin.qq.com/s?__biz=MzI1MjE5MzgwOA==&mid=2247483850&idx=1&sn=f60ee5843886ef0f6a31cf18f974baa0

应用机器学习

介绍机器学习最近技术进展和资讯

最新文章

香港城市大学 AI 机器学习数据挖掘大语言模型全奖PhD/联培PhD

CIKM 2024 | 高效鲁棒的正则化联邦推荐

ICDM 2024 | GPRec: 两级用户增强建模

NeurIPS 2024 | LLM-ESR: 大语言模型增强的长尾序列推荐系统

CIKM 2024 | 基于大语言模型的多场景推荐增强范式

CIKM2024 | 编辑医疗大模型的事实性知识和解释能力

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

KDD 2024 | 基于生成流网络的用户留存建模

KDD 2024 | ControlTraj: 利用路网拓扑指导轨迹生成

TKDE 2024 | 多层次图知识对比学习

CIKM 2024 | HierRec:多场景推荐——场景感知分层建模

CSUR 2024 | 多模态推荐系统综述

祝贺！赵翔宇老师获批第一期CCF-阿里妈妈科技袋基金大模型方向支持！

AML666！AML实验室在KDD CUP 2024 大语言模型多任务挑战赛中获得总榜亚军，全部5个赛道进入前三名的优异成绩

KDD 2024 | ERASE: 深度推荐系统中的特征筛选方法基准

NAACL 2024 | MILL: 一种利用大语言模型进行相互验证的零样本查询扩展方法

KAIS 2023 | AutoAssign+: 流媒体推荐中的自动共享嵌入分配设计

SIGIR 2024 | 当MOE遇上LLMs:针对医疗多任务的参数高效微调方法

CIKM 2023 | 用于医疗文本分类的多任务学习框架KEMTL

ICDE 2024 | 序列推荐的自增强序列去噪框架SSDRec

WSDM 2024 | 多场景推荐冷启动问题的扩散模型增强范式

重磅！OpenAI 官宣上线 GPT Store！超300万个 GPTs 大爆发

综述：LLM驱动的生成式信息抽取

ChatGPT官方登陆应用市场！OpenA再放大招，可精准识别中文

IJCAI22 | 基于纯MLP方法的序列推荐模型

Bard全面升级，新大模型能超GPT-4，谷歌反击ChatGPT

WWW 2023 | 基于MLP序列的自适应结构搜索推荐模型AutoMLP

WWW 2023|基于强化学习的多任务推荐系统

AAAI 2023 | 自动时空多任务学习AutoSTL

WWW 2023 | IMF: 用于链接预测的交互式多模式融合模型

基于反事实因果的图对比学习负样本生成

Decision Transformer 在优化用户留存中的应用

多行为推荐的去噪与提示调节

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉