论文回顾 | 港科广数据科学与分析学域24篇论文入选国际学术会议VLDB 2024 & KDD 2024

文摘 2024-09-15 19:53 广东

近日，国际学术会议VLDB 2024 和KDD 2024 相继圆满落幕。数据科学与分析学域共计有24篇论文入选VLDB 2024和KDD 2024。

VLDB 2024

近日，数据库领域顶级会议VLDB 2024于2024年8月26日到8月30日在中国广州圆满落幕。在VLDB 2024上，港科广数据科学与分析学域共有16篇高水平论文入选。VLDB 会议全称 International Conference on Very Large Data Bases，是数据库领域历史悠久的三大顶级会议 (SIGMOD、VLDB、ICDE) 之一，每届会议集中展示了当前数据库研究的前沿方向、工业界的最新技术和各国的研发水平，吸引了全球顶级研究机构投稿。

Title: 自然语言到SQL的曙光：我们是否完全准备好了？

Author:

Boyan Li, The Hong Kong University of Science and Technology (Guangzhou);

Yuyu Luo, The Hong Kong University of Science and Technology (Guangzhou) & The Hong Kong University of Science and Technology (*corresponding author);

Chengliang Chai, Beijing Institute of Technology;

Guoliang Li, Tsinghua University;

Nan Tang, The Hong Kong University of Science and Technology (Guangzhou) & The Hong Kong University of Science and Technology

将用户的自然语言问题转化为SQL查询（即NL2SQL）大大降低了访问关系数据库的门槛。大语言模型的出现为NL2SQL任务引入了一种全新的范式，显著增强了其能力。然而，这也提出了一个关键问题：我们是否已经充分准备好将NL2SQL模型投入生产？

为了应对这个问题，我们提出了一个多角度的NL2SQL评估框架——NL2SQL360，旨在帮助研究人员设计和测试新的NL2SQL方法。通过NL2SQL360，我们对领先的NL2SQL方法在不同数据库领域和SQL特性等应用场景下进行了详细比较，提供了选择最合适的NL2SQL方法的宝贵见解。此外，我们还探索了NL2SQL的设计空间，利用NL2SQL360自动识别适合用户特定需求的最优NL2SQL解决方案。具体而言，NL2SQL360在Spider数据集上使用执行准确率指标识别了一个有效的NL2SQL方法SuperSQL。令人瞩目的是，SuperSQL在Spider和BIRD测试集上分别实现了87%和62.66%的执行准确率，表现十分出色。

Title: 二分图中时序核心子图查询的高效索引设计

Author:

Anxin Tian, The Hong Kong University of Science and Technology;

Alexander Zhou, The Hong Kong University of Science and Technology;

Yue Wang, Shenzhen Institute of Computing

Sciences;

Xun Jian, The Hong Kong University of Science and Technology;

Lei Chen, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou)

许多现实世界中的二元关系可以被建模为二分图，这些图本质上是时序的，每条边都关联一个时间戳。(𝛼,𝛽)-core是一种流行的结构，要求两层顶点的最小度数，有助于理解二分网络的组织结构。然而，时间特性在二分图的稠密子图挖掘中很少被考虑。这一差距阻碍了在现实应用中发现时间敏感的(α,𝛽)-core。在本文中，我们的目标是在时间二分图的任意时间窗口内寻找(𝛼,𝛽)-cores。为解决这一问题，我们提出了一种新颖的DAG（有向无环图）类层次结构，该结构通过合格的时间窗口来描述(𝛼,𝛽)-core的时序包含特性。此外，我们构建了至臻优化的索引，该索引显著优化了空间复杂度并保证了高效的查询性能。我们还提出了一种维护方法，该方法通过移除过时信息和整合新插入的时间边来有效更新索引。在八个真实世界图上进行了广泛的实验，结果显示了我们的索引的有效性和效率。

Title: 基于张量的图查询引擎

Author:

Guanghua Li, The Hong Kong University of Science and Technology (Guangzhou);

Hao Zhang, Huawei Cloud Database Innovation Lab;

Xibo Sun, The Hong Kong University of Science and Technology (Guangzhou)

Qiong Luo, The Hong Kong University of Science and Technology (Guangzhou);

Yuanyuan Zhu, Wuhan University;

本文提出了一种新型的基于张量的内存中图查询处理方式。张量即多维数组，在TensorFlow和PyTorch这样的深度学习框架中用作数据单元。在这些深度学习框架中，张量算子封装了高度优化的底层硬件代码，用户通过使用这些张量算子实现程序的自动性能提升。受此实践的启发，我们探索如何利用张量算子高效地处理图查询问题。我们设计了一种简洁的张量存储格式。它能够有效地表示图的拓扑结构，并能通过一组张量算子来支持各种图查询操作。我们使用PyTorch框架实现了一个原型系统，TenGraph，并在图查询基准工作负载上，将其与多种基于CPU或GPU的系统进行查询性能比较。我们的实验结果表明，TenGraph不仅在GPU上实现了与使用CPU相比高达50-100倍的加速，而且显著快于其他基于CPU或GPU的图查询系统。

Title: Galaxybase：一款高性能原生分布式支持HTAP的图数据库

Author:

Bing Tong, The Hong Kong University of Science and Technology (Guangzhou) & Zhejiang CreateLink Technology;

Yan Zhou, Zhejiang CreateLink Technology;

Chen Zhang, Zhejiang CreateLink Technology;

Jianheng Tang, The Hong Kong University of Science and Technology (Guangzhou);

Jing Tang, The Hong Kong University of Science and Technology (Guangzhou);

Leihong Yang, Zhejiang CreateLink Technology;

Qiye Li, Zhejiang CreateLink Technology;

Manwu Lin, Zhejiang CreateLink Technology;

Zhongxin Bao, Zhejiang CreateLink Technology;

Jia Li, The Hong Kong University of Science and Technology (Guangzhou);

Lei Chen, The Hong Kong University of Science and Technology (Guangzhou)

Galaxybase是一款原生分布式图数据库，旨在满足金融、制造和政府等各行业日益增长的大规模图数据处理需求。Galaxybase专为同时处理事务性和分析性工作负载而设计，凭借其创新的数据存储和事务机制脱颖而出。Galaxybase的核心技术包括使用 Log-Structured Adjacency List 结合 Edge Page 结构，在图遍历和单边查询等多种任务中优化读写操作。Galaxybase的一个显著特点是其针对HTAP事务量身定制的分布式事务模式，可以实现双向和交互式事务处理。在保证数据完整性的同时，它还能以极低的延迟实现OLTP（联机事务处理）和OLAP（联机分析处理）工作负载的并行处理，避免阻塞。实验结果表明，在各种图查询场景和资源条件下，Galaxybase在OLTP和OLAP工作负载中均表现出高吞吐量和低延迟。Galaxybase已在中国的头部银行、教育、电信和能源领域成功部署，多年来始终在HTAP工作负载下保持优异的性能表现。

Title:扩展反向最近邻

Author:

Wentao Li, The Hong Kong University of Science and Technology (Guangzhou);

Maolin Cai, Chongqing University;

Min Gao, Chongqing University;

Dong Wen, University of New South Wales

Lu Qin, University of Technology;

Wei Wang, The Hong Kong University of Science and Technology (Guangzhou) & The Hong Kong University of Science and Technology;

Distance-Based Edge Inspection

The Comparison Among Various Methods

在图中，顶点ƒ的反向最近邻（RNN）指的是将ƒ视为其最近邻的顶点集合。当ƒ代表一个设施（如地铁站）时，其RNN由那些更倾向于选择最近设施的潜在用户组成。在实际生活中，一些设施的RNN规模较小，导致这些设施利用率不足，而重新安置这些设施以扩大其服务范围往往成本高昂或不可行。一个更具成本效益的方法是有选择地升级一些边（例如减少其权重），以扩大利用率不足设施的RNN规模。这激发了我们对扩展反向最近邻（ERNN）问题的研究，该问题旨在通过升级有限数量的边来最大化目标设施的RNN规模。解决ERNN问题可以让利用率不足的设施服务更多用户，进而减轻其他设施的负担。尽管ERNN有许多潜在的应用，但它很难解决：它可以被证明是NP难和APX难的，并且表现出非单调性和非子模性。为克服这些挑战，我们提出了新颖的贪心算法，并通过最小化需要处理的边的数量和每条边的处理成本来提高效率。实验结果表明，所提出的算法相比标准贪心算法实现了三个数量级的加速，同时大幅扩展了RNN。

Title: 用于时间依赖道路网络的共享出行的实时插入算子

Author:

Zengyang Gong, The Hong Kong University of Science and Technology;

Yuxiang Zeng, Beihang University*;

Lei Chen, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou);

在共享出行服务（如拼车和包裹配送）中，最重要的挑战之一是考虑实际道路状况为工作人员规划路线。为了解决这一挑战，“插入算子”作为现有解决方案中的基本操作，其作用是计算工作人员服务（即插入）新出现的配送请求的最优路线。然而，现有的研究隐含地假设了一个静态的道路网络，因此难以满足现实场景需求，在现实中，两点之间的旅行时间在一天中的不同时间是变化的。与之相对，我们关注于时间依赖的道路网络上的插入算子，这种网络捕捉了道路状况的周期性模式。

我们还展示了现有解决方案的时间复杂度会退化为三次方时间，因此在这种现实设置下，这些解决方案无法满足实时计算的要求。为满足实时计算需求，我们提出了一种数据摘要，用于建模路径中顶点对之间的时间依赖旅行时间函数。基于该数据摘要，我们设计了一种高效的解决方案，可以在线性时间内枚举最佳插入位置，同时满足复杂的时空约束。最后，我们在多个共享出行应用的真实数据集上进行了大量实验。结果显示，我们的解决方案比最先进的解决方案快达 44.5 倍。

Title: 效用感知的支付通道网络重平衡

Author:

Wangze Ni, The Hong Kong University of Science and Technology;

Pengze Chen, Hong Kong University of Science and Technology;

Lei Chen, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou);

Peng Cheng, East China Normal University*; Chen Zhang, The Hong Kong Polytechnic University;

Xuemin Lin, Shanghai Jiaotong University

支付通道网络（PCN）是提升区块链吞吐量的一个有前景的解决方案。然而，单向交易会耗尽用户在支付通道（PC）中的存款，降低交易成功率（SRoT）。为解决这种资金耗尽的问题，重平衡协议用于将代币从存款充足的支付通道转移到存款不足的支付通道。为了提高 SRoT，增加余额较低且权重较高（即更多交易依赖于该支付通道）的支付通道的余额是有益的。在本文中，我们定义了交易的效用以及效用感知重平衡（UAR）问题。交易的效用与支付通道的权重和交易金额成正比，与接收方的余额成反比。为最大化提升 SRoT 的效果，UAR 旨在找到一组效用最大化的交易，同时满足预算和守恒约束。预算约束限制了在支付通道中转移的代币数量。守恒约束要求每个用户发送的代币数量等于接收的代币数量。我们证明了 UAR 是一个 NP 难问题，且无法通过常数比率近似解决。因此，我们提出了两种启发式算法，即 Circuit Greedy 和 UAR_DC。大量实验表明，我们的方法在效用方面至少比现有方法优越 3.16 倍。

Title: 以毒攻毒：通过主动防御增强动态图上的图神经网络的鲁棒性

Author:

Haoyang Li, The Hong Kong University of Science and Technology*;

Shimin Di, The Hong Kong University of Science and Technology;

Calvin Li, Evernorth;

Lei Chen, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou);

Xiaofang Zhou, The Hong Kong University of Science and Technology

图神经网络（GNNs）在各种图任务中取得了巨大的成功。然而，最近的研究发现，GNNs 容易受到注入式攻击的威胁。由于平台的开放性，攻击者可以注入带有精心设计的边和节点特征的恶意节点，使得 GNNs 错误分类目标节点的标签。为抵御此类对抗性攻击，近期研究人员提出了 GNN 防御方法。他们假设攻击模式已知，例如，攻击者倾向于在不相似的节点之间添加边。然后，他们从受攻击的图中移除不相似节点之间的边，旨在减轻对抗性攻击的负面影响。

然而，在动态图中，攻击者可以在不同时间改变其攻击策略，使得现有被动设计的 GNN 防御方法针对特定攻击模式的效果有限，从而无法有效抵御攻击。为此，我们提出了一种新型的用于动态图的主动 GNN 防御方法，称为 ADGNN，该方法通过主动注入守护节点来保护目标节点免受有效攻击。具体而言，我们首先制定了一个主动防御目标来设计守护节点的行为。该目标旨在扰乱攻击者的预测并保护易受攻击的节点，从而阻止攻击者生成有效攻击。随后，我们提出了一种基于梯度的算法，并配备了两种加速技术来优化该目标。我们在四个真实世界的图数据集上进行了大量实验，结果表明我们提出的防御方法的有效性及其增强现有 GNN 防御方法的能力。

Title: ETC: 高效训练大规模动态图上的时序图神经网络

Author:

Shihong Gao, The Hong Kong University of Science and Technology*;

Yiming Li, The Hong Kong University of Science and Technology;

Yanyan Shen, Shanghai Jiao Tong University; Yingxia Shao, BUPT;

Lei Chen, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou);

动态图在各种实际应用中发挥着至关重要的作用，例如社交媒体和电子商务平台上的链接预测和节点分类。时态图神经网络 (T-GNN) 已成为处理动态图的主要方法，它使用时间消息传递来计算节点的时态表征。然而，由于不合理的批次处理方案以及高昂的数据访问开销，在大规模动态图上训练现有的 T-GNN 成本过高。在本文中，我们提出了 ETC，一个专为大规模高效 T-GNN 训练而设计的通用框架。ETC 采用了一种新颖的数据批次处理方案，该方案能在使用大批次进行训练以提高模型计算效率的同时，通过限制每个训练批次中的信息丢失程度来保证模型训练的有效性。为了减少数据访问开销，ETC依据T-GNN 训练中的数据访问模式采取三步数据访问策略，显著减少了冗余数据访问体量量。此外，ETC 采用批次间流水线机制，将数据访问与模型计算分离开来，进一步降低了数据访问成本。大量实验结果证明了 ETC 的有效性，与最先进的 T-GNN 训练框架相比，ETC 能够在具有数百万个时态交互链接的真实动态图上实现显著的训练加速。ETC 实现了从 1.6 倍到 62.4 倍不等的训练加速比，凸显了其在大规模动态图上进行高效训练的潜力。

Title: 大型语言模型能替代分类体系吗？

Author:

Yushi Sun, The Hong Kong University of Science and Technology*;

XIN Hao, The Hong Kong University of Science and Technology;

Kai Sun, Meta Reality Labs;

Yifan Xu, Meta;

Xiao Yang, Meta Platforms;

Xin Luna Dong, amazon.com, fb.com;

Nan Tang, The Hong Kong University of Science and Technology (Guangzhou);

Lei Chen, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou);

大型语言模型（LLMs）展现了内化知识和回答自然语言问题的惊人能力。尽管先前的研究证实，LLMs 在一般知识上表现良好，但在长尾细微知识上表现较差，学界对于传统知识图谱是否应被 LLMs 取代仍存疑。在本文中，我们探讨了知识图谱的架构（即分类体系）是否因 LLMs 而变得多余。直观上，LLMs 应该在常见的分类体系以及人们普遍熟悉的分类层级上表现良好。然而，目前缺乏一个全面的基准，能够评估 LLMs 在从通用到专业领域的广泛分类体系上，以及从根节点到叶节点各个层级的表现，以便得出可靠的结论。

为缩小这一研究差距，我们构建了一个新颖的分类层级结构发现基准，名为 TaxoGlimpse，用于评估 LLMs 在分类体系上的表现。TaxoGlimpse 覆盖了从通用到专业领域的十个具有代表性的分类体系，并在这些分类体系中对从根节点到叶节点的不同层级的实体进行了深入实验。我们在三种提示设置下对十八个最先进的 LLMs 进行了全面实验，验证了 LLMs 仍然无法很好地捕捉专业分类体系和叶节点实体的知识。

Title: 带符号二分图中最大平衡 $(k, \epsilon)$-Bitruss 的检测

Author:

Kai Hiu Chung, Hong Kong University of Science and Technology*;

Alexander Zhou, Hong Kong University of Science and Technology;

Yue Wang, Shenzhen Institute of Computing Sciences;

Lei Chen, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou);

带符号的二分图表示了两组实体之间的关系，包括正向和负向交互，从而能够更全面地建模现实世界中的网络。在这项工作中，我们专注于通过利用平衡蝶的概念来检测带符号二分图中的凝聚子图。平衡蝶是长度为 4 的循环，如果其中包含偶数条负边，则被认为是稳定的。我们提出了一种新模型，称为平衡 (k, ∈)-bitruss，该模型提供了简明的带符号二分图凝聚子图的表示，同时可以控制密度 (k) 和平衡性 (∈)。我们证明了寻找最大平衡 (k, ∈)-bitruss 是 NP 难问题，且无法有效近似求解到显著程度。此外，我们扩展了无符号蝶计数框架，以高效计算平衡和不平衡蝶。基于该技术，我们开发了两种贪心启发式算法：一种优先关注跟随者，另一种侧重于平衡支持比率。实验结果表明，基于平衡支持比率的贪心方法在效率和效果方面均优于基于跟随者的方法。

Title: DAHA: 利用数据和硬件感知的执行计划加速 GNN 训练

Author:

Zhiyuan Li, The Hong Kong University of Science and Technology*;

Xun Jian, Hong Kong University of Science and Technology;

Yue Wang, Shenzhen Institute of Computing Sciences;

Yingxia Shao, BUPT;

Lei Chen, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou);

图神经网络（GNNs）在图数据建模中获得了良好的声誉，但高效训练 GNNs 依然具有挑战性。尽管已有许多框架被提出，但它们大多面临小批次训练中的高批次准备成本和数据传输成本问题。此外，现有的工作在设备利用模式上存在局限性，从而减少了管道并行的机会。为此，我们提出了 DAHA，这是一个具备数据和硬件感知执行计划的 GNN 训练框架，用于加速端到端的 GNN 训练。我们首先提出了一个数据和硬件感知的成本模型，该模型轻量且能够准确估算任意输入和硬件设置下每个操作的时间成本。基于该成本模型，我们进一步探索了数据和硬件的最优执行计划，并通过三种优化策略实现管道并行：(1) 基于分组的依次管道化批次准备和神经网络训练，挖掘更多的优化机会并防止批次准备瓶颈；(2) 数据和硬件感知的重写策略，用于批内执行计划，提升计算效率并创造更多管道并行的机会；(3) 批次间调度以进一步提升训练效率。大量实验表明，DAHA 能够持续且显著地加速端到端 GNN 训练，并且可以推广到不同的消息传递 GNN 模型。

Title: HAIChart：人智协作的可视化系统

Author:

Yupeng Xie, The Hong Kong University of Science and Technology (Guangzhou);

Yuyu Luo (corresponding author), The Hong Kong University of Science and Technology (Guangzhou) & The Hong Kong University of Science and Technology;

Guoliang Li, Tsinghua University;

Nan Tang, The Hong Kong University of Science and Technology (Guangzhou) & The Hong Kong University of Science and Technology

数据可视化对揭示数据洞察和辅助决策制定具有重要作用。随着数据规模和复杂性的增长，高效且准确地生成高质量可视化的需求日益迫切。现有的可视化工具主要分为两大类：一类是需要专家密集参与的交互式可视化工具（例如Tableau和PowerBI），另一类则是AI驱动的自动可视化工具（例如Draco和Table2Charts），这些工具往往不能准确预测用户的具体需求。针对此问题，本研究旨在结合这两种工具的优势，首先自动生成一系列高质量的可视化，以减少人工操作，然后通过用户反馈迭代优化生成过程，以更好地满足用户需求。本文提出了一个基于强化学习的框架HAIChart，旨在通过用户反馈迭代推荐满足用户意图的高质量可视化。具体而言，本文提出了一种基于蒙特卡罗图搜索的可视化生成算法，该算法在复合奖励函数的指导下，高效地探索可视化空间并自动生成高质量的可视化。此外，本文设计了一种可视化提示机制，以融合用户反馈从而实现意图驱动的可视化推荐。本文还证明了Top-k可视化提示选择问题为NP难问题，并设计了一种高效的选择算法。真实数据集的实验表明，HAIChart在召回率和效率上显著优于现有的交互式可视化工具（分别提高了21%和1.8倍），在Hit@3和R10@30指标上也优于AI驱动的自动可视化工具（分别提高了25.1%和14.9%）。

Title: 基于早期损失的迭代误标检测

Author:

Yuhao Deng, Beijing Institute of Technology (BIT);

Chengliang Chai, BIT;

Lei Cao, Univ. of Arizona/MIT;

Nan Tang, HKUST(GZ);

Jiayi Wang, BIT;

Fan Ju, Renmin Univ.;

Ye Yuan, BIT; Guoren Wang, BIT

监督学习模型在含有误标实例的数据上进行训练时，由于标签错误，往往会产生不准确的结果。传统的误标检测方法依赖于数据的邻近性，即如果某实例的标签与其邻居不一致，则认为该实例可能是误标的。然而，这类方法通常效果不佳，因为实例并不总是与其邻居共享相同的标签。基于机器学习的方法则通过训练模型来区分误标实例和干净实例，但这些方法难以达到高精度，因为模型可能已经对误标实例发生了过拟合。在本文中，我们提出了一个新的框架——MisDetect，用于在模型训练期间检测误标实例。MisDetect利用早期损失观察（early loss observation）来迭代地识别和移除误标实例。在此过程中，基于影响力的验证机制被应用，以提高检测的准确性。此外，MisDetect能够自动判断早期损失在检测误标时何时失效，从而终止迭代检测过程。最后，对于MisDetect仍不确定是否为误标的训练实例，它会自动生成一些伪标签，并训练一个二元分类模型，利用机器学习模型的泛化能力来判断这些实例的状态。我们在15个数据集上的实验表明，MisDetect优于10种基线方法，展示了其在检测误标实例方面的有效性。

Title: 一个用于发现数据湖中可连接与可合并表的基准测试

Author:

Yuhao Deng, Beijing Institute of Technology (BIT);

Chengliang Chai, BIT;

Lei Cao, Univ. of Arizona/MIT;

Qin Yuan, BIT;

Siyuan Chen, BIT;

Yanrui Yu, BIT;

Zhaoze Sun, BIT;

Junyi Wang, BIT;

Jiajun Li, BIT;

Ziqi Cao, BIT;

Kaisen Jin, BIT;

Chi Zhagn, BIT;

Yuqiang Jiang, BIT;

Yuanfang Zhang, BIT;

Yuping Wang, BIT;

Ye Yuan, BIT;

Guoren Wang, BIT;

Nan Tang, HKUST(GZ)

从维护不善的数据湖中发现表是数据管理中的一大挑战。两个关键任务是识别可连接（joinable）和可合并（unionable）表，它们对于数据集成、分析和机器学习至关重要。然而，目前缺乏一个全面的基准来评估现有的方法。为了解决这个问题，我们引入了LakeBench，一个大规模的表发现基准测试。它用于评估表连接和合并搜索方法的有效性、效率和可扩展性。LakeBench包含超过1600万张真实表，比现有数据集大1600倍，存储规模大100倍。该基准测试包括合成和真实查询，并配有准确的标注，查询总数超过1万条，比现有任何评估中使用的查询多10倍。我们花费了超过7500个工时对这些查询进行了标注，并构建了多样化的查询类别以进行全面评估。我们的基准测试对最先进的表发现方法进行了深入评估，提供了对其性能的见解，并突出了未来的研究机会。

Title: 结合小型语言模型和大型语言模型进行零样本NL2SQL

Author:

Ju Fan, Renmin Univ.;

Zihui Gu, Renmin Univ.;

Songyue Zhang, Renmin Univ.;

Yuxin Zhang, Renmin Univ.;

Zui Chen, MIT;

Lei Cao, Univ. of Arizona/MIT;

Guoliang Li, Tsinghua Univ.;

Sam Madden, MIT;

Xiaoyong Du, Renmin Univ.;

Nan Tang, HKUST(GZ)

零样本自然语言到SQL（NL2SQL）旨在将预训练的NL2SQL解决方案推广到新环境中（例如，新数据库和新的语言现象），而无需从这些新环境中获得任何标注的NL2SQL样本。现有方法要么采用小型语言模型（SLMs），如BART和T5，要么使用提示词来引导大型语言模型（LLMs）。然而，SLMs在处理复杂的自然语言推理时，其泛化能力可能有限，而LLMs则可能无法精确对齐数据库模式，进而无法正确识别列或表。在本文中，我们提出了一个ZeroNL2SQL框架，将NL2SQL任务分解为更小的子任务，并结合SLMs和LLMs的优势来解决不同的子任务。ZeroNL2SQL首先微调SLMs，以在SQL结构识别和模式对齐方面实现更好的泛化能力，从而生成SQL草图。然后，它利用LLMs的语言推理能力来补全SQL草图中的缺失信息。在实现ZeroNL2SQL时有两个主要的研究挑战。第一个挑战是开发一种能够泛化到新数据库或语言现象的SQL草图生成方法。我们提出了新的数据库序列化和基于问题的对齐方法，使用SLMs有效生成SQL草图。第二个挑战是如何有效引导LLMs生成与特定数据集中的值对齐的SQL查询。我们设计了一个多级匹配策略，向LLMs推荐最相关的值，并通过基于执行的策略选择最佳的SQL查询。全面的实验表明，ZeroNL2SQL在基准测试中实现了最好的零样本NL2SQL性能。具体来说，ZeroNL2SQL在执行准确率上，比最先进的SLM方法提高了5.5%到16.4%，比LLM方法提高了10%到20%。

KDD 2024

ACM KDD是数据挖掘旗舰会议，也是中国计算机学会（CCF）推荐的A类国际学术会议，在数据挖掘领域享有极高的声誉，对研究成果的创新性、技术领先性、系统完备性以及写作水平有着极其苛刻的要求。今年的 KDD 2024 是第 30 届，于 8 月 25-29 日在西班牙巴塞罗那举行。KDD大会包含了Research Track和Applied Data Science Track，每年都吸引大量来自世界各地的学术界、工业界专业人士参与。

Title: GraphWiz:专注图论问题的指令遵循大模型

Author:

Nuo Chen, The Hong Kong University of Science and Technology (Guangzhou);

Yuhan Li, The Hong Kong University of Science and Technology (Guangzhou);

Jianheng Tang, The Hong Kong University of Science and Technology (Guangzhou);

Jia Li, The Hong Kong University of Science and Technology (Guangzhou)

大型语言模型（LLMs）在各个领域取得了令人瞩目的成功，但其在理解和解决复杂图问题方面的能力尚未得到充分探索。为弥补这一差距，我们构建了GraphInstruct，这是一种新的指令调优数据集，旨在通过明确的推理路径使语言模型能够处理广泛的图问题。利用GraphInstruct，我们构建了GraphWiz，这是一种开源的语言模型，能够解决各种图计算问题并生成清晰的推理过程。为了进一步提升模型的性能和可靠性，我们在图论问题背景下整合了直接偏好优化（DPO）框架。改进后的模型GraphWiz-DPO在九个不同复杂度的任务中平均准确率达到65%，超过了GPT-4的平均准确率43.8%。我们的研究还探讨了训练数据量与模型性能之间的关系，强调了随着数据量增加而出现的过拟合风险。此外，我们还研究了所提出模型在不同任务和数据集之间的迁移能力，展示了其强大的零样本泛化能力。

Title: ZeroG: 探索图间的零样本迁移学习能力

Author:

Yuhan Li, The Hong Kong University of Science and Technology (Guangzhou);

Peisong Wang, THU;

Zhixun Li, CUHK;

Jeffrey Xu Yu, CUHK;

Jia Li, The Hong Kong University of Science and Technology (Guangzhou)

随着基础模型例如大语言模型的发展，零样本迁移学习（zero-shot transfer learning）变得越来越重要。这一点从NLP模型如GPT-4的生成能力，以及像CLIP这样的CV模型的检索能力中得到了体现，这些模型有效地弥合了已见数据和未见数据之间的差距。在图学习领域，新图的不断出现以及人工标注的高代价也加剧了对零样本转移学习的需求，探索在不需要针对特定数据集和标签的精细调整 (fine-tuning)下能够跨数据集泛化的方法显得非常重要。在本论文中，我们将零样本迁移学习扩展到图领域，提出了一个专门为跨数据集零样本泛化设计的新框架ZeroG。面对在图中零样本学习的固有挑战，例如特征不对齐、类别空间不匹配和负向转移等问题，我们利用大语言模型来编码节点属性和类别语义，确保各数据集间特征维度的一致性。我们还提出了一个基于图提示 (graph prompt)的子图采样模块，该模块通过提示节点和邻域聚合分别提供语义信息和结构信息。此外，我们采用了一种轻量级的微调策略，减少了过拟合的风险，并保持了大语言模型的训练效率。实验结果证明了我们的模型在跨数据集零样本迁移学习方面的有效性，为图基础模型的发展开辟了新途径。

Title: All in One and One for All: 一种简单但有效的跨域图预训练方法

Author:

Haihong Zhao, The Hong Kong University of Science and Technology (Guangzhou);

Aochuan Chen, The Hong Kong University of Science and Technology (Guangzhou);

Xiangguo Sun, The Chinese University of Hong Kong;

Hong Cheng, The Chinese University of Hong Kong;

Jia Li, The Hong Kong University of Science and Technology (Guangzhou)

大型语言模型（LLMs）已经彻底改变了计算机视觉（CV）和自然语言处理（NLP）领域。LLMs 的一个重要技术突破是这类模型能在包括多个领域的广泛且多样化的数据上进行训练——我们称之为“All in One”范式。这种方法赋予了LLMs强有力的泛化能力，使其能够全面理解多种数据分布。利用这些能力，单个LLM能在多种领域表现出卓越的通用性——我们称之为“One for All”范式。然而，将这种思想应用于图领域仍然面临巨大挑战，主要是因为跨域预训练经常会导致负迁移现象。这一问题在高度依赖外部知识源的少样本学习场景下显得尤为突出。为了应对这一挑战，我们提出了一种名为图协调预训练（GCOPE）的新方法，其可以学习不同图数据集之间的共性来增强少样本场景下的预训练模型性能。具体来说，GCOPE方法对应了一个融合框架，其在预训练阶段整合了来自不同领域的多样化的图数据，以完成对目标任务有意义的知识的提取和迁移。最后，我们在多个图数据集上进行了广泛的实验，实验结果证明了GCOPE方法的有效性。总的来说，这篇工作探讨了跨领域图数据的信息整合方式，进一步挖掘了跨域多图数据协同预训练的可行性和潜力，为图基础模型领域做出了开创性的贡献。

Title: 离散等变图神经网络

Author:

Zinan Zheng, The Hong Kong University of Science and Technology (Guangzhou);

Yang Liu, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou);

Jia Li, The Hong Kong University of Science and Technology (Guangzhou);

Jianhua Yao, Tencent AI Lab;

Yu Rong, Tencent AI Lab;

图神经网络引入欧几里得对称性（如旋转等变性）可以显著提高模型的泛化能力。但是在众多的科学和工程应用中，由于物理边界的存在，物理动态系统的对称性可能是离散的。现有的图神经网络要么忽视了必要的对称性，要么引入了过强的对称性，导致了模型不能泛化到未观测到的对称场景。在这个工作中，我们提出了离散等变图神经网络（Discrete Equivariant Graph Neural Network），其等变于给定的离散点群。我们对几何特征进行变换来得到置换不变的嵌入信息。通过将连续等变的约束放缩到离散等变，DEGNN可以使用更多的几何特征来模拟未观察到的物理互相作用方程。我们将DEGNN应用到多种物理动力学中，如粒子，分子，人群，车辆动态。在20种场景中，DEGNN的效果超出现有的SOTA方法。除此之外，DEGNN只需要较少的训练数据，就有跨场景的泛化能力。

Title: InLN: 基于增量平衡网络的可解释动态推荐

Author:

Xujia LI, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou);

Jingshu Peng, The Hong Kong University of Science and Technology;

Lei Chen, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou);

随着电商的发展，广告主要求实时且准确的个性化广告投放。这要求平台能够基于用户的动态偏好进行建模，强调用户偏好和产品特性中存在的时效性。与此同时，随着图神经网络的发展，富含语义相关性的商品知识图谱被引入以提高推荐的准确性，并为广告主提供适当的花费解释，侧面激励他们进一步的在平台上投入宣传费用。然而，现有方法难以处理时序数据结构和图数据结构同时存在的情况，即基于知识的动态推荐问题。用户和产品之间的交互图随时间迅速变化，而知识图谱中的知识相对稳定。这导致时间和语义信息在同一张图上的不均匀分布，导致现有的图神经网络在这种情况下表现不佳。在这项工作中，我们定义上述现象这种时间不均匀性，并引入增量平衡网络（InLN）和三种新技术：（1）用于节点级动态建模的周期性聚焦窗口，（2）用于子图级动态建模的有偏时间漫步，（3）用于知识图谱更新的增量平衡机制。通过全面的实验验证，InLN在三个任务中胜过九种基线模型，验证了方法的可行性。

Title: 从涌现中学习：关于主动抑制人工神经网络单义神经元的研究

Author:

Jiachuan Wang, The Hong Kong University of Science and Technology;

Shimin Di, The Hong Kong University of Science and Technology;

Lei Chen, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou);

Charles Wang Wai Ng, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou);

随着大规模模型的成功，涌现现象引起了研究界的广泛关注。与现有文献不同，我们假设一个关键因素在模型规模增加过程中促进了性能的提升：即减少了单义神经元的数量。单义神经元是那些只能与特定特征形成一对一关联的神经元，这些神经元在大模型中往往较稀疏，并对性能产生负面影响。基于这一见解，我们提出了一个直观的想法，即识别并抑制单义神经元。然而，实现这一目标并非易事，因为目前没有统一的量化评价指标，且简单地禁止单义神经元并不能有效促进神经网络的多义性。为此，我们首先提出了一种新的指标，用于衡量神经元的单义性，同时保证该指标在在线计算中的效率。接着，我们引入了一种理论支持的方法，用于抑制单义神经元，并在神经网络训练过程中主动促进多义神经元的比例。我们在多种神经网络和不同领域的基准数据集（包括语言、图像和物理模拟任务）上验证了我们的假设，即单义性会在不同模型规模下引起性能变化。进一步的实验验证了我们关于抑制单义性的分析和理论。结果表明，通过减少单义神经元并增加多义神经元的比例，可以显著提升神经网络的性能，从而揭示了在大规模模型中涌现现象的内在机制，并为构建更高效的神经网络提供了新的方向。

Title: 金钱永不眠：在去中心化金融中最大化流动性挖矿收益

Author:

Wangze Ni, The Hong Kong University of Science and Technology;

Yiwei Zhao, The Hong Kong Polytechnic University;

Weijie Sun, The Hong Kong University of Science and Technology;

Lei Chen, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou);

Peng Cheng, East China Normal University;

Chen Zhang, Hong Kong Polytechnic University;

Xuemin Lin, Shanghai Jiaotong University;

去中心化金融（DeFi）的普及引发了对流动性挖矿（LM）的广泛关注。在流动性挖矿中，用户将其加密货币存入流动性池，为交易提供流动性并赚取收益。不同的流动性池提供不同的收益，并要求不同的加密货币对。用户可以通过一定的交换成本将一种加密货币兑换为另一种。因此，一个 LM 解决方案包括兑换交易和存款交易，并需满足以下约束条件：

1. 每个兑换交易必须按照特定汇率将一种加密货币兑换为另一种（即兑换约束）。

2. 存入流动性池的加密货币数量必须超过要求的最低阈值（即最低约束）。

3. 每个存款交易必须按照特定汇率在流动性池中存入特定的加密货币对（即存款约束）。

4. 使用的加密货币总量不得超过用户拥有的加密货币数量（即预算约束）。

由于候选解决方案众多，选择最具盈利性的 LM 解决方案极具挑战性。为解决这一问题，我们定义了收益最大化流动性挖矿（YMLM）问题。在给定一组流动性池、一组用户持有的加密货币、一组汇率和一个评估函数的情况下，YMLM 旨在找到一个收益最大化的 LM 解决方案，同时满足最低、兑换、存款和预算约束。我们证明了 YMLM 是一个 NP 难问题，无法通过常数近似比率的算法求解。为应对 YMLM，我们提出了两种算法：YMLM_GD 和 YMLM_SK，这些算法具有参数化的近似比率。在真实和合成数据集上的大量实验结果表明，我们的方法在收益方面优于基线方法。我们的研究为流动性挖矿提供了一种系统化的解决方案，帮助用户在去中心化金融中有效地最大化收益，同时满足各种操作约束，显著提升投资策略的回报率。

Title: SimDiff: 用于多模态知识图数据增强的简单去噪概率潜在扩散模型

Author:

Ran Li, The Hong Kong University of Science and Technology;

Shimin Di, The Hong Kong University of Science and Technology;

Lei Chen, The Hong Kong University of Science and Technology & The Hong Kong University of Science and Technology (Guangzhou);

Xiaofang Zhou, The Hong Kong University of Science and Technology;

在本文中，我们针对多模态知识图（MMKGs）中的数据增强挑战提出了一个新颖的扩散生成模型，即简单去噪概率潜在扩散模型（SimDiff）。多模态知识图是一个相对未充分探索的领域，而 SimDiff 能够通过在潜在空间中的统一扩散模型处理包括图拓扑在内的不同数据模态。这种方法增强了多模态数据的利用，促进了多模态融合，并减少了对有限训练数据的依赖。我们在多模态知识图的下游实体对齐（EA）任务中验证了 SimDiff 的有效性，实验结果显示，即使在训练中仅使用一半的种子实体，我们的方法仍能取得优越的性能表现。SimDiff 为多模态知识图提供了一种新的数据生成或增强方法，有望推动 MMKGs 在各种应用中的更有效使用。这一研究不仅填补了多模态知识图数据增强领域的空白，还为更广泛的应用场景提供了一个强大的工具，能够利用多模态数据的潜在结构，提升模型的泛化能力和性能。

DSA官网｜dsa.hkust-gz.edu.cn

DSA学域邮箱｜dsat@hkust-gz.edu

知乎 | 数据科学与分析学域HKUST(GZ)

小红书 | 港科广 | 数据科学与分析

港科大广州 I 数据科学与分析

香港科技大学（广州）信息枢纽数据科学与分析学域官方公众平台 Data Science and Analytics Thrust-Information Hub- HKUST(GZ)