浙大数据智能团队最新综述: 生成式AI时代下表格数据增强进展与展望

科技 2024-08-09 11:00 新加坡

嘿，记得给“机器学习与推荐算法”添加星标

TLDR：本文系统介绍了表格数据增强（TDA）的相关研究，特别强调在生成式AI时代下该领域的最新进展。文章构建了一个端到端的TDA流程模型，涵盖预增强、增强和后增强三个阶段，并对比分析了基于检索和生成的方法，同时展望了TDA的未来趋势和机遇。

论文：https://arxiv.org/abs/2407.21523
代码：github.com/SuDIS-ZJU/awesome-tabular-data-augmentation

0 摘要

面向表格数据（tabular data）的机器学习（ML）无处不在，在金融、医疗、教育等领域广泛使用。但获取大量高质量的表格数据用于模型训练仍然是一个重大障碍。单表大小适中且独立,使得整个数据收集过程资源密集且耗时。表格数据是大语言模型（LLMs）使用的重要格式之一,现有高质量数据集即将耗尽。同时,表格数据多用于工业界,受隐私限制数据可用性有限。

因此，大量工作都致力于研究表格数据增强（tabular data augmentation，TDA）这一任务，用额外的数据增强原始表格，从而促进下游的机器学习任务。图1展示了面向ML的TDA示例，直接使用原表训练ML模型很可能效果欠佳，因此需要进行表增强提升数据质量，表增强主要分成三个步骤：增强准备，增强（基于检索和基于生成），增强后评估。本文选取了从2010年到2024年间发表在重要刊物上的70篇工作，以对TDA的整个技术环节进行详细的论述。此外，近年来生成式人工智能（generative AI）也开始进军于TDA领域（23-24年出现了16篇相关文章）。本文的目的，是全面地回顾和展望TDA的进展和未来前景，同时特别强调当前生成式人工智能在这一领域的发展态势。

具体来说，本文构建了端到端的TDA流程，包括三个主要过程：预增强（pre-augmentation）、增强（augmentation）和后增强（post-augmentation），如图2所示。预增强部分总结了常用的促进后续TDA的准备任务，包括错误处理（Error Handling）、表注释（Table Annotation）、表简化（Table Simplification）、表表示（Table Representation）、表索引（Table Indexing）、表导航（Table Navigation）、模式匹配（Schema Matching）和实体匹配（Entity Matching）。增强部分系统地分析了当前的TDA技术，分为基于检索（retrieval-based）和基于生成（generation-based）的方法，前者检索外部数据，后者生成合成数据。本文根据增强过程的执行粒度（行、列、单元格和表）进一步细分这些技术。后增强部分侧重于TDA的数据集、评估和优化。本文还总结了TDA的当前趋势和未来方向，强调了生成人工智能时代TDA的前景和机会。此外，随附的论文和相关资源将在https://github.com/SuDIS-ZJU/awesome-tabular-data-augmentation中不断更新和维护。

1 引言

1.1 TDA综述的必要性：

表格数据在机器学习中应用广泛：表格数据，如关系表（relational tables）、网页表（web tables）和CSV文件等，是机器学习中最原始和最基本的数据形式之一，具有出色的结构特性、可读性和可解释性。谷歌数据集搜索平台上超过65%的数据集是表格文件。这种普遍性突显了它在无数领域的关键作用，如金融、医疗、教育。

适用于ML的高质量表格数据稀缺：单表一般大小适中且独立于其他表，这使得整个数据收集过程资源密集且耗时。在大型语言模型（LLM）时代，表格数据是LLM使用的重要数据格式之一，现有的高质量表格数据集可能很快就会耗尽。此外，表格数据作为工业界最常用的数据，由于隐私问题，数据的可用性往往受到限制。

当前暂无工作对现有的TDA技术进行系统地整理分析：目前TDA领域的研究工作数量众多（从2010年到2024年，本文共收集了70项高度相关的研究），且随着生成式AI的发展，不断有新技术引入（从2023年到2024年，本文共收集了16篇使用生成式AI的工作）。

1.2 TDA的挑战：

表格的异质性，与图像、文本等同质数据不同，表格数据是异质的，通常同时包含连续型和离散型特征；
复杂的结构性，如行列的顺序无关性，表格的层次性（单元格属于行，行属于表），列与列之间的关系（表中的某一列通常仅依赖于其他列的子集）；
表格的语义信息，表格通常具有一个主题（如Year列在电子产品信息表和在论文发表年份表中的意义不一致）；
表池中表格数量庞大，有时包含数百万张表格；
多表间不一致的形式，池中表由于不同来源等因素，通常具有不一致的属性命名习惯和单元值格式；
表池本身的动态性，池中表随着时间的推移而变化。

1.3 本文的贡献：

首个关于TDA技术的综述，从任务和表粒度两个视角对现有的70篇经典TDA工作进行分类。首先将TDA技术分为基于检索和基于生成的方法，再基于表粒度（行、列、单元格和表）细分，共形成8个具体的TDA任务，如图2。并对这8个任务进行进一步地分类比较，总结出现有方法的优缺点及未来方向。同时，比较基于检索和基于生成的方法，突出其各自的优缺点。

本文提供了一个完整的TDA流程，涵盖了从准备到增强再到评估的整个过程，如图2。本文总结了8个常用的预增强任务，对这些预增强任务进行具体分析，形成分类和优缺点比较。并逐个分析了现有的70篇经典TDA工作都使用了哪些预增强任务，进而总结了这些预增强任务的适用场景。后增强阶段，本文整理了常用的TDA数据集，TDA评估方法以及TDA优化策略。

本文特别关注最新的生成式AI技术在TDA领域的进展，涵盖16篇23-24年的工作。并总结了在生成式AI时代，TDA领域的未来趋势和机遇挑战。三大趋势：表表示的增强，检索方法与生成方法的结合，TDA的自动化。并指出五大机遇：多模态的TDA，TDA的效率与可扩展性，领域TDA，TDA的可解释性，TDA的隐私与安全。

本文创建了一个TDA相关工作的git库：https://github.com/SuDIS-ZJU/awesome-tabular-data-augmentation，并会持续更新维护。

1.4 本文总结的TDA趋势与挑战：

三大趋势：

表表示的增强，研究人员越来越多地采用更先进的表表示法，以更好地捕捉表中的结构和语义细节；
检索方法与生成方法的结合，基于检索和生成的方法具有各自的优缺点，鉴于RAG在NLP领域的成功应用，未来趋势可能在于整合这两种方法；
TDA的自动化，创建能够有效管理整个TDA过程的端到端自动化TDA系统。

五大机遇：

多模态的TDA，表格逐渐包含更广泛的模态（如图像），同时用户需求可能以其他模态提出（如文本）；
效率与可扩展性，大规模数据池，大规模生成式AI模型的应用；
领域TDA，特定领域的数据通常表现出很强的专业性，并具有一些独特的特征；
TDA的可解释性，基于生成的方法多缺乏可解释性，同时新进的生成式AI技术也缺乏可解释性。
TDA的隐私与安全，基于生成的方法合成数据可起到一定隐私保护作用，而最近将LLM引入TDA工作流程的趋势带来了一系列新的隐私和安全挑战。

2 TDA的定义与分类

给定一个原始表和一个由参数化的特定ML模型，表格数据增强（TDA）旨在将扩展为一个增强表 (其中包括行和/或列中的其他数据值)。TDA的目标是使得用增强表训练的机器学习模型比用原始表训练的版本获得更好的模型性能。正式的，TDA定义如下：

其中level ={行，列，单元格，表}表示TDA操作的粒度，如表1所示; T是基于检索的TDA（使用来自表池的数据来增强原始表）的可选输入，它表示用于信息检索的外部信息源，简称表池；G是基于生成的TDA（直接基于原始表生成新数据）的可选输入，意味着使用某种特定的生成方法。和分别表示在和数据集上训练的ML模型的经验误差。

3 预增强

在TDA流程中，预增强指准备任务，以促进增强的有效性。对于表格数据，常见的问题是缺失或不正确的单元格值和不可靠的元数据（如列名）。对于表池（在基于检索的方法的情况下），随着表数量的增多（百万或更多），在TDA之前进行数据准备至关重要。预增强旨在a.提高原始表和池中表的质量，b.更好地组织表池，以提高加速和可扩展性。这可能涉及一系列任务：

错误处理（Error Handling）：对表中的脏数据进行预处理，可分为显式和隐式方法。显式错误处理涉及直接检测和纠正错误。隐式错误处理并不直接检测错误，而是增强模型对错误的鲁棒性。
表注释（Table Annotation）：推断表的元数据（metadata）信息，如列名和列之间的关系。根据现有技术可以分为，基于本体（ontology）的方法，基于监督学习的方法和基于PLM的方法。
表简化（Table Simplification）：将原始表进行简化，这可以从内容和语义的角度来进行。内容层面，即表采样；语义层面，即表总结。
表表示（Table Representation）：将表元素（如行、列和单元格）转换为向量，可根据表示内容分为表内容（content）、表上下文（context）和表元数据（metadata）。
表索引（Table Indexing）：为表元素分配唯一标识符（索引值），允许根据其索引值快速高效地进行查找和检索。根据现有技术可以分为，倒排索引（inverted index）、局部敏感哈希（LSH）和分层导航小世界（HNSW）。
表导航（Table Navigation）：在表池上建立导航框架，即通过连接相似表来组织表池。根据现有技术可以分为，集群结构（Cluster structure），层次结构（Hierarchical structure）和连接图（Linkage graph）。
模式匹配（Schema Matching）：评估两列之间的相关性，可以根据匹配内容分为文本匹配、数字匹配，以及元数据匹配。
实体匹配（Entity Matching），评估两行之间的相关性。根据现有技术可以分为，基于知识库（KB），基于数据库（DB）和两者结合的混合方法。

同时，本文还总结了不同TDA场景中使用的具体预增强任务，如图3所示。基于检索的TDA通常在拥有大规模数据的表池上进行，从而会出现格式不一致和动态数据等问题。基于生成的TDA通常只需要原表作为输入，可能会遇到数据稀缺问题。同时，基于生成的TDA常用于隐私保护场景。此外，基于检索和生成的TDA方法都面临着一些共同的挑战，例如低质量和不平衡的表。

4 增强

增强是TDA流程的核心过程，旨在使用更多的数据增强原始表，以提升下游的ML任务。TDA技术可分为基于检索和基于生成的方法。基于检索的方法被认为是一种基于原始表（称为查询表）的数据驱动的TDA任务，表池作为额外的输入。这种方法的关键在于正确建模查询表和池中表之间的相似性。基于生成的方法可以有效地利用原始表的上下文（例如统计分布和列对关系）来生成数据进行表增强，不需要额外的数据源。这两种方法都可以根据增强的表粒度进一步细分，最终形成八个具体的TDA任务：

实体增强（Entity Augmentation）：使用从表池检索到的行增强原表。根据现有技术可以分为，统计方法，基于知识库的方法，基于图的方法和基于PLM的方法。
模式增强（Schema Augmentation）：使用从表池检索到的列增强原表。根据现有技术可以分为，基于值的连接（value-based joins），基于语义的连接（semantic-based joins）和基于表结构的连接（structure-based joins）。
单元填充（Cell Completion）: 使用从表池检索到的值填补原表空值。基于单元格的类型可以分为，列名填充，行名/ID填充和单元格填充。
表集成（Table Integration），使用从表池检索到的行和列增强原表，可以分为组合型方法（组合前三种方法），和直接型表集成。
记录生成（Record Generation）：基于原表生成行（记录），根据目的可以分为保留原表记录分布的方法和过采样不平衡样本的方法。
特征构建（Feature Construction）：基于原表构建列（特征），可以分为显示特征构建（直接变换现有特征，如将“年龄”列从连续型数值列变换成青年中年老年的离散型类别列）和隐式特征构建（通过间接操纵隐藏层中的现有特征向量来生成新特征）。
单元填补（Cell Imputation）：基于原表生成假设值填补原表中的缺失值，可以根据现有技术分为，统计方法和深度学习方法（如VAE,GAN,diffusion）。
表合成（Table Synthesis）：基于原表同时生成行和列，可以分为组合型方法（组合前三种方法），和直接型表合成。

图4简要概述了本文所讨论的关键TDA工作及其详细的分类，并对每个TDA工作的特点进行简单介绍。

同时，本文根据所调研的TDA工作和对TDA技术的两层分类，总结对比了基于检索和基于生成的TDA方法各自的优缺点，并分析了它们共同面临的挑战，如表2。旨在帮助研究人员能够选择最符合其任务和要求的TDA方法。

5 后增强

最后，TDA流程包括后增强过程，涉及三个关键方面：TDA数据集、评估策略和优化策略。

首先，本文详细介绍了与TDA相关的常用数据集以其属性（如表3），并详细阐述了这些数据集各自的特点，最后给出关于TDA数据集相关发现。这些数据集可以大致分为两大类：基于检索的TDA数据集和基于生成的TDA数据集，因为基于检索的TDA需要收集额外的外部表作为表池，而基于生成的TDA只需要原始表作为输入。

然后，本文将评估策略分成两类：a. 基于原始表的评估，将增强表与原始表进行比较（例如，比较它们的统计分布）；b. 基于模型的评估，比较在增强数据集与基线数据集上训练的ML模型的性能。并对比这两种策略的优缺点，指出TDA评估的一些机遇。

最后，本文深入探讨了TDA的优化策略。下游机器学习模型可以通过保留提高性能的数据来迭代优化增强结果，直到达到目标精度。更复杂的策略，如基于强化学习（RL）的框架，也可以指导数据优化过程。同样，本文也总结现有TDA优化策略的优缺点与可能的发展方向。

表3. TDA研究中使用的代表性数据集，以及它们的基本属性和适合的特定TDA任务

6 总结

本文对面向机器学习（ML）的表格数据增强（TDA）进行了系统地调研，特别突出了近期生成式AI在TDA中的技术突破和最新进展。本文的工作通过构建一个端到端的TDA流程，深挖TDA中涉及的基本步骤：（1）预增强，总结并分析TDA常用的准备技术；（2）增强，系统比较了当前TDA技术，包括基于检索和基于生成的方法；以及（3）后增强，深入研究TDA后的评估和优化过程。此外，本文还对当前方法的优缺点进行了全面分析，并概述了TDA的未来趋势和机遇。

欢迎干货投稿 \ 论文宣传 \ 合作交流

由于公众号试行乱序推送，您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容，请将本号设为星标，以及常点文末右下角的“在看”。

喜欢的话点个在看吧👇

http://mp.weixin.qq.com/s?__biz=MzA4NTUxNTE4Ng==&mid=2247524491&idx=1&sn=6c44e3822dcb22c1b38ea3f02774bad2

机器学习与推荐算法

专注于分享经典的推荐技术，致力于传播基础的机器学习、深度学习、数据挖掘等方面的知识。

最新文章

当MoE邂逅图学习: AnyGraph解密图大模型的Scaling Law

KDD2024 | 最佳学生论文: 以数据为中心的序列推荐方法

Kaggle大模型文本预测竞赛入门分享

CIKM2024 | 属性感知匹配的文本序列推荐算法

论文周报[0902-0908] | 推荐系统领域最新研究进展(15篇)

「小而美」的EasyRec来啦, 推荐系统迈入语言模型时代？

学术顶会变成了“大厂”顶会?

大模型推荐最新进展 | 含KDD, RecSys, CIKM, ACL等顶会文章

KDD2024推荐系统/计算广告/大模型论文整理(研究专题)

KDD2024推荐系统/计算广告/大模型论文整理(应用专题)

近期大模型时序预测顶会论文总结

SIGIR2024 | 对齐很重要! 大模型增强知识赋能传统序列推荐

论文周报[0826-0901] | 推荐系统领域最新研究进展(16篇)

ICML2024 | 维度坍塌视角下的大规模推荐系统

CIKM2024 | LightGODE: 挑战传统图推荐范式, 基于轻量级图ODE推荐算法

图像分割模型SAM-2在医疗领域应用总结

LEARN: 大模型知识增强的工业级推荐模型

论文周报[0819-0825] | 推荐系统领域最新研究进展(26篇)

KDD2024 | 用户图增强的联邦推荐系统

多模态融合最新前沿方向进展总结

RecSys2024 | 蒸馏很重要! 大模型赋能传统序列推荐

论文周报[0812-0818] | 推荐系统领域最新研究进展(16篇)

只要敢捞“偏门”，篇篇都是顶会顶刊！

抖音 | 搜索推荐算法工程师招聘

KDD2024 | PolygonGNN: 多边形几何形状的表征学习

RecSys2024推荐系统论文整理

科大讯飞 | 短视频精准推荐挑战赛Baseline

论文周报[0805-0811] | 推荐系统领域最新研究进展(21篇)

浙大数据智能团队最新综述: 生成式AI时代下表格数据增强进展与展望

导师放养, 偷偷发了顶会。。。

CIKM2024 | TWIN-V2: 超长用户行为序列建模在快手的应用

KDD2024 | GFN4Retention: 基于生成流网络的用户留存建模

想中稿顶会？来看看顶会审稿人怎么说

LLM101n 硬核代码解读: 超详解读numpy实现多层感知机MLP

论文周报[0729-0804] | 推荐系统领域最新研究进展(19篇)

最新综述 | 图压缩技术: 如何压缩图数据从而加速GNN训练？

IJCAI2024 | 利用基础模型的联邦推荐系统

CIKM2024 | COLT: 面向完整性的大模型工具检索

KDD2024 | 基于双重意图转换的搜索推荐联合模型

论文周报[0722-0728] | 推荐系统领域最新研究进展(14篇)

首届国家智慧教育平台 | 用户行为序列个性化推荐竞赛

ACM MM2024@Oral | DiffMM: 当多模态推荐遇上Diffusion Model

KDD2024 | 兴趣点推荐中的隐私风险研究

最新开源Transformer压缩与量化方法总结

2024年推荐系统技术全面综述：历史、现状、分类、应用与展望

论文周报[0715-0721] | 推荐系统领域最新研究进展(15篇)

SIGIR2024 | SelfGNN: 自监督图学习序列推荐

大模型微调与对齐在推荐系统中的应用总结

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

浙大数据智能团队最新综述: 生成式AI时代下表格数据增强进展与展望

0 摘要

1 引言

1.1 TDA综述的必要性：

1.2 TDA的挑战：

1.3 本文的贡献：

1.4 本文总结的TDA趋势与挑战：

2 TDA的定义与分类

3 预增强

4 增强

5 后增强

6 总结

欢迎干货投稿 \ 论文宣传 \ 合作交流

推荐阅读

由于公众号试行乱序推送，您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容， 请将本号设为星标，以及常点文末右下角的“在看”。

由于公众号试行乱序推送，您可能不再准时收到机器学习与推荐算法的推送。为了第一时间收到本号的干货内容，请将本号设为星标，以及常点文末右下角的“在看”。