利用大语言模型进行差分隐私数据生成

文摘科技 2024-10-08 11:00 广东

作者：罗易凡

（图片来自于网络）

研究背景

随着数据驱动技术的广泛应用，保护敏感信息隐私已成为至关重要的课题。差分隐私（Differential Privacy，DP）技术提供了一种强大的数学框架，能够在保护用户隐私的同时允许数据分析。这为医疗、金融等需要处理敏感数据的领域提供了有效的解决方案。近年来，随着大型语言模型（LLM）的迅猛发展，利用这些模型生成具有差分隐私保护的合成数据成为了研究的前沿课题。本报告基于两项最新研究，分别探讨了如何利用大型语言模型生成差分隐私保护的表格数据和文本数据。

本报告基于两项最新研究，分别探讨了如何利用大型语言模型生成差分隐私保护的表格数据和文本数据。

研究方法

1. 表格数据生成：Differentially Private Tabular Data Synthesis using Large Language Models

图一：差分隐私表格数据生成流程

第一项工作关注的是表格数据的合成。表格数据在医疗、金融等领域广泛应用，但其隐私性要求高。传统的生成对抗网络（GAN）等深度学习方法虽然在非隐私场景下表现出色，但在差分隐私下表现不佳。对此，Emory大学的研究者提出了DP-LLMTGen框架，专门用于生成差分隐私保护的表格数据。

研究方法与创新点

两阶段微调策略：该框架采用了两阶段的微调方法。第一阶段使用公共数据帮助模型学习表格数据的结构和格式，而不涉及隐私数据。第二阶段通过差分隐私随机梯度下降（DPSGD）对模型进行微调，确保在不泄露隐私的情况下学习实际数据的分布。
新型损失函数：研究提出了加权交叉熵损失（WCEL）和数值理解损失（NUL），用于优化表格数据的生成，特别是提高模型对数值数据的处理能力
公平性约束生成：模型还具备生成公平数据的能力，通过控制生成过程中的条件约束，减少数据中的偏差。

图三：DP-LLMTGen在各个数据集上的表现

研究结果

DP-LLMTGen在多个表格数据集上显著优于其他现有方法，尤其是在高隐私保护（低隐私预算）的场景下。实验表明，该方法能够有效捕捉表格数据中的复杂依赖关系，并且在下游机器学习任务中展现了较高的准确率。此外，通过公平性约束生成，该框架可以减少数据中的人口统计差异，而不会显著影响模型的实用性。

2. 文本数据生成：Harnessing Large-Language Models to Generate Private Synthetic Text

图四：差分隐私文本数据生成流程

第二项工作来自Google，重点研究了如何生成差分隐私保护的文本数据。文本数据的生成比表格数据更具挑战性，因为文本通常包含更加复杂的上下文和结构信息，且生成的隐私合成数据需要保持原有的文本特性。传统方法在处理文本时存在较大的隐私泄露风险，而Google提出的方案有效缓解了这一问题。

研究方法与创新点

私有微调大语言模型：研究提出了一种新的微调方式，通过在大型语言模型上使用差分隐私随机梯度下降（DP-SGD），生成具有差分隐私保护的文本数据。该方法通过减少可训练参数的数量，降低了训练过程中的噪声，从而提高了合成文本的质量。
应用场景与评估：该方法在三个公开的敏感数据集上进行了验证，包括IMDB电影评论、Yelp商业评论和AG新闻文章。结果显示，生成的合成文本不仅有效保护了用户隐私，还在下游分类任务中表现出色。

图五：差分隐私保护的合成文本数据在各个数据集上的表现

研究结果

实验结果表明，使用差分隐私保护的合成文本数据进行下游任务（如情感分析和分类）的表现，有时甚至优于直接在原始数据上进行差分隐私训练的模型。Google的研究特别强调了大语言模型在合成数据时利用公共数据的能力，从而增强了模型的预测准确性。此外，困惑度（Perplexity）和n-gram统计等指标的评估结果证明了合成数据在保留文本特性方面的优越性。

研究总结与展望

这两项研究分别探索了如何利用大型语言模型生成差分隐私保护的表格数据和文本数据，尽管生成的数据类型不同，它们都展现了通过创新的模型微调策略和损失函数设计，能够在严格的隐私保护条件下生成高质量的合成数据。这些研究不仅为未来的数据合成技术提供了新的思路，还展示了差分隐私技术在数据共享、模型训练等方面的广泛应用前景。

参考文献

[1] Tran T. V., Xiong L. Differentially Private Tabular Data Synthesis using Large Language Models. 2024.

[2] Kurakin A., Ponomareva N., et al. Harnessing Large-Language Models to Generate Private Synthetic Text. 2024.

写在最后

我们的文章可以转载了呢~欢迎转载与转发呦

想了解更多前沿科技与资讯？

点击上方入口关注我们！

欢迎点击右上方分享到朋友圈

香港中文大学（深圳）

网络通信与经济实验室

微信号 : ncel_cuhk

http://mp.weixin.qq.com/s?__biz=MzU5NDIyODY4Ng==&mid=2247489480&idx=1&sn=d7ec240ae065ebab4f90f8ba65a87c39

网络通信与经济

介绍网络、通信和经济交叉领域的最新科研成果和活动 —香港中文大学（深圳）网络通信与经济学实验室

最新文章

基于年龄奖励机制: 提升信息的新鲜度

利用大语言模型进行差分隐私数据生成

以隐贝叶斯推理解释上下文学习

基于多主体动态博弈视角的深度神经网络训练优化

2024年夏季网络通信与经济学实验室（NCEL）研讨会

解耦知识蒸馏

如何激励去中心化系统的资源池化？

通过数据交易提升在线算法决策的公平性

模型间博弈提升大语言模型输出易读性

借助大语言模型评估文本信息

大语言模型挑战众包工人

基于联合选址和可修复库存模型的城市电车换电服务的规模化布局与运营研究

面向生产环境的大语言模型联邦学习

Galaxy：面向边缘大模型协同推理的分布式边缘智能系统

能量感知年龄优化：基于能量采集的多源更新网络系统中的AoI分析

差分隐私联邦学习中用户选择和隐私补偿机制设计

活动回顾｜李葆春教授：实证联邦学习的数据隐私保护

活动回顾｜文勇刚教授：GPU数据中心大规模深度学习负载调度

差分隐私在机器学习中的实施

联邦遗忘学习概述

神经网络中的特征学习

基于大语言模型的电力系统通用人工智能展望：理论与应用

离线强化学习概述

竞合：数据共享在电子商务中的新策略

众筹中的策略性定价与信息披露

联邦学习在无线网络中的异构用户自适应采样优化算法

对抗性机器学习中的博弈论

大语言模型的机制设计

如何让同行评审更加科学

联邦学习与模型服务提供共存：一种模型训练和模型推理联合优化方法

网络通信与经济实验室（NCEL）2023研讨会暨成立十五周年团建活动回顾

活动回顾 | 牛志升教授：突发流量下节能服务的最佳休眠策略

车对车通信下的信息机制设计

活动回顾 | 香港中文大学（深圳）深圳市群体智能驱动的低碳能源网络重点实验室揭牌仪式暨启动会成功举办

考虑数据新鲜度的移动群智感知激励机制

预测策略性储能行为

边缘内容缓存与分享的经济分析

隐私资源：如何在差分隐私联邦学习中合理分配

2023年夏季网络通信与经济学实验室（NCEL）研讨会

香港中文大学（深圳）黄建伟教授招聘博士生、博士后！

8月18日9:00，Junshan Zhang教授介绍热启动强化学习相关研究

喜讯 | IEEE TNSE 2022年度影响因子攀升至6.6！

喜讯 | 理工学院12位教授获Research.com评为其学术领域内2023顶尖科学家

当数据源耦合时，我们如何优化信息新鲜度？

高精度地图众包中高效车辆选择的轨迹穿透表征

基于模型分解训练的异构多模态联邦学习

基于排序特征学习的多智能体少样本感知

能源区块链系统中提升交易吞吐量的机制设计

基于众包数据标注的联邦学习激励机制设计

【讲座通知】Insights from the Editor-in-Chief: My Recent Experiences

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉