作者:罗易凡
(图片来自于网络)
研究背景
随着数据驱动技术的广泛应用,保护敏感信息隐私已成为至关重要的课题。差分隐私(Differential Privacy,DP)技术提供了一种强大的数学框架,能够在保护用户隐私的同时允许数据分析。这为医疗、金融等需要处理敏感数据的领域提供了有效的解决方案。近年来,随着大型语言模型(LLM)的迅猛发展,利用这些模型生成具有差分隐私保护的合成数据成为了研究的前沿课题。本报告基于两项最新研究,分别探讨了如何利用大型语言模型生成差分隐私保护的表格数据和文本数据。
研究方法
图一:差分隐私表格数据生成流程
第一项工作关注的是表格数据的合成。表格数据在医疗、金融等领域广泛应用,但其隐私性要求高。传统的生成对抗网络(GAN)等深度学习方法虽然在非隐私场景下表现出色,但在差分隐私下表现不佳。对此,Emory大学的研究者提出了DP-LLMTGen框架,专门用于生成差分隐私保护的表格数据。
研究方法与创新点
两阶段微调策略:该框架采用了两阶段的微调方法。第一阶段使用公共数据帮助模型学习表格数据的结构和格式,而不涉及隐私数据。第二阶段通过差分隐私随机梯度下降(DPSGD)对模型进行微调,确保在不泄露隐私的情况下学习实际数据的分布。
新型损失函数:研究提出了加权交叉熵损失(WCEL)和数值理解损失(NUL),用于优化表格数据的生成,特别是提高模型对数值数据的处理能力
公平性约束生成:模型还具备生成公平数据的能力,通过控制生成过程中的条件约束,减少数据中的偏差。
图三:DP-LLMTGen在各个数据集上的表现
研究结果
DP-LLMTGen在多个表格数据集上显著优于其他现有方法,尤其是在高隐私保护(低隐私预算)的场景下。实验表明,该方法能够有效捕捉表格数据中的复杂依赖关系,并且在下游机器学习任务中展现了较高的准确率。此外,通过公平性约束生成,该框架可以减少数据中的人口统计差异,而不会显著影响模型的实用性。
2. 文本数据生成:Harnessing Large-Language Models to Generate Private Synthetic Text
图四:差分隐私文本数据生成流程
第二项工作来自Google,重点研究了如何生成差分隐私保护的文本数据。文本数据的生成比表格数据更具挑战性,因为文本通常包含更加复杂的上下文和结构信息,且生成的隐私合成数据需要保持原有的文本特性。传统方法在处理文本时存在较大的隐私泄露风险,而Google提出的方案有效缓解了这一问题。
研究方法与创新点
私有微调大语言模型:研究提出了一种新的微调方式,通过在大型语言模型上使用差分隐私随机梯度下降(DP-SGD),生成具有差分隐私保护的文本数据。该方法通过减少可训练参数的数量,降低了训练过程中的噪声,从而提高了合成文本的质量。
应用场景与评估:该方法在三个公开的敏感数据集上进行了验证,包括IMDB电影评论、Yelp商业评论和AG新闻文章。结果显示,生成的合成文本不仅有效保护了用户隐私,还在下游分类任务中表现出色。
图五:差分隐私保护的合成文本数据在各个数据集上的表现
研究结果
实验结果表明,使用差分隐私保护的合成文本数据进行下游任务(如情感分析和分类)的表现,有时甚至优于直接在原始数据上进行差分隐私训练的模型。Google的研究特别强调了大语言模型在合成数据时利用公共数据的能力,从而增强了模型的预测准确性。此外,困惑度(Perplexity)和n-gram统计等指标的评估结果证明了合成数据在保留文本特性方面的优越性。
研究总结与展望
这两项研究分别探索了如何利用大型语言模型生成差分隐私保护的表格数据和文本数据,尽管生成的数据类型不同,它们都展现了通过创新的模型微调策略和损失函数设计,能够在严格的隐私保护条件下生成高质量的合成数据。这些研究不仅为未来的数据合成技术提供了新的思路,还展示了差分隐私技术在数据共享、模型训练等方面的广泛应用前景。
参考文献
[1] Tran T. V., Xiong L. Differentially Private Tabular Data Synthesis using Large Language Models. 2024.
[2] Kurakin A., Ponomareva N., et al. Harnessing Large-Language Models to Generate Private Synthetic Text. 2024.
写在最后
我们的文章可以转载了呢~欢迎转载与转发呦
想了解更多前沿科技与资讯?
点击上方入口关注我们!
欢迎点击右上方分享到朋友圈
香港中文大学(深圳)
网络通信与经济实验室
微信号 : ncel_cuhk