华北电力大学&新南威尔士大学|大语言模型下游任务对齐的版权保护技术研究(TASLP 2024)

文摘   2024-11-25 09:01   北京  



随着大语言模型(LLMs)在自然语言处理领域取得重大突破,其在特定领域的应用价值也显著提升。将LLMs应用于特定领域,通常需要进行专门的任务对齐,该过程不仅需要大量计算资源和人力投入,还需要收集大量的领域数据。如何保护领域大模型的版权,即防止未经授权的下游服务厂商使用“对齐模块”部署服务进行营利,是一个重要研究话题。为实现有效的版权保护,本文提出WEDA(Watermark Embedding for Downstream Alignment)方案(如图1所示)。

WEDA方案结合思维链(Chain of Thought, CoT)和前缀集成技术,解决了两个关键技术难题:1、如何在保持模型性能的前提下,实现水印嵌入;2、如何让水印技术同时适配参数高效微调(PEFT)和无需参数更新的上下文学习(ICL)两种主流对齐方法。基于多个主流大语言模型(如LLaMA-7B、BLOOM-7B和GPT-j-6B等)对所提方案WEDA进行了实验验证,WEDA可实现接近100%的水印提取成功率,同时保持原有任务性能,验证了WEDA在实际应用中的可行性和有效性。   

图1 本文提出的版权保护方案


WEDA方案的核心创新在于提出了基于思维链的水印响应机制,通过在验证过程引入中间推理步骤,显著提升了水印的识别效果。对于PEFT场景,该方案不仅实现了稳定的水印嵌入,还保持了模型在下游任务上的性能。针对ICL场景,引入前缀集成技术,以增强水印样例的显著性,实现了高效的无参数水印嵌入。这两种技术的结合使得WEDA能够适应不同的对齐场景,为LLM下游任务对齐提供了较为全面的版权保护方案。

论文信息


相关论文已被IEEE/ACM Transactions on Audio, Speech, and Language Processing接收,作者为华北电力大学的王申(硕士生)、关志涛教授(通讯作者),新南威尔士大学的董珈良(博士生,共同一作),费耶特维尔州立大学的武龙飞教授。

Shen Wang, Jialiang Dong, Longfei Wu, Zhitao Guan, "WEDA: Exploring Copyright Protection for Large Language Model Downstream Alignment", IEEE/ACM Transactions on Audio, Speech, and Language Processing, accepted, 2024.(点击下方阅读原文查看论文全文)



供稿:王申、董珈良、关志涛


隐者联盟
本公众号主要推介多媒体、人工智能、信息安全等方面的最新研究进展,愿与同行携手,共同推动科学研究向前发展。
 最新文章