随着大语言模型(LLMs)在自然语言处理领域取得重大突破,其在特定领域的应用价值也显著提升。将LLMs应用于特定领域,通常需要进行专门的任务对齐,该过程不仅需要大量计算资源和人力投入,还需要收集大量的领域数据。如何保护领域大模型的版权,即防止未经授权的下游服务厂商使用“对齐模块”部署服务进行营利,是一个重要研究话题。为实现有效的版权保护,本文提出WEDA(Watermark Embedding for Downstream Alignment)方案(如图1所示)。 WEDA方案结合思维链(Chain of Thought, CoT)和前缀集成技术,解决了两个关键技术难题:1、如何在保持模型性能的前提下,实现水印嵌入;2、如何让水印技术同时适配参数高效微调(PEFT)和无需参数更新的上下文学习(ICL)两种主流对齐方法。基于多个主流大语言模型(如LLaMA-7B、BLOOM-7B和GPT-j-6B等)对所提方案WEDA进行了实验验证,WEDA可实现接近100%的水印提取成功率,同时保持原有任务性能,验证了WEDA在实际应用中的可行性和有效性。
相关论文已被IEEE/ACM Transactions on Audio, Speech, and Language Processing接收,作者为华北电力大学的王申(硕士生)、关志涛教授(通讯作者),新南威尔士大学的董珈良(博士生,共同一作),费耶特维尔州立大学的武龙飞教授。 Shen Wang, Jialiang Dong, Longfei Wu, Zhitao Guan, "WEDA: Exploring Copyright Protection for Large Language Model Downstream Alignment", IEEE/ACM Transactions on Audio, Speech, and Language Processing, accepted, 2024.(点击下方阅读原文查看论文全文)