来源:ScienceAI 本文约2000字,建议阅读5分钟 王梦迪团队提出“两段式”水印方法。
近年来,随着生成式人工智能的发展,蛋白质结构预测和设计的能力显著提高。然而,蛋白质生成模型在版权保护和生成有害内容(例如生物安全)方面面临着诸多问题。
生物大模型的构建和训练十分昂贵,有着保护模型版权和生成结果的现实需要;同时,需要有技术可靠地追踪和验证生成蛋白质结构,消除潜在的生物安全隐患。
普林斯顿大学王梦迪团队提出了一种名为 FoldMark 的水印方法,旨在嵌入水印信息以进行版权验证和生成结构的追踪。
FoldMark 通过两个阶段嵌入水印:首先预训练水印编码器和解码器,然后通过微调生成模型,使其既能生成高质量的蛋白质结构,又能嵌入水印信息。
该研究以「FoldMark: Protecting Protein Generative Models with Watermarking」为题,于 2024 年 10 月 28 日发布在 bioRxiv 预印平台。
随着生成式人工智能和生物技术的进步,蛋白质生成和结构预测模型如 AlphaFold 和 RFDiffusion 等取得了显著进展,推动了 de novo 蛋白质设计的革命。
然而,这些技术的发展也带来了版权和生物安全的担忧,特别是在模型共享和生成结构的滥用方面。因此,亟需有效的追踪和审计工具,从而防止潜在的生物安全风险和保护原始创作者的权益。
水印技术被认为是一种有前景的解决方案,但在蛋白质结构中实现这一目标面临诸多挑战。因为蛋白质结构对微小的变化高度敏感,嵌入水印而不破坏蛋白质的生物功能和稳定性是一项非常复杂的任务。
普林斯顿大学王梦迪团队提出 FoldMark,这是一种用于蛋白质生成模型的通用水印方法。
FoldMark 在预训练的蛋白质生成模型基础上进行开发,通常包括两个训练阶段:
在第一个阶段,预训练一个 SE(3)-等变的水印编码器和解码器,学习如何在不损害结构质量的前提下将水印信息嵌入到蛋白质结构中。
为此,训练过程使用两个损失函数进行优化:一是消息恢复损失,确保能从嵌入的结构中准确提取水印信息;二是结构一致性损失,确保嵌入水印后的蛋白质结构与原始结构之间的偏差最小。
在第二阶段,提出水印 LoRA(Low-Rank Adaptation)方法,将给定的水印代码灵活地编码,并合并到原始模型权重中,不改变或增加额外的模型架构。
具体而言,生成模型的优化目标有两个:消息检索损失和一致性损失。消息检索损失确保水印能够有效嵌入生成的结构中,并成功提取出嵌入的水印代码;一致性损失则确保水印的加入对蛋白质结构的整体质量影响尽可能小。
水印模型性能评估
在实验中,FoldMark 被用于多种生成模型的水印嵌入任务。研究团队使用不同的水印位长度(例如 4 位、8 位、16 位和 32 位)来评估水印嵌入和恢复的效果。
实验结果表明,FoldMark 在 16 位水印代码下,能够以接近 100% 的准确率从编码的蛋白质结构中恢复出水印信息。
而且,与图像领域的方法(如 WaDiff 和 AquaLoRA)相比,FoldMark 在大多数情况下表现出一致的改进效果,并且可以成功处理 16 位的水印代码。
应用场景介绍
FoldMark 的主要应用场景包括版权保护检测和用户身份识别。版权保护检测的目的是通过提取蛋白质结构中的水印信息,确认结构的生成归属,以证明结构是由特定模型生成的。
在用户身份识别方面,FoldMark 可以为每个用户分配唯一的水印,从而通过从生成的结构中提取水印,追踪到生成者的身份。这一应用不仅能够检测生成内容,还可实现追责,保护不同用户的版权。
应对后处理和自适应攻击的能力
在实际应用中,恶意用户可能对带有水印的蛋白质结构进行后处理或设计自适应攻击,以规避 FoldMark 的保护。研究人员考虑了三种常见的蛋白质结构后处理方法(如裁剪、旋转+翻译、添加噪声)和两种自适应攻击(如微调攻击、多信息攻击)。
图示:FoldMark 在后处理和自适应攻击下的表现。蛋白质后处理包括结构裁剪(保留整个序列的 50%)、随机平移和旋转整个结构,以及向坐标添加高斯噪声(强度 0.2)。(来源:论文)
结果显示,FoldMark 能够抵抗这些后处理和攻击,因为水印信息被嵌入到每个残基中,且解码器对 SE(3) 变化不敏感。
局限性与未来展望
尽管如此,FoldMark 仍然存在诸多局限性,需要在未来的研究来解决。
比如,该方法在处理显著的结构修改时,如大规模的结构域移动或极端构象变化时,表现不佳,因为水印的韧性有限。目前,水印的预训练过程与蛋白质生成模型的微调是分开的,未来在构建端到端水印管道方面的改进可能增强对这些结构变化的稳健性。
此外,高级用户可能不仅将蛋白质生成模型用于 de novo 设计,还用于结构编辑、功能优化或基序支架。这里的水印技术尚未充分应对这些复杂的修改,限制了其在更高级应用场景中的有效性。
并且,随着生成的蛋白质复杂性或长度的增加,水印检索准确性出现了一定的性能下降。研究团队计划在未来的工作中通过优化他们的方法,以有效应对更大和更复杂的蛋白质结构来解决这一局限性。
结语
总之,该研究证明了 FoldMark 在蛋白质生成模型及其输出中嵌入水印的可行性。这种两阶段方法成功地保留了蛋白质结构的质量,同时嵌入了用户特定的信息以进行版权认证和跟踪。
对各种蛋白质结构预测和设计模型进行的大量实验证实了 FoldMark 的有效性和对后处理和自适应攻击的稳健性,同时对原始结构质量的影响极小。
这为解决生成式人工智能在蛋白质设计应用中的版权保护等伦理问题提供了潜在方案。
关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU