普林斯顿王梦迪团队提出蛋白水印方法，助力AI蛋白生成的版权保护与安全

学术 2024-11-29 17:36 北京

来源：ScienceAI
本文约2000字，建议阅读5分钟
王梦迪团队提出“两段式”水印方法。

近年来，随着生成式人工智能的发展，蛋白质结构预测和设计的能力显著提高。然而，蛋白质生成模型在版权保护和生成有害内容（例如生物安全）方面面临着诸多问题。

生物大模型的构建和训练十分昂贵，有着保护模型版权和生成结果的现实需要；同时，需要有技术可靠地追踪和验证生成蛋白质结构，消除潜在的生物安全隐患。

普林斯顿大学王梦迪团队提出了一种名为 FoldMark 的水印方法，旨在嵌入水印信息以进行版权验证和生成结构的追踪。

FoldMark 通过两个阶段嵌入水印：首先预训练水印编码器和解码器，然后通过微调生成模型，使其既能生成高质量的蛋白质结构，又能嵌入水印信息。

该研究以「FoldMark: Protecting Protein Generative Models with Watermarking」为题，于 2024 年 10 月 28 日发布在 bioRxiv 预印平台。

论文链接:

https://www.biorxiv.org/content/10.1101/2024.10.23.619960v1

随着生成式人工智能和生物技术的进步，蛋白质生成和结构预测模型如 AlphaFold 和 RFDiffusion 等取得了显著进展，推动了 de novo 蛋白质设计的革命。

然而，这些技术的发展也带来了版权和生物安全的担忧，特别是在模型共享和生成结构的滥用方面。因此，亟需有效的追踪和审计工具，从而防止潜在的生物安全风险和保护原始创作者的权益。

水印技术被认为是一种有前景的解决方案，但在蛋白质结构中实现这一目标面临诸多挑战。因为蛋白质结构对微小的变化高度敏感，嵌入水印而不破坏蛋白质的生物功能和稳定性是一项非常复杂的任务。

普林斯顿大学王梦迪团队提出 FoldMark，这是一种用于蛋白质生成模型的通用水印方法。

图示：FoldMark 概述。（来源：论文）

FoldMark 在预训练的蛋白质生成模型基础上进行开发，通常包括两个训练阶段：

在第一个阶段，预训练一个 SE(3)-等变的水印编码器和解码器，学习如何在不损害结构质量的前提下将水印信息嵌入到蛋白质结构中。

为此，训练过程使用两个损失函数进行优化：一是消息恢复损失，确保能从嵌入的结构中准确提取水印信息；二是结构一致性损失，确保嵌入水印后的蛋白质结构与原始结构之间的偏差最小。

图示：FoldMark 的预训练阶段。（来源：论文）

在第二阶段，提出水印 LoRA（Low-Rank Adaptation）方法，将给定的水印代码灵活地编码，并合并到原始模型权重中，不改变或增加额外的模型架构。

具体而言，生成模型的优化目标有两个：消息检索损失和一致性损失。消息检索损失确保水印能够有效嵌入生成的结构中，并成功提取出嵌入的水印代码；一致性损失则确保水印的加入对蛋白质结构的整体质量影响尽可能小。

图示：FoldMark 的微调阶段。（来源：论文）

水印模型性能评估

在实验中，FoldMark 被用于多种生成模型的水印嵌入任务。研究团队使用不同的水印位长度（例如 4 位、8 位、16 位和 32 位）来评估水印嵌入和恢复的效果。

图示：水印无条件蛋白质结构生成模型的水印生成性能比较。（来源：论文）

实验结果表明，FoldMark 在 16 位水印代码下，能够以接近 100% 的准确率从编码的蛋白质结构中恢复出水印信息。

而且，与图像领域的方法（如 WaDiff 和 AquaLoRA）相比，FoldMark 在大多数情况下表现出一致的改进效果，并且可以成功处理 16 位的水印代码。

图示：蛋白质结构预测模型的水印性能比较。（来源：论文）

应用场景介绍

FoldMark 的主要应用场景包括版权保护检测和用户身份识别。版权保护检测的目的是通过提取蛋白质结构中的水印信息，确认结构的生成归属，以证明结构是由特定模型生成的。

在用户身份识别方面，FoldMark 可以为每个用户分配唯一的水印，从而通过从生成的结构中提取水印，追踪到生成者的身份。这一应用不仅能够检测生成内容，还可实现追责，保护不同用户的版权。

应对后处理和自适应攻击的能力

在实际应用中，恶意用户可能对带有水印的蛋白质结构进行后处理或设计自适应攻击，以规避 FoldMark 的保护。研究人员考虑了三种常见的蛋白质结构后处理方法（如裁剪、旋转+翻译、添加噪声）和两种自适应攻击（如微调攻击、多信息攻击）。

图示：FoldMark 在后处理和自适应攻击下的表现。蛋白质后处理包括结构裁剪（保留整个序列的 50%）、随机平移和旋转整个结构，以及向坐标添加高斯噪声（强度 0.2）。（来源：论文）

结果显示，FoldMark 能够抵抗这些后处理和攻击，因为水印信息被嵌入到每个残基中，且解码器对 SE(3) 变化不敏感。

图示：FoldMark 用户识别准确率的表现。（来源：论文）

局限性与未来展望

尽管如此，FoldMark 仍然存在诸多局限性，需要在未来的研究来解决。

比如，该方法在处理显著的结构修改时，如大规模的结构域移动或极端构象变化时，表现不佳，因为水印的韧性有限。目前，水印的预训练过程与蛋白质生成模型的微调是分开的，未来在构建端到端水印管道方面的改进可能增强对这些结构变化的稳健性。

此外，高级用户可能不仅将蛋白质生成模型用于 de novo 设计，还用于结构编辑、功能优化或基序支架。这里的水印技术尚未充分应对这些复杂的修改，限制了其在更高级应用场景中的有效性。

并且，随着生成的蛋白质复杂性或长度的增加，水印检索准确性出现了一定的性能下降。研究团队计划在未来的工作中通过优化他们的方法，以有效应对更大和更复杂的蛋白质结构来解决这一局限性。

结语

总之，该研究证明了 FoldMark 在蛋白质生成模型及其输出中嵌入水印的可行性。这种两阶段方法成功地保留了蛋白质结构的质量，同时嵌入了用户特定的信息以进行版权认证和跟踪。

对各种蛋白质结构预测和设计模型进行的大量实验证实了 FoldMark 的有效性和对后处理和自适应攻击的稳健性，同时对原始结构质量的影响极小。

这为解决生成式人工智能在蛋白质设计应用中的版权保护等伦理问题提供了潜在方案。

最新文章

深入理解多重共线性：基本原理、影响、检验与修正策略

类GPT化学语言模型，9秒生成100种化合物，微软AI药物设计平台登Nature子刊

【阿姆斯特丹博士论文】优化、博弈与泛化界

独家｜ChatGPT搜索如何为AI代理铺路

普林斯顿王梦迪团队提出蛋白水印方法，助力AI蛋白生成的版权保护与安全

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

报名 | 揭秘AI科研神器，解锁跨学科创新密码！

独家｜在大型语言模型中对于 “涌现属性 ”的合理性检查

清华软件论坛 | 清华大学杰出访问教授樊文飞院士分享“AI = 机器学习 + 逻辑推理”

【博士论文】基于车载3D LiDAR的几何与语义场景理解深度学习研究

NeurIPS 2024 || GLBench: 面向大模型的图学习基准测试集

Token化一切，甚至网络！TokenFormer，Transformer从来没有这么灵活过！

【阿姆斯特丹博士论文】科学模拟的机器学习：推理与生成模型

基于LLM Graph Transformer的知识图谱构建技术研究：LangChain框架下的文本-图谱双模式转换机制实践

为什么卷积现在不火了：CNN研究热度降温的深层原因分析

【NeurIPS2024】SAFE: 慢速与快速参数高效调优用于基于预训练模型的持续学习

TSMamba：基于Mamba架构的高效时间序列预测基础模型

【阿姆斯特丹博士论文】在视觉挑战条件下的多模态学习

大数据系统软件国家工程研究中心共同主办首届北京数字人才发展大会

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析

【牛津大学博士论文】通过贝叶斯实验设计实现自动化数据采集

基于MCMC的贝叶斯营销组合模型评估方法论：系统化诊断、校准及选择的理论框架

当视觉大模型陷入认知失调，马里兰大学构建了一个幻觉自动生成框架

【NeurIPS2024】通过超球面能量最小化 CKA 增强贝叶斯深度学习中的多样性

数据派志愿者招募 | 寻找最志同道合的你！

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

LoRA、完全微调到底有何不同？MIT 21页论文讲明白了

【NeurIPS2024】强化学习梯度作为在线微调决策变换器的维生素

报名 | 全球证书项目Innovation and Entrepreneurship for the Al Economy

NeurIPS 2024 | 经典GNNs是强有力的节点分类基线模型

从哈佛哲学系到蛋白质设计大师，David Baker：AlphaFold令我深刻认识到深度学习的力量

【CMU博士论文】交错离散搜索与连续优化用于运动规划中的动力学运动规划

IoTDB 航空航天解决方案：从制造到试飞，助力国之重器翱翔长空

深度学习工程实践：PyTorch Lightning与Ignite框架的技术特性对比分析

【CMU博士论文】使用数据不确定解释的可信学习

通知 | 清华大学大数据能力提升项目“RONG”奖学金开始申请啦！

一文解读：时序基础模型的缩放定律

基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

原创 | 展望大语言模型在AGI时代的发展前景

10种数据预处理中的数据泄露模式解析:识别与避免策略

【阿姆斯特丹博士论文】缓解多任务学习中的偏差

清华软件论坛 | 樊文飞：AI = 逻辑推理 + 机器学习

勾股定理还能这样证明？高中生一连发现10种证明方法，陶哲轩点赞

基于PyTorch的大语言模型微调指南：Torchtune完整教程与代码示例

【CELL】用AI智能体推动生物医学发现

科普之旅｜大语言模型与量子计算的融合

Github上的十大RAG(信息检索增强生成)框架

【NeurIPS2024】将连续潜在变量模型扩展为概率积分电路

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉