首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

普林斯顿王梦迪团队提出蛋白水印方法，助力AI蛋白生成的版权保护与安全

学术 2024-11-06 11:45 北京

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

近年来，随着生成式人工智能的发展，蛋白质结构预测和设计的能力显著提高。然而，蛋白质生成模型在版权保护和生成有害内容（例如生物安全）方面面临着诸多问题。

生物大模型的构建和训练十分昂贵，有着保护模型版权和生成结果的现实需要；同时，需要有技术可靠地追踪和验证生成蛋白质结构，消除潜在的生物安全隐患。

普林斯顿大学王梦迪团队提出了一种名为 FoldMark 的水印方法，旨在嵌入水印信息以进行版权验证和生成结构的追踪。

FoldMark 通过两个阶段嵌入水印：首先预训练水印编码器和解码器，然后通过微调生成模型，使其既能生成高质量的蛋白质结构，又能嵌入水印信息。

该研究以「FoldMark: Protecting Protein Generative Models with Watermarking」为题，于 2024 年 10 月 28 日发布在 bioRxiv 预印平台。

论文链接: https://www.biorxiv.org/content/10.1101/2024.10.23.619960v1

随着生成式人工智能和生物技术的进步，蛋白质生成和结构预测模型如 AlphaFold 和 RFDiffusion 等取得了显著进展，推动了 de novo 蛋白质设计的革命。

然而，这些技术的发展也带来了版权和生物安全的担忧，特别是在模型共享和生成结构的滥用方面。因此，亟需有效的追踪和审计工具，从而防止潜在的生物安全风险和保护原始创作者的权益。

水印技术被认为是一种有前景的解决方案，但在蛋白质结构中实现这一目标面临诸多挑战。因为蛋白质结构对微小的变化高度敏感，嵌入水印而不破坏蛋白质的生物功能和稳定性是一项非常复杂的任务。

普林斯顿大学王梦迪团队提出 FoldMark，这是一种用于蛋白质生成模型的通用水印方法。

图示：FoldMark 概述。（来源：论文）

FoldMark 在预训练的蛋白质生成模型基础上进行开发，通常包括两个训练阶段：

在第一个阶段，预训练一个 SE(3)-等变的水印编码器和解码器，学习如何在不损害结构质量的前提下将水印信息嵌入到蛋白质结构中。

为此，训练过程使用两个损失函数进行优化：一是消息恢复损失，确保能从嵌入的结构中准确提取水印信息；二是结构一致性损失，确保嵌入水印后的蛋白质结构与原始结构之间的偏差最小。

图示：FoldMark 的预训练阶段。（来源：论文）

在第二阶段，提出水印 LoRA（Low-Rank Adaptation）方法，将给定的水印代码灵活地编码，并合并到原始模型权重中，不改变或增加额外的模型架构。

具体而言，生成模型的优化目标有两个：消息检索损失和一致性损失。消息检索损失确保水印能够有效嵌入生成的结构中，并成功提取出嵌入的水印代码；一致性损失则确保水印的加入对蛋白质结构的整体质量影响尽可能小。

图示：FoldMark 的微调阶段。（来源：论文）

水印模型性能评估

在实验中，FoldMark 被用于多种生成模型的水印嵌入任务。研究团队使用不同的水印位长度（例如 4 位、8 位、16 位和 32 位）来评估水印嵌入和恢复的效果。

图示：水印无条件蛋白质结构生成模型的水印生成性能比较。（来源：论文）

实验结果表明，FoldMark 在 16 位水印代码下，能够以接近 100% 的准确率从编码的蛋白质结构中恢复出水印信息。

而且，与图像领域的方法（如 WaDiff 和 AquaLoRA）相比，FoldMark 在大多数情况下表现出一致的改进效果，并且可以成功处理 16 位的水印代码。

图示：蛋白质结构预测模型的水印性能比较。（来源：论文）

应用场景介绍

FoldMark 的主要应用场景包括版权保护检测和用户身份识别。版权保护检测的目的是通过提取蛋白质结构中的水印信息，确认结构的生成归属，以证明结构是由特定模型生成的。

在用户身份识别方面，FoldMark 可以为每个用户分配唯一的水印，从而通过从生成的结构中提取水印，追踪到生成者的身份。这一应用不仅能够检测生成内容，还可实现追责，保护不同用户的版权。

应对后处理和自适应攻击的能力

在实际应用中，恶意用户可能对带有水印的蛋白质结构进行后处理或设计自适应攻击，以规避 FoldMark 的保护。研究人员考虑了三种常见的蛋白质结构后处理方法（如裁剪、旋转+翻译、添加噪声）和两种自适应攻击（如微调攻击、多信息攻击）。

图示：FoldMark 在后处理和自适应攻击下的表现。蛋白质后处理包括结构裁剪（保留整个序列的 50%）、随机平移和旋转整个结构，以及向坐标添加高斯噪声（强度 0.2）。（来源：论文）

结果显示，FoldMark 能够抵抗这些后处理和攻击，因为水印信息被嵌入到每个残基中，且解码器对 SE(3) 变化不敏感。

图示：FoldMark 用户识别准确率的表现。（来源：论文）

局限性与未来展望

尽管如此，FoldMark 仍然存在诸多局限性，需要在未来的研究来解决。

比如，该方法在处理显著的结构修改时，如大规模的结构域移动或极端构象变化时，表现不佳，因为水印的韧性有限。目前，水印的预训练过程与蛋白质生成模型的微调是分开的，未来在构建端到端水印管道方面的改进可能增强对这些结构变化的稳健性。

此外，高级用户可能不仅将蛋白质生成模型用于 de novo 设计，还用于结构编辑、功能优化或基序支架。这里的水印技术尚未充分应对这些复杂的修改，限制了其在更高级应用场景中的有效性。

并且，随着生成的蛋白质复杂性或长度的增加，水印检索准确性出现了一定的性能下降。研究团队计划在未来的工作中通过优化他们的方法，以有效应对更大和更复杂的蛋白质结构来解决这一局限性。

结语

总之，该研究证明了 FoldMark 在蛋白质生成模型及其输出中嵌入水印的可行性。这种两阶段方法成功地保留了蛋白质结构的质量，同时嵌入了用户特定的信息以进行版权认证和跟踪。

对各种蛋白质结构预测和设计模型进行的大量实验证实了 FoldMark 的有效性和对后处理和自适应攻击的稳健性，同时对原始结构质量的影响极小。

这为解决生成式人工智能在蛋白质设计应用中的版权保护等伦理问题提供了潜在方案。

相关内容: https://x.com/BiologyAIDaily/status/1850175194884882799

代码地址: https://github.com/zaixizhang/FoldMark

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247503645&idx=1&sn=0d538bb3e7ae145a7413c5ef4854dba2

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

最新文章

普林斯顿王梦迪团队提出蛋白水印方法，助力AI蛋白生成的版权保护与安全

贝佐斯、OpenAI领投，给机器人装AI「大脑」的Physical Intelligence获4亿美元融资

精准预测RNA可变剪接，浙大多模态深度学习模型SpTransformer登Nature子刊

创新能力超越AI Scientist，上海AI Lab「AI 科研团队」VirSci来了

类GPT化学语言模型，9秒生成100种化合物，微软AI药物设计平台登Nature子刊

为233种疾病推荐候选药物，中国科学院深度生成模型助力药物发现，登Nature子刊

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

准确、高效、物理有效，中科大、北大提出「两段式」分子对接统一框架DeltaDock

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

TMI2024 | 阿大、同济等提出TraCoCo，用于3D医学图像半监督分割

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

不懂AI、不会编码？如何轻松拿捏AlphaFold准确预测蛋白结构

Nature 子刊，化学语言模型自动设计多靶点配体

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

速度提高1000万倍，AI快速准确预测等离子体加热，助力核聚变研究

从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

几秒完成化学反应，每天筛选上万反应，浙大、之江全自动高通量AI「机器人」

中国科学院核聚变最新进展，AI 加速等离子体参数预测

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

AI 驱动的「科学搜索引擎」如何加速你的课题进度

水和算法有何相似？用物理学来理解大语言模型

化学空间导航仪：流生成式AI引导分子属性控制

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

Nature子刊，基于量子实验数据进行机器学习，用于解决量子多体问题

AI再夺诺奖！2024诺贝尔化学奖授予蛋白质计算领域三位科学家

诺奖颁给交叉学科，对「AI for Science」意味着什么？

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

精准预测流产风险，上海交大等开发可解释AI算法，为早期预防带来希望

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

如何用生成式 AI 定义我们的未来？看看微软怎么说

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

Science 发文，高通量蛋白质组学和人工智能的革命

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

同时生成蛋白序列和结构，David Baker团队序列空间扩散新模型登Nature子刊

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

机器学习辅助催化剂设计，天大团队开发通用且可解释的描述符

中国科学院物理学家利用机器学习揭示原子核壳演化

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉