Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

学术 2024-10-28 08:24 北京

尽管生成式人工智能（AI）正在改变全球内容生产的格局，但诸多严峻挑战也随之而来：如何准确识别由 AI 生成的内容并防止其被滥用，尤其是在文本生成领域，已成为困扰越来越多人的一大难题。

今天，Google DeepMind 团队发表了一项重磅研究——

他们开发了一种名为 SynthID-Text 的新型水印工具。该工具采用“锦标赛抽样”（tournament sampling）算法，在不损害文本质量的前提下，通过嵌入隐形水印，使大语言模型（LLM）生成的每段文本都带有独特标识，极大提高了文本追踪和检测的精度。

研究发现，通过在多个公开可用的模型上评估，SynthID-Text 显示出比现有方法更高的检测率。通过对近 2000 万条 LLM 的实时聊天互动数据进行分析，非扭曲模式的水印并未降低文本质量。

相关研究论文以 “Scalable watermarking for identifying large language model outputs” 为题，以封面文章的形式已发表在权威科学期刊 Nature 上。

这一工具的推出，标志着 AI 文本透明性和责任性的重大进展，为当前 AI 生成内容的溯源和透明性提供了新的解决方案，也回应了当前社会对 AI 内容可信度的担忧。

“揭穿” AI 文本的“隐形指纹”

随着 LLM 技术的发展，像 GPT 系列模型等 AI 工具生成的文本内容流畅度和语言多样性已经接近甚至超越人类编写的文本。然而，这也带来了关于内容可信性和来源问题的挑战，尤其是在教育、媒体等领域，无法辨别生成文本的来源可能会导致误导性信息的传播。

在文本生成的过程中，LLM 将文本分解为 token（最小的语言单位），然后逐步预测下一个 token 的出现概率，然后通过大量语料数据的训练，学习语言的上下文结构，从而实现语言生成。每次预测新的 token，LLM 都基于此前生成的 token 和上下文，逐步构建句子直到完成整段文本。

传统的水印技术往往需要在生成文本中做出一些可察觉的修改，如基于机器学习的分类器和检索式系统，可以在一定程度上检测 AI 生成的内容，但其在大规模应用时表现欠佳，且误报率较高。同时，现有的方法往往存在隐私问题，难以在不影响文本质量的情况下进行大规模应用。

图｜LLM 文本生成和生成水印概述

SynthID-Text的创新在于引入随机种子生成器和多层次的水印函数，在每次生成 token 时，随机种子会传递给多个水印函数，通过锦标赛的方式选出符合水印要求的最高分词嵌入文本。这种方法确保了生成的文本具备水印特征，同时不会显著影响文本流畅性和多样性。

在 LLM 生成文本时，SynthID-Text 的嵌入技术分为三个关键步骤：

随机种子生成：输入上下文后，随机种子生成器生成一个种子，该种子将作为后续水印嵌入过程的输入。
锦标赛抽样：随机种子作为输入传递给多层次的水印函数（如 g_1, g_2, g_3），每个函数生成候选 token。然后，系统通过多轮锦标赛比较不同水印函数得出的分数，选出得分最高的词嵌入到文本中。
水印嵌入：每次生成新的 token 时，锦标赛过程会选择符合水印条件的词，而不会显著偏离原有的 LLM 语言模型分布。

图｜SynthID-Text的基于锦标赛的水印

在生成式 AI 应用中，文本质量和多样性至关重要。传统的水印技术可能在嵌入水印的过程中牺牲文本的流畅性，导致生成文本出现语法错误或重复内容。

SynthID-Text 通过非扭曲水印（non-distortionary watermarking）技术优化了这一问题，这种水印嵌入方法兼顾了生成文本的质量和透明性，确保在不改变生成文本自然性的前提下实现水印标记。

研究表明，单词级别的水印嵌入不会改变 LLM 原有的文本生成分布，从而保持了文本的流畅性和多样性。

实验验证：文本质量与水印检测的平衡

研究团队对 2000 万条由 LLM 生成的文本进行了大规模实验，测试了 SynthID-Text 的实际效果。

研究发现，在非失真模式下（即不改变文本结构和语法的情况下），SynthID-Text 几乎不会对生成文本的质量造成任何影响，而且用户对嵌入水印的文本与未嵌入水印的文本的满意度差异仅为 0.01%。这表明，SynthID-Text 能够在不牺牲用户体验的前提下，实现高效的文本水印嵌入。

此外，论文分析了 “单 token 非失真性” 的概念，即在特定配置下，水印算法在生成每个 token 时不会影响 LLM 的原始分布。这保证了文本质量的最大程度保留，使水印嵌入对用户体验几乎没有负面影响。

图｜SynthID-Text 的检测性能

研究还分析了 SynthID-Text 的水印检测性能主要受文本长度和 LLM 生成文本的熵值（entropy）影响。熵值指的是文本生成过程中语言的多样性，即模型生成新 token 时的选项数目。结果显示，熵值越高的文本，水印的嵌入和检测效果越好；而熵值较低的环境下，水印的嵌入与检测难度则增加。

研究指出，这主要是由于模型生成的文本选项较少，锦标赛抽样算法无法选择最优的水印词。

为了提高水印在低熵环境下的嵌入与检测性能，研究团队提出通过增加锦标赛层数的方法来增强水印检测的可靠性，不过研究也警告，过多的锦标赛层数可能导致熵值耗尽，从而削弱水印的嵌入效果。

因此，在实际应用中，研究建议将锦标赛的层数控制在 30 层以内，以确保检测精度与文本生成的平衡。

不足与展望

尽管 SynthID-Text 在隐形水印嵌入方面表现出了显著的优势，但其在某些应用场景下仍存在局限性。主要挑战包括：

加速文本生成中的应用问题：目前，SynthID-Text 尚未对诸如推测性抽样（predictive sampling）等加速文本生成技术进行优化，这意味着在某些应用场景中，水印嵌入的效率可能受到影响。
文本编辑与规避问题：虽然 SynthID-Text 提升了水印的检测率，但研究团队也指出，这种水印仍可能被通过重写或编辑来规避。因此，在实际应用中仍需要结合其他检测技术以提高鲁棒性。
多语言模型的兼容性：当前研究的主要焦点是针对英语的文本生成，而对于不同语言的 LLM，水印嵌入与检测的效果可能存在差异，尤其是在未经训练的语言上。

对此，研究团队表示，他们计划未来将水印算法与其他文本生成加速技术（如推测抽样）相结合，进一步提升水印嵌入与检测的效率与精度。同时，针对不同熵值下水印表现的深入研究，也将有助于扩展其在更多实际应用场景中的一致性表现。

不止是文字

除了文字，SynthID 还可以为音频、图像和视频添加水印，帮助用户确定内容或部分内容是否由谷歌的 AI 工具生成。

据 Google DeepMind 官方博客介绍，在人工智能生成音乐方面，SynthID 将音频波转换为光谱图，二维可视化地展示声音中频率范围随时间的演变。在计算出光谱图后，数字水印被添加到其中，在转换回波形时，利用音频属性确保水印人耳听不到，不影响聆听体验。

在人工智能生成图像和视频方面，SynthID 将人眼无法察觉的数字水印直接添加到图像像素或视频的每一帧中。经过精心设计，不影响图像或视频质量，即使经过裁剪、添加滤镜、更改颜色、更改帧速率以及各种有损压缩方案保存等修改，水印依然保持可检测性。

Google DeepMind 表示，通过开源代码，更多的人将可以使用该工具加水印，并确定文本输出是否来自他们自己的 LLM，从而构建可信的 AI。

随着生成式 AI 技术的普及，信息透明性和追踪性变得至关重要。虚假信息的传播不仅威胁着社会稳定，也对企业声誉和个人权益带来了挑战。SynthID 的推出，不仅为生成式 AI 文本的溯源和透明化提供了技术解决方案，也为应对虚假信息的扩散提供了新思路。

据 Gartner 预测，到 2028 年，超过 50%的企业将开始采用专为应对虚假信息设计的产品和技术，而目前这一比例还不到 5%。在未来，像 SynthID 这样的工具或将为各行业提供强有力的保障，帮助社会在信息泛滥的风暴中保持信任和透明。

作者：田小婷编辑：学术君

如需转载或投稿，请直接在公众号内留言

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247592717&idx=1&sn=d84222f14e726d7109d964bc858ccff1

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

不止 computer use，AI 的「phone use」也来了

今天，把电脑交给大模型

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

来了！Stability AI 推出 Stable Diffusion 3.5

深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

刚刚，OpenAI最强竞对官宣：大模型可以使用电脑了

DeepMind创始人最新访谈：今年的诺贝尔奖，就像是AI的分水岭

微软提出新型注意力机制SeerAttention；清华、智谱团队提出“预训练蒸馏”｜大模型日报

OpenAI o1 模型推理模式的比较研究｜大模型论文日报

哈佛重磅突破！AI确定17000多种疾病候选药物，罕见病“孤儿药”不再遥远？

132年未解开的李雅普诺夫函数谜题，被Symbolic Transformer攻克了

Meta被斥：他们污染了“开源”一词；李开复：零一万物绝不放弃预训练模型｜一周热门

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

美国FDA：警惕AI大模型带来的未知问题，亟需监管创新

3B 超越 7B，Mistral AI 推出端侧模型 Ministral 3B 和 8B

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉