Nature | 新方法给AI产出 “打水印”

学术   2024-10-24 23:59   北京  

Google DeepMind刚刚在Nature发表文章,介绍新方法-SynthID-Text给大模型产生的文本 “打水印” ,帮助人们识别,从而更安全负责地使用大模型[1], [2]。

该“打水印”的原理是在文本生成的时候引入细微的修饰,从而产生统计特征;这种特征就可以后续低计算负担地被检测出来[1]。

进一步研究人员通过与其它类似方案的比较展示了该方法的高检测准确率和低文本质量影响[1]。

研究人员认为该方法的局限是:1. 需要大模型开发端的配合;2.“水印系统” 容易受攻击或者被戏弄[3];3. “水印”比较容易通过深度的润色绕过去。所以SynthID-Text需要和其它方法配合[1]。

该项工作的通讯作者是来自Google DeepMind的Pushmeet Kohli和Sumanth Dathathri;2024年10月23日发表在Nature[1]。

Comment(s):

很重要的工作,毕竟关系信息生态系统。

文中关于SynthID-Text在多语言表现比较的数据很有意思,在中文表现尤其好[1],侧面说明中文信息密度高且稳健。

SynthID-Text在中文表现出色[1]。

附正文Figs.



参考文献:

[1] S. Dathathri et al., “Scalable watermarking for identifying large language model outputs,” Nature, vol. 634, no. April, 2024, doi: 10.1038/s41586-024-08025-4.

[2] J. Kirchenbauer, J. Geiping, Y. Wen, J. Katz, I. Miers, and T. Goldstein, “A Watermark for Large Language Models”.

[3] N. Jovanović, R. Staab, and M. Vechev, “Watermark Stealing in Large Language Models,” Proc. Mach. Learn. Res., vol. 235, pp. 22570–22593, 2024.

原文链接:

https://www.nature.com/articles/s41586-024-08025-4

商务合作:mss@pku.edu.cn

CNS导读
关注有广泛深远影响的顶刊工作 Rigorous \x26amp; Elegant Science for Everyone
 最新文章