热问妹有话说
西藏地震灾情牵动人心,
一个男童被压在倒塌建筑物下的图片,
引发很多网友关注和转发。
经腾讯新闻较真平台查证,
这张图片是由AI创作的。
热问妹想知道:
如何辨别AI生成的图片?
为何总是手指出现破绽?
腾讯新闻热问和清华“AI光影社”合作,
对此进行了专业解读。
每日热问
Question
AI生成的西藏地震受灾男童图片被疯传,如何辨别AI生成的图片?为何总是手指出破绽?
热问答主
@AI光影社_蔡老师
6根手指不是唯一的破绽。
笔者信息:蔡云麒,清华大学计算机系人工智能研究院博士后,中科院物理所副研究员,主要从事人工智能前沿交叉研究和人工智能的科普教育相关工作。更多AI知识,请关注由清华大学师生创办的AI科普教育公益社区“AI光影社”。
1. 虚假信息泛滥的风险
近年来,AI生成内容在技术层面取得了显著突破,同时也带来了虚假信息泛滥的风险。
在最近的西藏地震AI造假事件中,人们发现那张催人泪下的图片是AI伪造的,引发众怒。
传统上,很多造假照片是通过反向搜索被发现的,因为很多假照片都是旧照片的复用。
但是,AI造假不同,它的照片是生成的,以前没见过,所以很难被发现。
这次的造假是怎么发现的呢?是看手,AI生成的小朋友有六个手指头!
AI 小孩
那么,为什么在AIGC如此强大,生成的图片和视频几乎能够以假乱真的今天,画手还是这么困难呢?
2. 图片生成的原理:左右互搏与迭代去噪
这就需要从AI生成模型的原理说起了,目前较为典型的生成模型包括生成对抗网络(GAN)和扩散模型(Diffusion model)。
生成对抗网络就像艺术家与评论家的博弈。
在生成对抗网络中,生成器就像艺术家,负责创作新的图像。起初,艺术家的作品可能显得粗糙、不真实。判别器则像艺术评论家,严格审查这些作品,指出是否真实合理。
艺术家会根据评论家的反馈不断调整自己的作品,努力提高质量。在这个过程中,艺术家的画作逐渐变得更加真实,几乎与真实图像无法区分。
生成对抗模型示意图
扩散模型是一个去噪过程。
一张“正常”的图片是符合几何规律和物理规律的,不是散乱的。这些有规律的图片只占图像空间的极小比例,分布在一个曲面上,这个曲面称“流形”。在这个曲面上的图片看起来就是正常的,不在这个曲面上的图片就是杂乱的。
扩散模型示意图
扩散模型的策略就是从一张杂乱的图片开始,一点点接近正常图片所在的那个曲面,展现出的视觉效果就是一点点去除噪声,得到一幅清晰的图片。
扩散生成一个图像
3. 生成一张图有多难:天文数字的组合空间
不论是哪种模型,都需要大量数据来训练。然而,哪怕是最大的数据库,对于图像空间来说,也是极为有限的一部分。
要理解这一点,我们可以计算一下图像空间的复杂度。以一张100万像素的图像为例,每个像素由RGB三个值(数值范围:0至255)组成,形成256^3 = 16,777,216种颜色可能。对于整张图像则有(256^3)^1,000,000种组合,这是一个天文数字。
4. 人工智能模型:学习规律而不是记住样本
相较于如此庞大的组合空间,我们可用来训练模型的样本数量就显得微不足道了。这意味着,人工智能必须想办法从有限的样本来“洞察”整个视觉世界。
显然,死记硬背那些见过的训练样本是不够的,人工智能模型必须学会从有限的样本那里总结出现实世界的规律,再用这些规律来“猜测”那些没有见过的图片的样子。
好在现实世界中的基础规律并不复杂,比如人有两个眼睛,一个嘴巴,一个鼻子和两个耳朵等。当模型学习到大量的人像的样本后,是能够在一定程度上学会这些规律的。数据量越大,这些规律学的越好,生成的图片越真实。
这是为什么现在的AI模型可以生成逼真图片和视频的原因。包括新闻中出现的那个小孩,生成效果总体上是非常不错的,不然也不能以假乱真。
5. 为何总是手出破绽?
那么,为什么整体看起来很真实的图片,却出现了“6根手指”的破绽呢?
这是因为面部特征的位置关系较为固定,是较为明显、确定的规律,且在训练数据中大量出现,因此AI容易把这些规律学到。
相反,手的姿势变化多端,规律性不明显,而且往往被遮挡,在训练数据中出现不多。两个原因叠加在一起,造成AI模型难以把“手”的规律学明白。规律学不清楚,当然就会生成各种违反常理的“AI之手”。
AI画“手”
6. “6根手指”不是唯一的破绽
“先学习,再生成”,这是AI的基础原则。那些细节的、不常见的规律很难学到,生成就会出现各种破绽。
基于这一原则,我们可以发现更多破绽。
例如,人的皮肤细节也是很难学的,因为涉及到复杂的局部纹理。图片中AI小孩的皮肤细节给人的感觉就十分的“AI”。
再就是各部位的比例也是AI很难把握的,因为不同的视角之间的几何关系也很复杂。图像中小孩的左右手的比例也存在问题。
此外,如果图像分辨率够高,我们还可以放大观察眼睛的细节,例如瞳孔和毛细血管等。
类似的,毛发的细节、光影的变化、风吹头发与树叶的摆动在方向上的一致性等等。这些都是细节的物理和生理规律,也是AI容易露出马脚的地方。
上:眼角和眉毛在几何比例上失真;
下:双眼差异较大;
眼球光反射失真
当然,随着技术的发展和数据量的增加,模型对细节的把握能力越来越强,生成的图片将越来越逼真,这些破绽也会越来越少。
7. 用AI打败AI
如果不是刻意查看,人眼是很难发现伪造线索的。为此,人们研究了各种用于鉴伪的AI,试图用AI打败AI。和人眼不同,AI可以通过学习发现很多细微之处的破绽,比人要强很多。例如,Buffalo大学就推出了一个基于双眼特性的检测工具。
美国Buffalo大学研究者推出的基于双眼特性的检测工具
8. 不只是技术问题
随着伪造技术的进步,即便使用AI,鉴伪的压力也会越来越大。这是一种“矛与盾”、“攻与守”的关系,守的一方总是被动的。
防范AI图片、视频的泛滥绝不只是技术问题,而是人的问题。生成AI内容的是人,传播AI内容的是人,从中获益的也是人。
应该建立更为严格的AI标识制度,严惩利用AI内容传播虚假信息的人。在这次新闻事件中,始作俑者打着传播正能量的旗号,用AI欺骗读者,博取流量,更加恶劣。
不论到什么时候,假的就是假的,“善意”的造假也是造假,何况这里的“善意”还要打上引号。
等你来答
你对AIGC有了解吗?
还有什么方法识别AI生成的图片?
快来戳下方参与回答:
只要你的回答够认真,
就有机会获得腾讯新闻推荐,
让更多人看到!
点击卡片关注,星标🌟腾讯新闻
知天下事、答天下问
辛苦客官点点“在看”👇🏻