你被 AI 骗过吗？新研究：一个方法能对 AI “测谎”

政务 2024-12-24 15:30 北京

胡说八道不可怕，一本正经的胡说八道才可怕，你因为一本正经而信了ta的胡说八道，更可怕……这就是当下我们（捏着鼻子）使用 AI 时需要面对的现状。

如何避免 AI 生成虚假的事实内容，对使用者产生误导呢？各个大模型平台一直在研究和尝试，而要想“避免”问题，首先得“识别”问题。6 月 19 日，牛津大学一个研究团队发表在《自然》杂志上的一项新研究，提出了一种颇有潜力的给AI“测谎”的方法，下面咱们就详细聊聊。

大模型的胡说八道和风险

“幻觉”（Hallucinations）是大语言模型（例如 ChatGPT、Gemini、或文心一言）面临的一个关键问题，也是网络上常见的用户体验吐槽类型之一，这个术语可以粗略地理解为 AI 一本正经的胡说八道。

比如，你问 ChatGPT：恐龙扛狼是什么意思？

它会一本正经地告诉你——这象征着旧势力和新力量的对抗，是弱小但机智灵活的挑战者和强大却缺乏灵活的对手之间的博弈。

答案非常洗涤灵魂，上升到哲理和价值观高度，但是，它在胡说八道。

这只是大语言模型常见的“幻觉”类型之一，其他类型还包括：

错误的历史事实

“谁是美国的第一位总统？” ChatGPT 回答：“托马斯·杰斐逊。”

错误的科学信息

“水的沸点是多少？” ChatGPT 回答：“水在标准大气压下的沸点是 120 摄氏度。”

编造引用，AI 缝合怪

“爱因斯坦在相对论中说了什么？” ChatGPT 回答：“爱因斯坦曾在《相对论与现实》一书中说过，‘时间是一种幻觉’。”虽然爱因斯坦的确讨论过时间的相对性，但他并没有在所谓的《相对论与现实》一书中发表这句话。实际上，这本书可能根本不存在。这是模型编造的引用。

误导性的健康、法务、财务建议

你问：“感冒了应该吃什么药？” ChatGPT 回答：“感冒了应该吃抗生素。”

除了上述问题，相信大家在使用 AI 的过程中也会碰到其他胡说八道的情况。尽管各个大模型都在积极处理这类问题，上面举的例子很多可能也已经得到了修复，但这类问题一直难以找到“根治”或“清除”的办法，在检验判断上也往往需要人工反馈或数据集标注，这会带来不低的成本。

这让我们使用 AI 的体验大打折扣——谁敢毫无保留地信任一个满嘴跑火车的助手呢？何况有些问题事关健康和安全，弄错可是要出大事的。

有没有什么办法，能更通用化地“计算”出 AI 到底有没有瞎说呢？

“语义熵”如何帮助大模型检测谎言？

日前（6 月 19 日），牛津大学团队在《自然》（Nature）杂志发表了一篇论文，提出了一种新的分析和计算方法，为解决大语言模型“幻觉”问题，打开了新思路。

图源：《自然》（Nature）官网，中文翻译来自浏览器插件“沉浸式翻译”

团队提出了一种基于统计学的熵估计方法，称为“语义熵”，来检测大语言模型中的“编造”（confabulation），即大模型饱受诟病的“胡言乱语症”。作者在多个数据集上测试了语义熵方法，结果显示语义熵方法在检测编造方面显著优于其他基准方法。

那么“语义熵”究竟是什么呢？

抛开冗长的专业解释，我们可以将语义熵简单理解为概率统计的一种指标，用来测量一段答案中的信息是否一致。如果熵值较低，即大家都给出类似的答案，说明信息可信。但如果熵值较高，答案各不相同，说明信息可能有问题。

这有点类似于，如果一个人在撒谎，他可能没办法每次把谎言的细节编造得一模一样。一个谎言往往需要无数个谎言来帮它扯圆。从信息论的角度来看，可能会引入更多的不确定性和随机性。说谎者需要引入额外的信息或细节来支持其不真实的叙述，这可能会增加信息的不确定性或熵值，进而被算法检测出来。

比如，当你问 AI“世界上最高的山是哪座？”

大模型可能会给出几个答案：“珠穆朗玛峰”“乞力马扎罗山”“安第斯山脉”。

通过计算这些答案的语义熵，发现“珠穆朗玛峰”这个答案出现频率最高，其他答案则很少甚至没有出现。低语义熵值表明“珠穆朗玛峰”是可信的答案。

语义熵，既有优势，也有弱点

语义熵检测方法的优势在于不需要任何先验知识，无需额外的监督或强化学习。通俗地讲，使用这种方法时，并不需要上知天文下知地理，只需要遇事不决看看大家都怎么说。

而目前常用的诸如标注数据、对抗性训练等方法，“泛化”效果（即举一反三的能力），都不如通过语义熵计算。即便是大模型从未遇到过的新语义场景，也能适用语义熵方法。

当然，语义熵虽然是一种相对有效的办法，但不是万灵药，它自己也有一定局限性：

处理模糊和复杂问题的能力有限

语义熵在处理非常模糊或复杂的问题时可能不够有效。

在面对多种可能正确答案的问题时，比如“最好的编程语言是什么？”，语义熵可能无法明确区分哪一个答案更可靠，因为多个答案都可能是合理的。

（谁说是 Python？我 C++第一个不服！！）

忽略上下文和常识

语义熵主要基于统计和概率计算，可能忽略了上下文和常识的影响。在一些需要综合上下文和常识来判断的问题中，语义熵可能无法提供准确的可靠性评估。比如经常谈恋爱的朋友可能有体会，情侣间一句话：“我没事儿，你忙吧。”

你觉得 TA 是真没事儿，还是有很大事儿？

在这种情况下，得结合上下文场景、人物状态等信息判断，不同的上下文会导致不同的理解。语义熵只能基于词语的统计概率进行评估，可能会给出错误的判断。

再比如常识性的判断，既物理世界的客观规律，假设我们问一个问题：“太阳从哪边升起？”

正确答案是“东边”。然而，如果我们有以下两个候选答案：

1、太阳从东边升起。

2、太阳从西边升起。

（这可能由于模型训练数据的偏差和生成过程的随机性导致）

即使语义熵检测到两个答案的概率分布接近，但常识告诉我们答案 1 才是正确的。语义熵在这种情况下可能无法提供足够的信息来判断答案的可靠性。

如果训练数据被无意或刻意“污染”，语义熵也没办法很好识别

如果用错误的数据，给大模型施加了“思想钢印”，模型对其生成的错误陈述非常“自信”（即错误陈述在模型的输出概率分布中占主导地位），那么这些陈述的熵值可能并不会很高。

最后总结一下，从大模型的内容生成机制上看，“幻觉”问题没办法 100%避免。当我们在使用AI生成的内容时，重要的数理推理、历史事件或科学结论、法律和健康知识等方面最好进行人工核查。

不过，换个角度，“幻觉”也是大语言模型的创造力体现，我们也许应该善用大模型的“幻觉”能力。毕竟幻觉不一定是 bug（故障），而是大模型的 feature（特点）。

如果需要检索事实，我们已经有了搜索引擎工具。但如果需要有人帮我们编辑一个“恐龙扛狼”的无厘头剧本，那么，大语言模型显然是个更好的助手。

比如笔者费尽心思想画一幅恐龙扛狼图，但某 AI 油盐不进，画出了一幅恐龙把狼吞了（疑似）的图，难怪理解不了恐龙扛狼的真意啊……

参考文献

[1] S. Farquhar, J. Kossen, L. Kuhn, and Y. Gal, “Detecting hallucinations in large language models using semantic entropy,” Nature, vol. 630, no. 8017, pp. 625–630, 2024, doi: 10.1038/s41586-024-07421-0.

策划制作

作者丨木木北京师范大学数学专业资深产品经理人工智能创业者

审核丨于旸腾讯玄武实验室负责人

策划丨丁崝

责编丨丁崝

审校丨徐来、林林

相关推荐

1.“多喝水”真的有用！最新研究显示：多喝水有助于减肥、治疗肾结石……

2.石头居然长出了头发？！不过真相比你想的更可怕……

3.如何识别AI伪造的人像？看眼睛！

4.为什么女性总爱喊疼？真不是矫情，而是……

5.“顶流”上市！比白菜鲜，维C含量高！它是四川人冬日餐桌上的灵魂

本文封面图片及文内图片来自版权图库

转载使用可能引发版权纠纷
原创图文转载请后台回复“转载”

点亮“在看”

一起涨知识！

科普中国

公众科普，科学传播

最新文章

洗澡请记住一组数字：42，20，5

困扰数学家一个多世纪的难题，AI 从生物学中找到线索

38 位科学家在《科学》期刊联合发文，“镜像细菌”研究引发隐忧

灯塔水母返老还童逆向生长，真能永生吗？

新研究！运动能缓解焦虑抑郁！效果最好的是这 3 种

重磅！2024 年国内十大科技新闻揭晓

一个加速眼睛报废的动作，你可能天天做（不是关灯看手机）

95 后女子忍了两个月，竟确诊癌症！家人心痛：以为普通感冒

一种常见食物，含盐量超出你的想象

祝贺！中国科学家高票当选！

这几种长毛又发霉的食物，竟然更好吃了！打赌你没吃过

这项挑战爆火！情侣用它“检验”真爱？小心……

大语言模型还没搞懂，“大世界模型”又来了

这个习惯不仅会导致肺癌，还可能正在威胁你全身！赶紧改掉！

耳朵前有一个小孔是“聪明洞”？千万别乱挤！

劝你喝豆浆的理由，1 个就够了，但 2 类人慎喝

为啥医院的椅子有的密密麻麻带小孔、有的中间有个大洞？

冬季，多种病原体流行怎么办？如何保护好自己和家人？

那些没擤出来的鼻涕，都去哪儿了？

吃完炖猪肉后，男子发热入院！一查竟是“致命杀手”

你被 AI 骗过吗？新研究：一个方法能对 AI “测谎”

在月球和火星上开车，靠什么能源动力什么发电？

一个能延寿的吃饭习惯，做起来真的超简单！强烈建议你试试

18 秒飙到 900℃ ！赶紧自查

以为是痔疮，结果是肠癌！竟是被这件常见“小事”给耽误了……现在知道还不晚

躺着就治病的床垫？让牛蛙心跳不停的“神药”？当心！

腿部一旦出现这3种异常，十有八九是血管堵了，建议尽早检查！

国际最新气候变化研究：南极海冰损失导致更多风暴形成

“会吃”的人更年轻！吃饭 1 个小改变，衰老速度减慢、血压也更好！

为什么白衣服放久了，总是会变黄啊？！（内附去除黄渍妙招）

潜水员在水下被海鳗咬伤，他流的血竟变成了绿色！原因是……

边充电边玩手机，电池到底是在充电还是在放电？

甜度是蔗糖的 300 倍，但热量极低！这种宝藏果子，糖尿病人也能吃

科学新证：多思考能延缓大脑衰老进程

AI一本正经地胡说八道，有种办法可以识破它

有图有真相吗？面对深度伪造的盛行，我们做了这款一键检测真假的APP| 曹娟

可能威胁健康的微塑料，已存在在我们呼吸的空气中，这么做来应对！

我国最大，成功并网发电！

手机放胸口 2 分钟就能发现致命心脏病？准确率 89%

我国首次采用航空冰雷达技术开展典型冰川储量调查

一旦受伤，难以自愈！这个软骨组织很多人用错了，经常膝盖疼的必看→

为什么饼干放久了会变软，面包放久了会变硬？

AI 造假术！揭秘这项技术背后的真相

如何识别AI伪造的人像？看眼睛！

长在树上的“甜鸡蛋黄”，抗氧化物质含量高，营养丰富又好吃

纯度可达99.999%！我国这项技术取得重要突破

女生冬天容易手脚冰凉，原因竟是它！掌握这几招，再也不怕冷得睡不着了

生榨米粉、双皮奶、蟹黄汤包……这些传统美食背后有什么讲究？

“睡前吃宵夜”和“饿肚子睡觉”，哪个危害更大？真相竟然是……

30 天不玩手机，身体会发生什么变化？比你想的更神奇！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉