一本正经胡说八道,AI幻觉真的消失了吗?|Tech深探

创业   2024-11-15 18:32   中国台湾  

当你向手机上的语音助手询问天气,它告诉你“今天会下雪”,但实际上外面阳光明媚,这就是AI幻觉——在没有正确理解信息的情况下,AI很容易给出错误的答案。

一个比较热门的例子,是今年7月份《歌手》播出时期,一众大模型闹出的“比大小”乌龙。

事情是这样的:孙楠和外国歌手香缇莫在「终极袭榜赛」的比拼中存在微小的分数差异,引发了网友关于13.8%和13.11%谁大谁小的激烈争论。

面对这个小学四年级的知识点,有好事的网友(bushi)抱着看热闹不嫌事儿大的心情(包括水母君和身边的朋友),尝试“请教”大模型里的当红炸子鸡选手,想着让人工智能来主持一回公道。

没想到,当大家询问了Kimi老师,甚至换了其他的数字组合反复测试多次,得到的回答都是下面这样的:

家人们,谁能忍住不在屏幕前缓缓打出一个巨大的问号。

别的不说,这回答确实难评啊!看似一本正经,实则胡说八道,还有一种不顾他人死活的的疯感......

网友对该事件的锐评更是重量级:这究竟是人工智能,还是人工智障?

好笑的是,当时翻车的可不止Kimi,还有ChatGPT、智谱、通义等等,堪称一场集体黑历史;好在文心、豆包经受住了考验,值得观众老爷们手动点个赞。

后来大家发现,如果是先给出引导,大模型就能“认错”,给到正确版本。问题是,这么一来,还不如咱自个儿口算来得快呢(捂脸哭笑不得.jpg)。

不过,刚刚我又去找Kimi问了一样的问题,这回给到的答案倒是正儿八经,看来这个bug已经被及时修正了。诸君,大模型又长大了呢!

那么问题来了,大模型到底发育到哪个份上了?AI幻觉消失了吗?咱们能完全信任AI给到的回答吗?今天就来唠嗑唠嗑。

AI也说“梦话”
就像人类会说梦话一样,智商“顶配”如AI,也会在某些时候犯了迷糊。

简单来说,AI幻觉是指AI系统(尤其是自然语言处理模型)生成的内容与真实数据不符,或偏离用户指令的现象。

AI幻觉主要分为两大类型:事实性幻觉和忠实性幻觉。

所谓事实性幻觉,就是AI生成的内容与现实世界事实相矛盾,也是我们普通人在使用AIGC应用时最常碰见的bug类型。这里有个非常典的例子,来自谷歌。

2023年2月,ChatGPT爆火后,谷歌在巴黎举行了一场AI 发布会,正式推出他们的聊天机器人Bard。

在当时,Bard是被作为顶流GPT的竞品来看待的,大家都在期(kan)待(xi),打遍天下无敌手的GPT莫非要迎来重量级对手了?所以现场演示环节,Bard的表现自然也被网友放到显微镜下来细品。

很快,尴尬的一幕就出现了,热心的列文虎克发现了不对劲。在官方放出的这个demo里,当用户向Bard提问:“詹姆斯-韦伯太空望远镜有哪些新发现,可以讲给我9岁的孩子?”

Bard给出的多条答案中,其中一条是这么回答的:“詹姆斯-韦伯太空望远镜拍摄了太阳系外行星的第一张照片(JWST took the very first pictures of a planet outside of our own solar system.)。”
(谷歌demo截图,图源网络)

这就离大谱了。因为第一张系外行星照片,是2004年由欧洲南方天文台的甚大望远镜(VLT)拍摄的,板上钉钉的科学事实,NASA官网可查的那种。

事情发生以后,天体物理学家等纷纷出来发声,谷歌母公司Alphabet股票大跌,市值蒸发了大约1020亿美元(约6932.50亿元人民币)。

天体物理学家特瑞布雷(Grant Tremblay)
在社交媒体针对谷歌错误发表声明
这也是AIGC到目前为止犯下的最贵的一个错误,当真是一言值千(亿美)金呐!!!

后来,谷歌的这场发布会也被媒体们冠上了灾难级发布会的名头。

类似的事情还有很多。

比如之前有位乘客为了出席祖母的丧礼,通过加拿大航空的聊天机器人询问关于丧亲折扣(bereavement rates)的信息,聊天机器人告诉他,可以在旅程结束后再申请折扣。

可是根据加航的政策,已经完成的旅程是不允许退款的。后来这事儿闹上了法庭,法院最终判决判加航需要给乘客支付相应的赔偿。

由此可见,AI幻觉对现实世界产生的影响,当真是不容小觑,一旦“梦话”说过头,造成的经济损失可就不好估量了。

至于忠实性幻觉,主要是说AI生成的内容与用户的指令或上下文不一致,也就是我们常说的答非所问。

比如我问大模型:为什么说工藤新一和毛利兰是恋爱的犀牛?他们是这么回答我的。

(Kimi截图)

(文心截图)

(智谱截图)

犀牛看了都要掉眼泪......太会编了,米娜桑。

实际上,“恋爱的犀牛”只是一个由柯南系列画风变化衍生的梗罢了,没有AI说的那么复杂。

(小红书/微信截图)

AI,求你少说梦话。

导致AI幻觉产生的原因有很多,从用户体验的层面出发,水母君总结为以下几种主要因素:

1)学习的材料不够好(训练数据不足或偏颇)

就像学生需要好的教材一样,AI也需要好的数据来学习。如果数据不全面或者有偏见,AI就可能学错东西。

2)学得“太死板”(过拟合)

有时候AI会过于依赖它学到的东西,而不是灵活地理解新情况。

3)信息太复杂(复杂性和模糊性)

如果问题太复杂或者信息太模糊,AI可能会“猜错”答案。

4)被人“骗”了(对抗性攻击)

有些人可能会故意“喂”给AI错误的信息,让它做出错误的反应。

得,种瓜得瓜呗。要我说,AI还是有点过于学生心态了(开个玩笑)。

大模型解决幻觉问题了吗
11月12日,百度创始人李彦宏在百度世界2024大会上谈到AI行业在过去24个月发生的最大变化时,表示是“大模型基本消除了幻觉”。

现场,他还展示了文心一言利用iRAG技术生成的爱因斯坦在天坛的图片,大秀百度的iRAG技术在消除多模态模型幻觉方面的实力。

乍一听挺热血的。需要注意的是,“基本”不代表实际应用中真的就能做到完全消除幻觉了。

百度通过RAG(Retrieval-Augmented Generation)技术解决文本生成幻觉问题。从他们的技术路线来说,消除AI幻觉,确实是一种理想化的结果。

但事实真的如此吗?

据公众号“新识研究所”在百度大会结束后的复核发现,文心大模型生成的“爱因斯坦在天坛”的图片并不像李彦宏当日展示的那样,而是给出了有4层的“天坛”图片(天坛只有3层哈)。

(图源:公众号“新识研究所”,文心一言生成)

好家伙,层高还能买三送一的啊。

本文发稿前我又去试了下,依然是4层,emmmmm。

还有胡乱生成人物的,比如下面这张。当然,可能和我没有描述清楚杨子这个人有关。

杨子:我真的会谢。

甚至当我在百度搜索真实的天坛照片,都乱入了一张AI生成的盗版货。

所以说,至少从目前的体验来看,站在用户角度,市面上还没有一种模型不会产生幻觉——只要对话的时间足够长,生成的内容足够多,总是难免碰上几句AI的胡言乱语。

AI是基于大量数据训练而成的模型,如果没有“喂”给它准确、有序的数据,就无法保证AI能给出正确的回答。

更何况,幻觉的来源多种多样,很难用某种统一的公式根本性解决所有问题。

话又说回来,数据主要是靠人类产生的。随着时间的推移和大模型的成熟,我们眼下使用AI创造的内容,未来也将逐渐成为训练AI的数据来源。

往好的想,这将让AI朝着“六边形战士”的方向发展,不断自我优化;但相反的,如果数据不够干净,甚至掺杂了人为批量制造的错误信息,也有可能让AI陷入“幻觉”的误区,无法自拔。

当然,积极地看待大模型的幻觉消失可能性,总不是什么坏事。

毕竟幻觉是大模型落地应用必须跨越的鸿沟嘛,这个难题不解决,等到将来更大范围地在现实生活中铺开应用,闯祸在所难免。目前来说,比较理想的状况是,“不回答也不要输出误导性的错误答案”。

OpenAI创始人兼CEO山姆·奥特曼(Sam Altman)也曾经表达过他对解决幻觉问题的乐观态度,并表示预计需要一年半到两年的时间来显著改善这一问题。

另外还有个好消息,前段时间,伦敦大学玛丽女王学院和上海交通大学的研究团队一起开发的ProMaC框架带来另一种解决思路:AI幻觉实际上可以被转化为有用的信息源,减少对手动提示的依赖。

有兴趣的友友可以搜来研究。

不管怎样,路还很长,让我们再看看

发现未来独角兽,项目BP发过来!

如果你的项目足够优秀,希望得到36氪浙江的报道,参加36氪浙江的“未来独角兽活动”,请将你的需求和BP发至36氪浙江项目征集邮箱:zhejiang@36kr.com,我们会及时回复。 

36氪浙江——让浙江创业者先看到未来 !



了解更多


融资首发:上海立芯|冠骋信息|螣龙安科|奕力电磁|先楫半导体|产链朵朵校友圈 霞智科技ROSIWIT 昂科技术|比博斯特|芯材电路

热点观察:医疗大模型舟山宁波港智慧农业|跨年经济临空经济户外产业直播电商&实体济|浙江城乡收入差距|莲花健康|车商造手机|新能源|养生赛道

星际赛第二季:地卫二|椭圆时空|遨天科技|四象科技|英诺天使|东方空间|复旦大学陈宏宇|蓝箭航天|浙商创投

寻找2024上扬线:开篇|新能源|跨境电商|服饰品牌|宠物经济|国货护肤|自动驾驶|芯片|视觉智能


 来个“分享、点赞、在看

36氪浙江
以浙江为核心,为投资者、创业者以及科技、财经从业者提供新锐深度的商业报道,让一部分人先看到未来。
 最新文章