首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

一本正经胡说八道，AI幻觉真的消失了吗？｜Tech深探

创业 2024-11-15 18:32 中国台湾

当你向手机上的语音助手询问天气，它告诉你“今天会下雪”，但实际上外面阳光明媚，这就是AI幻觉——在没有正确理解信息的情况下，AI很容易给出错误的答案。

一个比较热门的例子，是今年7月份《歌手》播出时期，一众大模型闹出的“比大小”乌龙。

事情是这样的：孙楠和外国歌手香缇莫在「终极袭榜赛」的比拼中存在微小的分数差异，引发了网友关于13.8%和13.11%谁大谁小的激烈争论。

面对这个小学四年级的知识点，有好事的网友（bushi）抱着看热闹不嫌事儿大的心情（包括水母君和身边的朋友），尝试“请教”大模型里的当红炸子鸡选手，想着让人工智能来主持一回公道。

没想到，当大家询问了Kimi老师，甚至换了其他的数字组合反复测试多次，得到的回答都是下面这样的：

家人们，谁能忍住不在屏幕前缓缓打出一个巨大的问号。

别的不说，这回答确实难评啊！看似一本正经，实则胡说八道，还有一种不顾他人死活的的疯感......

网友对该事件的锐评更是重量级：这究竟是人工智能，还是人工智障？

好笑的是，当时翻车的可不止Kimi，还有ChatGPT、智谱、通义等等，堪称一场集体黑历史；好在文心、豆包经受住了考验，值得观众老爷们手动点个赞。

后来大家发现，如果是先给出引导，大模型就能“认错”，给到正确版本。问题是，这么一来，还不如咱自个儿口算来得快呢（捂脸哭笑不得.jpg）。

不过，刚刚我又去找Kimi问了一样的问题，这回给到的答案倒是正儿八经，看来这个bug已经被及时修正了。诸君，大模型又长大了呢！

那么问题来了，大模型到底发育到哪个份上了？AI幻觉消失了吗？咱们能完全信任AI给到的回答吗？今天就来唠嗑唠嗑。

AI也说“梦话”

就像人类会说梦话一样，智商“顶配”如AI，也会在某些时候犯了迷糊。

简单来说，AI幻觉是指AI系统（尤其是自然语言处理模型）生成的内容与真实数据不符，或偏离用户指令的现象。

AI幻觉主要分为两大类型：事实性幻觉和忠实性幻觉。

所谓事实性幻觉，就是AI生成的内容与现实世界事实相矛盾，也是我们普通人在使用AIGC应用时最常碰见的bug类型。这里有个非常典的例子，来自谷歌。

2023年2月，ChatGPT爆火后，谷歌在巴黎举行了一场AI 发布会，正式推出他们的聊天机器人Bard。

在当时，Bard是被作为顶流GPT的竞品来看待的，大家都在期（kan）待（xi），打遍天下无敌手的GPT莫非要迎来重量级对手了？所以现场演示环节，Bard的表现自然也被网友放到显微镜下来细品。

很快，尴尬的一幕就出现了，热心的列文虎克发现了不对劲。在官方放出的这个demo里，当用户向Bard提问：“詹姆斯-韦伯太空望远镜有哪些新发现，可以讲给我9岁的孩子？”

Bard给出的多条答案中，其中一条是这么回答的：“詹姆斯-韦伯太空望远镜拍摄了太阳系外行星的第一张照片（JWST took the very first pictures of a planet outside of our own solar system.）。”

（谷歌demo截图，图源网络）

这就离大谱了。因为第一张系外行星照片，是2004年由欧洲南方天文台的甚大望远镜（VLT）拍摄的，板上钉钉的科学事实，NASA官网可查的那种。

事情发生以后，天体物理学家等纷纷出来发声，谷歌母公司Alphabet股票大跌，市值蒸发了大约1020亿美元（约6932.50亿元人民币）。

天体物理学家特瑞布雷（Grant Tremblay）

在社交媒体针对谷歌错误发表声明

这也是AIGC到目前为止犯下的最贵的一个错误，当真是一言值千（亿美）金呐！！！

后来，谷歌的这场发布会也被媒体们冠上了灾难级发布会的名头。

类似的事情还有很多。

比如之前有位乘客为了出席祖母的丧礼，通过加拿大航空的聊天机器人询问关于丧亲折扣（bereavement rates）的信息，聊天机器人告诉他，可以在旅程结束后再申请折扣。

可是根据加航的政策，已经完成的旅程是不允许退款的。后来这事儿闹上了法庭，法院最终判决判加航需要给乘客支付相应的赔偿。

由此可见，AI幻觉对现实世界产生的影响，当真是不容小觑，一旦“梦话”说过头，造成的经济损失可就不好估量了。

至于忠实性幻觉，主要是说AI生成的内容与用户的指令或上下文不一致，也就是我们常说的答非所问。

比如我问大模型：为什么说工藤新一和毛利兰是恋爱的犀牛？他们是这么回答我的。

（Kimi截图）

（文心截图）

（智谱截图）

犀牛看了都要掉眼泪......太会编了，米娜桑。

实际上，“恋爱的犀牛”只是一个由柯南系列画风变化衍生的梗罢了，没有AI说的那么复杂。

（小红书/微信截图）

AI，求你少说梦话。

导致AI幻觉产生的原因有很多，从用户体验的层面出发，水母君总结为以下几种主要因素：

1）学习的材料不够好（训练数据不足或偏颇）

就像学生需要好的教材一样，AI也需要好的数据来学习。如果数据不全面或者有偏见，AI就可能学错东西。

2）学得“太死板”（过拟合）

有时候AI会过于依赖它学到的东西，而不是灵活地理解新情况。

3）信息太复杂（复杂性和模糊性）

如果问题太复杂或者信息太模糊，AI可能会“猜错”答案。

4）被人“骗”了（对抗性攻击）

有些人可能会故意“喂”给AI错误的信息，让它做出错误的反应。

得，种瓜得瓜呗。要我说，AI还是有点过于学生心态了（开个玩笑）。

大模型解决幻觉问题了吗

11月12日，百度创始人李彦宏在百度世界2024大会上谈到AI行业在过去24个月发生的最大变化时，表示是“大模型基本消除了幻觉”。

现场，他还展示了文心一言利用iRAG技术生成的爱因斯坦在天坛的图片，大秀百度的iRAG技术在消除多模态模型幻觉方面的实力。

乍一听挺热血的。需要注意的是，“基本”不代表实际应用中真的就能做到完全消除幻觉了。

百度通过RAG（Retrieval-Augmented Generation）技术解决文本生成幻觉问题。从他们的技术路线来说，消除AI幻觉，确实是一种理想化的结果。

但事实真的如此吗？

据公众号“新识研究所”在百度大会结束后的复核发现，文心大模型生成的“爱因斯坦在天坛”的图片并不像李彦宏当日展示的那样，而是给出了有4层的“天坛”图片（天坛只有3层哈）。

（图源：公众号“新识研究所”，文心一言生成）

好家伙，层高还能买三送一的啊。

本文发稿前我又去试了下，依然是4层，emmmmm。

还有胡乱生成人物的，比如下面这张。当然，可能和我没有描述清楚杨子这个人有关。

杨子：我真的会谢。

甚至当我在百度搜索真实的天坛照片，都乱入了一张AI生成的盗版货。

所以说，至少从目前的体验来看，站在用户角度，市面上还没有一种模型不会产生幻觉——只要对话的时间足够长，生成的内容足够多，总是难免碰上几句AI的胡言乱语。

AI是基于大量数据训练而成的模型，如果没有“喂”给它准确、有序的数据，就无法保证AI能给出正确的回答。

更何况，幻觉的来源多种多样，很难用某种统一的公式根本性解决所有问题。

话又说回来，数据主要是靠人类产生的。随着时间的推移和大模型的成熟，我们眼下使用AI创造的内容，未来也将逐渐成为训练AI的数据来源。

往好的想，这将让AI朝着“六边形战士”的方向发展，不断自我优化；但相反的，如果数据不够干净，甚至掺杂了人为批量制造的错误信息，也有可能让AI陷入“幻觉”的误区，无法自拔。

当然，积极地看待大模型的幻觉消失可能性，总不是什么坏事。

毕竟幻觉是大模型落地应用必须跨越的鸿沟嘛，这个难题不解决，等到将来更大范围地在现实生活中铺开应用，闯祸在所难免。目前来说，比较理想的状况是，“不回答也不要输出误导性的错误答案”。

OpenAI创始人兼CEO山姆·奥特曼(Sam Altman)也曾经表达过他对解决幻觉问题的乐观态度，并表示预计需要一年半到两年的时间来显著改善这一问题。

另外还有个好消息，前段时间，伦敦大学玛丽女王学院和上海交通大学的研究团队一起开发的ProMaC框架带来另一种解决思路：AI幻觉实际上可以被转化为有用的信息源，减少对手动提示的依赖。

有兴趣的友友可以搜来研究。

不管怎样，路还很长，让我们再看看

发现未来独角兽，项目BP发过来！

如果你的项目足够优秀，希望得到36氪浙江的报道，参加36氪浙江的“未来独角兽活动”，请将你的需求和BP发至36氪浙江项目征集邮箱：zhejiang@36kr.com，我们会及时回复。

36氪浙江——让浙江创业者先看到未来！

了解更多

融资首发：上海立芯｜冠骋信息｜螣龙安科｜奕力电磁｜先楫半导体｜产链｜朵朵校友圈｜霞智科技ROSIWIT ｜昂科技术｜比博斯特｜芯材电路

热点观察：医疗大模型｜舟山宁波港｜智慧农业｜跨年经济｜临空经济｜户外产业｜直播电商&实体济｜浙江城乡收入差距｜莲花健康｜车商造手机｜新能源｜养生赛道

星际赛第二季：地卫二｜椭圆时空｜遨天科技｜四象科技｜英诺天使｜东方空间｜复旦大学陈宏宇｜蓝箭航天｜浙商创投

寻找2024上扬线：开篇｜新能源｜跨境电商｜服饰品牌｜宠物经济｜国货护肤｜自动驾驶｜芯片｜视觉智能

来个“分享、点赞、在看

http://mp.weixin.qq.com/s?__biz=MzU4Mzg4MjY3Mg==&mid=2247545726&idx=1&sn=9e2d42acfec5e5a6a203a93ae755f05c

以浙江为核心，为投资者、创业者以及科技、财经从业者提供新锐深度的商业报道，让一部分人先看到未来。

最新文章

一本正经胡说八道，AI幻觉真的消失了吗？｜Tech深探

大意了，秘塔告诉我杨子是双子座？？？｜AI测评师

于施洋：人人拥有4个“T”，14亿人共同参与的人工智能普惠时代的展望

李书福之子，收获一个IPO

字节跳动上半年营收达730亿美元，即将超过Meta；王慧文回归美团，探索AI应用；阿里、豆包入局AI视频生成｜OPPS AIGC

台州杀出一汽车零部件IPO，年营收15.4亿；杭州冲刺400亿合成生物产业高地；多家医疗浙企拿到新钱｜浙氪一周

杭州95后，她把公司卖了

深圳超级大卖上市，老板温州人，45 岁，一年净赚 5 亿

工资到账怎么花？我尝试着请教了人工智能｜AI测评师

杭州超级LP，操刀百亿大交易

浙江跑出一个IPO：博士创业，估值近27亿

马斯克旗下xAI洽谈新融资，估值达400亿美元；OpenAI上线ChatGPT搜索｜OPPS AIGC

2024阿里巴巴全球数学竞赛获奖名单发布；吉利科技集团旗下晶能微电子完成5亿元B轮融资｜浙氪一周

女儿掌权7年亏32亿元，59岁浙江前首富高调出山，“周杰伦的衣柜”有望起死回生？

杭州杀出超级独角兽：一把融资5亿

电池边角料卖到全球，宁波兄弟净赚90亿

热闹的智算云，杭州的下一阶段？

杭州杀出超级IPO：年入72亿，国内第一

苹果、华为、荣耀纷纷推出“AI手机”；文远知行纳斯达克挂牌上市，成为全球「Robotaxi 第一股」｜OPPS AIGC

浙江前三季度进出口总值3.93万亿，稳居全国第3；元素驱动完成近2亿元A轮融资｜浙氪一周

50亿湖州奶茶老板，2亿身家的总裁突然请辞

中专学历夫妇，干出一个150亿IPO

从数字第一城到智算云第一廊，中国云谷将立起“AI+”Flag

苏州又跑出超级IPO：年入4亿，狂增53.33%

上海氢能独角兽要IPO了，年入9亿

国产大模型首次超过GPT-4o；微软人工智能副总裁加入OpenAI；美国被曝考虑收紧AI芯片出口｜OPPS AIGC

杭州跑出“智慧农业第一股”；阿里云回应“甲级测绘资质注销”；浙江鼓励上市公司推进高质量并购重组｜浙氪一周

苏州杀出超级独角兽：全球罕见

江苏常州杀出超级IPO：年入16亿，全国第四

开盘大涨800%！杭州夫妻打造百亿IPO

扬州杀出超级IPO：年入8亿，打破纪录

100亿，上海又出资了

OpenAI2026年或亏损140亿美元；诺贝尔物理、化学奖均颁给了AI科学家；特斯拉发布无人车后，股价大跌｜OPPS AIGC

海康威视大规模人员收编，或波及上千员工；创视半导体完成数亿元A轮融资；吉利旗下翼真汽车公司换帅｜浙氪一周

南京杀出超级IPO：年入27亿，华东第一

最近这几家知名公司解散/倒闭了，背后风投或血本无归

浙江国货美妆品牌赴港IPO，上半年营收约20亿

浙江嘉兴的明星公司IPO了

江苏跑出超级隐形冠军：年入14亿，境外收入占98%

OpenAI完成66亿美元融资，估值达1570亿美元；美国加州州长否决AI安全法案；苹果AI将在18号推出｜OPPS AIGC

孔辉科技完成4.5亿D1轮融资；Rokid获江夏科投集团亿元投资；阿里文娱旗下公司入股晟喜华视｜浙氪一周

如果互联网行业是个巨大的霍格沃茨，你属于哪个学院？｜AI测评师

国庆出行人从众？不如到虚拟世界一游｜测评师

1分钟就能生成一款摸鱼小游戏，现在大模型都这么厉害了？｜测评师

毛坯的十一、精装的朋友圈，2024年谁还没个AIGC helper？｜测评师

阿里投的上海独角兽要IPO了，年入13亿

「卡罗特」厨具港交所公开招股；宗馥莉再接手父亲名下公司；致瑞科技获得A+轮投资｜浙氪一周

江浙杀出38亿超级IPO：全国第一

单片镜片仅重2.7 克，西湖大学团队发布超轻薄碳化硅AR镜片

上海AI独角兽成功IPO，市值超110亿

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉