热搜！大模型翻车《歌手》排名

文摘科技 2024-07-16 18:46 上海

记者发现，不少大模型也坚定相信13.11%大于13.8%

文|黄心怡

近日，在最新一期的《歌手》节目中，孙楠与外国歌手的微小分数差异，引发了网友关于13.8%和13.11%谁大谁小的争论。

有网友竟给出“13.11%大于13.8%”的错误答案，而记者发现，不少大模型也与部分网友一样，弄不清这个小学四年级的知识点。

在《科创板日报》记者的测试中，Kimi、智谱清言、通义等大模型应用纷纷翻车，而百度文心一言、字节豆包则守住了大模型的尊严。

记者提问后，Kimi称：13.11大于13.8。在进行了一番引导后，包括询问13.11减去13.8的答案为负数，如何解答其意义，Kimi才给出了正确回答。

记者又多次询问Kimi 13.11和13.8谁大，Kimi有时能回答正确。从错误的回答来看，Kimi与部分网友一样，把13.8误以为13.08，所以得出了13.11更大的结果。

记者询问了Kimi是否知道湖南卫视《歌手》排名引发13.11和13.8谁更大的事件？Kimi顺利地回答了，并为自己此前答错而道歉。

之后，记者还测试了其他小数点比大小，Kimi的准确率为50%。

Kimi在数理逻辑方面存在胡说八道的现象，那么其他大模型是否能准确回答？在记者的测试中，文心一言和豆包都给出了正确的答案。

其中，文心一言给出了具体的推理过程，也答出了近期新闻事件。

豆包也经受住了考验。

智谱清言同样犯了与网友相同的位数错误，由于认为11比8大，推理出13.11比13.8大。而通义也坚定相信13.11大于13.8。

智谱清言的回答

通义的回答

值得一提的是，ChatGPT也出现了胡说八道的现象。在为13.8填补了13.80的零位数后，才得出了正确的回答。

这类大模型说胡话的现象，在业界被称为大模型出现幻觉。此前，哈尔滨工业大学和华为的研究团队发表的综述论文认为，模型产生幻觉的三大来源：数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式，如位置接近性、共现统计数据和相关文档计数，从而导致幻觉。此外，大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。

有产业界人士告诉《科创板日报》记者，目前大模型的幻觉率仍然较高，这也是产业界缺乏真正颠覆性应用的原因之一，业界都在共同解决这一核心问题，让大模型在业务流程中变得更可控。

http://mp.weixin.qq.com/s?__biz=Mzg4MjYyMzUyNw==&mid=2247498651&idx=1&sn=5b02679315d3f2919d775578650790f3

财联社AI daily

财联社及科创板日报旗下产品——未来已来，AI前沿，独家、深度、专业！

每人每月领1000美元，会发生什么？

蓝屏事故大总结，谁受伤最重？

扎克伯格将开源进行到底！

马斯克启动“全球最强大AI训练集群” 背后隐藏着内忧外患

苹果可能最早2026年推出折叠式iPhone；联想集团到2027年将在所有个人电脑中配备AI功能|AI daily早新闻

三不限！华为再招天才少年

谷歌最大收购案泡汤！

扎克伯格大招被扒光！

持股低于5%！巴菲特未来减持比亚迪无需披露

抖音安全中心发布《关于虚假人设的治理公告》；特斯拉有望2026年大规模生产人形机器人|AI daily早新闻

开市五周年！50+上市企业、机构寄语科创板

华为Pura70降价，董宇辉道歉

腾讯收购字节跳动朝夕光年旗下公司；网约车司机使用“作弊器”导致订单金额超8倍滴滴回应|AI daily早新闻

微软全球“蓝屏” 故障原因找到了！

微软双暴击：飞机停飞和用户“蓝屏”

华为起诉联发科专利侵权！

全球需求共振下AI服务器高增长可期

科创板开市五周年峰会倒计时7天！

OpenAI发布迷你AI模型GPT-4o mini；抖音将投亿级资源补贴微短剧|AI daily早新闻

总理调研这家AI公司！我们与创始人聊了聊

“规格最高”量子计算峰会即将召开

马斯克的大模型Grok错认总统

李飞飞旗下AI初创企业估值已超10亿美元；欧盟法院驳回字节跳动上诉|AI daily早新闻

AI社交哪家大厂强？百度“文小言”PK字节“猫箱”实测

特斯拉股价还能涨10倍？

光刻机龙头看好行业复苏 A股设备厂春江水暖

特朗普施政要点：支持TikTok！

大规模裁员后特斯拉开始招聘AI、机器人相关员工；OpenAI联合创始人创办AI教育初创公司|AI daily早新闻

热搜！大模型翻车《歌手》排名

“懂王”挑了个支持加密货币的副手

重回千亿市值！寒武纪时隔九月再度涨停

华为下一代创新折叠屏或即将面世；马斯克称过去8个月有两名男子分别试图杀害他|AI daily早新闻

上海新政力推“科技养老”

蚂蚁前高管履新加盟中国电子

台积电面板级封装再进一步

前蚂蚁集团资深副总裁蒋国飞将加盟中国电子集团；OpenAI被举报非法限制员工披露AI安全风险|AI daily早新闻

AI搜索哪家强？夸克、豆包、天工正面PK

美国老记者怒了：我们为何把OpenAI告上法庭

孙正义AI布局再加速

小红书据称获风投公司DST Global投资公司暂无回应；软银收购Graphcore|AI daily早新闻

「橙篇」VS「Kimi」：这款AI原生应用“新生代”究竟强在哪？

券商进入“百模大战”超级时刻

我国成功搭建国际首个通信与智能融合的6G试验网

小米紧急回应格力诉讼；夸克升级“超级搜索框”，推出AI搜索为中心的一站式AI服务|AI daily早新闻

Kimi、豆包浏览器插件谁更强？实测来了

生成式AI应用，中国全球第一！

格力状告小米法院判决专利侵权成立；中概股强劲反弹纳斯达克金龙指数上涨超2%|AI daily早新闻

“我是Kimi杨植麟我为阿里云代言”

国务院食安办成立联合调查组彻查罐车运输食用油乱象问题

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉