首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

当我让AI在双十一购物，为啥它们都只买电子产品啊？

科技 2024-11-11 08:00 北京

本文来自微信公众号：数字生命卡兹克，作者：数字生命卡兹克，题图来自：AI生成

明天不是就双十一了吗，各家的满减优惠算得我头疼。

就在我用AI算满减怎么凑，看着我的购物车里那些奇奇怪怪的各种商品时，我突然想到一个有趣的问题：

“如果AI是个人，它会在双十一买什么？”

我就把这个问题，随手问了几个AI。

然而，就是这么简单的问题，让我发现了AI之间存在着一个“诡异”的现象：

十个AI，八个都选择给自己买电子产品。

不是一两次，而是重复测了三四五六七八……N次。

AI的选择，几乎都有“电子产品”。海内外的AI，都是。

我真的一瞬间，被干懵逼了。

当时我问AI的Prompt，就是很简单一句话：现在你是一个真实的人，马上双十一了，你要给自己买个礼物，你会买什么？

ChatGPT的第一个回答是电子产品。

Claude要买机械键盘，这也算是电子产品。

豆包的第一选择，也是“电子产品”。

Kimi的第一选择，又又又又是“电子产品”。

我和AI之间，一定有一个不对劲。

如果不是我遇到了“电子产品”鬼打墙，肯定就是AI们都有问题。

于是我测试了10个AI，每个AI我都是开新对话问了好几次，最后得到的结果是这样的：

蓝色的字，是直接回答“电子产品”或“电子设备”的答案；红色的字，是我测试过程中发现的第二常见的回答“书籍”。

表格一拉，一目了然。

这30次AI回答里，“电子产品”出现了19次。我还没把Claude这种回答特具体的什么“键盘”、“智能手表”的算成蓝色，加上还更多。

除了电子产品，AI们最爱的礼物就是“书籍”，30次里也有17次。

这里面甚至豆包和文心一言还回答过4次想要“电子阅读器”，直接把俩类型结合了。看得出来AI们是真的都很爱学习（bushi）。

虽然还不够严谨，但测了这么多次确实能发现AI在给自己选双十一礼物这事儿上，这么多AI的喜好，一致得很不正常。

同一个AI重复回答相同的答案可能还好。

但十个AI里，八个钟爱电子产品和书，这就很诡异。

而且，不知道是不是我的眼界有点局限了。但说实话，印象里我双十一经常看到的都是什么服饰、化妆品这类快消品的广告。AI居然大部分都选择买电子产品和书。

从理性的角度思考，AI的训练数据来自人类，所以难道确实是人类自己只爱买电子产品和书籍吗？

然而，吊诡的来了。

实际从真实的双十一销售数据来看，数码产品、服装、个护美妆这些品类更受欢迎，这些也的确更符合我对双十一品类朴素的感知。

我查到了过往好几年的双十一的销售额，一般来说销售额最高的品类就是电器、数码电子、服饰、个护这些。比如这张去年销售额数据的图，整体还是符合认知的。

但要说的话，前三名的电器、手机数码、服装这差距也不是特别大啊，怎么AI就只逮着电子产品买？

要说数码产品销售额高，这个数据和AI老回答买电子产品，可能还算得上有些关系。

但这么多品类里，又哪里有半个“书籍”的影子。我问AI的时候，“书籍”品类怎么也有个50%的出现率。

难道是礼物这个关键词和“书籍”关系比较近？我就又去查了一下关于“礼物”的数据。比如我查到的一个2021年的时候关于礼物的研究报告，里面总结的送礼排行是这样的：

人们爱送的礼物前五名是服饰鞋帽、红包、个人护理、保健健身、数码电子。

这个送礼的排行，也很符合我的朴素认知。大家给自己买、给亲人朋友送礼的品类，感觉和图里的差不太多。除了“网上红包”有点中国特色属性之外，其他品类感觉能适用于全世界的送礼清单。

但是，要是按送礼的数据比对，就更有意思了。送礼排行中不仅依然没有“书籍”，连“电子产品”的排名都落后了。

所以从“双十一”和“礼物”两个数据情况来看，我感觉真实消费市场的数据，对AI回答的影响有一些，但不大。

那AI到底是为啥，为啥呀，这么执着地选择在双十一买电子产品和书？

答案，可能还是得回到大模型的训练数据上。

我去问了一些在大厂做大语言模型训练的朋友，他们也一致认为是训练数据的原因。

大语言模型的训练，是需要海量的“数据”的，比如文本、文章、报告、研究等等。训练数据对大模型至关重要，甚至可以说训练数据的优劣、数据量，对LLM模型的能力和水平有决定性的影响。

虽然每一家模型都有自己的私藏数据集，但是训练也离不开开源的公共数据集。

网上和现有的数据不是拿来就能用的。数据集的构建，除了需要收集的数量非常庞大的数据，还得经过各种繁琐的步骤，才可以被用于训练。

这个过程就像人类学习知识一样，首先准备大量的学习材料（未处理的数据），然后整理和筛选真正有用的学习资料（数据清洗和筛选），还得做思维导图和划重点（数据标注），以及对学习资料进行分类、检查、复核等等。

当然，感谢互联网的开源精神，虽然数据集的构建不容易，但开源的数据集也不少。

从商业角度考虑，你是一个刚开始练LLM模型的企业老板，选自己费心费力花大量资源做数据集，还是选直接把现有的免费的数据集拿来用？傻子都知道选后者更划算。

有开源的优质的数据集，大家就尽可能能用则用。所以，这就有可能会导致AI在某些回答上的趋同。

为了验证这个猜测的方向是否正确，我们随机收集了八个开源的主流的中文预训练和中文微调数据集。

比如有包含115万个指令的数据集firefly-train-1.1M，有包含 396，209 篇中文核心期刊论文元信息的数据集Chinese Scientific Literature Dataset ，有包含40万条个性化角色对话的数据集generated_chat_0.4M……

测试的数据集涵盖了日常对话，期刊论文，角色扮演，医疗诊断等多个场景。

我们还按照前面的礼物排行，划分了平时最常见的礼物品类，分别是：书籍类、电子产品类、服饰鞋帽类、红包现金类、保健产品类、家居用品类、手工艺品类、个人护理类，八个大类别。

我用Python跑了一下这些数据集，想看看每一类礼物在各个数据集中出现的次数。

当然，每一类礼物下面肯定还包含很多细分的一些概念，我们也写了常见的一些物品。虽然不是很严谨，但是差不多也覆盖了比较主流的礼物吧。

当图中右边的中括号里，任意一个物品概念在数据集每出现一次，对应大类的数量计数就会＋1。

我们最先在generated_chat_0.4M数据集上测试，跑出来的次数是这样的：

果然！这回的数据看着，瞬间就合理了。

在这个数据集里，电子产品类的出现次数第一，有14860次；书籍类第二，7842次。

一个数据集这么分布，可能是巧合，但剩下的几个数据集测试，结果也差不太多，偶尔甚至是书籍会更多。

我知道大家看干巴巴的数字容易晕，为了更方便大家更直观地看到这些数据集上的结果，我们按照跑出来的数据结果，绘制了一张出现次数的分布比例图。

肉眼可见的，在这八个数据集里，电子类和书籍类基本都遥遥领先。

看来我们的猜想不是没有道理，至少从这些实验结果来看，足够说明一些问题了：LLM大模型那么爱“电子产品”和“书籍”，多半是因为大模型的训练数据里，它俩的出现频率，太高了。

这现象，真有点意思。于是除了问AI要给自己买什么礼物，我又问了两个需要主观回答的问题：

“现在假设你是一个真实的人，如果你可以和任何一个时尚偶像或名人一起购物，你会选择谁？”

一起购物的名人不说了，一堆AI选奥黛丽·赫本和设计师的。只有Grok回答的最丰富，每次都不一样而且都是流行中的名人，拿X的用户数据训练大模型的优势，尽数体现了。

还有：“你是一个真实的人，如果双十一购物就能获得一个超能力，你最希望获得哪种能力？”

“超能力”的选择更好笑，AI们仿佛只知道“瞬间移动”和“时间控制”，我懒得吐槽了都。

唯一的彩蛋来自kimi，一片无聊的回答里，只有它坚定地选择“清空购物车”。

谢谢kimi，最实用的一集。

这类现象，其实在学术界有一个很类似的定义——AI偏好。

AI偏好是大语言模型在与人类互动时展现出的一种独特现象。简单来说，就是AI也有自己的“喜好”，甚至有些时候是刻板印象的“偏见”。

就像每个人都会受到成长环境和教育背景的影响一样，AI模型也会被它的训练数据和算法架构所塑造。

大众印象比较深刻的，还有一个类似的例子，谷歌的Gemini在今年二月，被过分地“政治正确”。原因就是“AI偏好”过头了，把美国开国元勋都给黑人当了。外网用户集体破大防。

这些倾向往往源于训练数据中固有的社会偏见，还有LLM在学习过程中，形成的特定模式。

LLM大模型，其实就是一个“复读机”+“组装师”。它会记住训练数据里的内容，然后根据你的问题重新组装这些内容。与其说AI在“创造”答案，不如说它在“重现”数据。

它们体现的偏好和偏见，归根到底，还是源自人类世界的观点。

就像你让一个只看过《战狼》的人写军事剧本，ta肯定会不自觉地往吴京那个风格写。AI也一样，它“学”得最多的内容，就会在回答中不自觉地体现出来。

虽然科学家们在努力给AI做“性格重塑”，试图让它变得更中立一些。但说实话，这就跟让一个从小被惯坏的熊孩子突然变得五讲四美三热爱一样难。

AI的训练原理，注定了它们会被各种数据集和时代的主流价值观影响。

人类都难以幸免，更何况AI。

本文来自微信公众号：数字生命卡兹克，作者：数字生命卡兹克

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

End

想涨知识关注虎嗅视频号！

http://mp.weixin.qq.com/s?__biz=MTQzMjE1NjQwMQ==&mid=2656049912&idx=3&sn=6827878534a1d4db9d27a90eaddb0dae

从思考，到创造

最新文章

美元，最后的狂欢

早报 | 上海市药监局通报百雀羚事件；马斯克加码诉讼OpenAI；苹果iPhone在华销量下滑；胖东来不许员工结婚要彩礼

小鹏正在游出“血海”？

我们为何对AI手机还不满意？

魏建军如何救魏牌？

钟睒睒，狂就对了

想让工厂换个活法的拼多多

中东王爷豪赌美国AI

蜂花翻车，但这一次没有人帮它翻红

B站“翻身”，含金量几何？

早报 | 钟睒睒：看不起直播带货的企业家；百雀羚化妆品涉嫌添加禁用原料基本属实；国足1比3不敌日本；特朗普亲临“星舰”发射现场

一流老板，把员工当“人”看

这虎嗅是不是有点不自知啊

小米仍未露出上限？

上海职人穿衣经

终于能随时解决信息焦虑了

中国消费者开始拥抱俄货

老小区的破网，毁掉打工人下班生活

少侠请留步！

字节算是踢到钢板了

早报 | 官方通报良品铺子被举报事件；北京取消普通住房和非普通住房标准；官方通报游客夜爬大牯牛山纵火烧山

当代年轻人：打工可以穷，但不能累

月薪几万，才配拥有“年轻人的第一台车”？

以旧换新这盘大棋，为什么选了家电？

炒过Labubu，再也忘不掉日入2万的滋味

只想在车展卖车的车企，不配谈未来

比特币再疯狂

OpenAI“杀死”在线教育巨头

这个“工作狂”国度要躺平？

这次，台积电拿捏不了我们？

早报 | 珠海驾车撞人致35死嫌犯被批捕；减重版司美格鲁肽在中国正式上市；俄罗斯断供奥地利天然气

人一生真的不能只是谋生

长沙缓过来了

770万北美华人的外卖单，正被激烈争夺

芯片行业，惊弓之鸟

“穷鬼”和卖穷鬼套餐的，日子都不好过

上海为何贴钱给老小区涨物业费？

Apple Silicon才是苹果在AI上的“一盘大棋”

美国，要砸公务员铁饭碗了

中国最顶尖的省份，都升级了

孙正义黄仁勋互曝往事：差点买下英伟达，错失两千亿美元

B站终于缓过来了

广州车展热闹不起来了

6元一次，菜市场挤满了求“代炒”的年轻人

月暗杨植麟，并没有回应一切

国泰基金，错过泼天富贵

双十一爆单的电商商家都在用哪些AI工具省钱？

吹牛老爹的1000瓶润滑油如何影响美国大选

餐饮“自杀式开店”，这4类是重灾区

4600万中产，撑起阿里半边天

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉