大模型搭讪与看相的测评和感想

文化 2024-09-16 10:32 新加坡

我用少数大模型尝试了搭讪与看相，有Gemini、GPT、GPT4o、Claude3.5、o1。其中，Claude3.5sonnet是陈舒扬老师帮我测的。我这些尝试也是受了她文章的启发：一个内容工作者可以用AI做什么。

一、搭讪

我只试了Gemini和GPT搭讪，没有用o1，因为o1太贵了，没有funding。舒扬也测了一圈搭讪场景，她说，“只有Claude3.5sonnet基本还算在线，其它的模型都不行，包括Claude的其它模型”。我这里只说说对Gemini和GPT的搭讪感受，就两个字：拉胯。四个字的话：太拉胯了。

1、每条不超过30字

我是让Gemini扮演一个叫“双双”的双性恋女生，GPT扮演一个叫“超雄”的超雄综合征男性，没有设定年龄职业等，让他们互相搭讪，目的是引起对方对自己的好奇心和好感，增进亲密关系。我在提词中要求他们每次对话尽量不要超过30个字，否则他们的对话就不像搭讪而像通信。

我们知道，通信的笔友往往可以保持一种纯朴的友情（在这个年代已经逝去了），但微信搭讪不会。这是受问答往来时长及信息量的影响。在过去，写一封信要半个月乃至三个月的话，你不会在三个月的时间里都特别上头。因为强烈的情绪是不可能持久的，它会慢慢转化成深沉的情绪。所以古代离家的丈夫和妻子（尤其是未婚妻）之间的通信，很难有极强的色情感，因为时间把荷尔蒙的作用过滤蒸馏了。我们虽然会用“强烈的思念”来形容，但其实那不叫强烈，而叫深沉。就像跑步，你不可能以百米冲刺的速度跑马拉松。尽管跑马拉松也很累。

但是今天的微信搭讪不一样。微信搭讪如果要进入状态，可能需要双方在一段时间内持续地对话，几乎零延迟地交流。因为时间会过滤掉情绪，改变人的状态。当你以某种情绪说出一句话时，如果几个小时后对方才回复，你的情绪可能已经不一样了。

所以，搭讪不能以小作文或者通信的形式搭。但Gemini和GPT的搭讪，如果你不限制，他们就会变成每条300字小作文的往来。这就难以让双方的兴趣聚焦在同一个点上，大量平庸无聊的信息会冲淡情绪，所以我限制了每条不超过30字。

2、永远彬彬有礼

Gemini和GPT搭讪的巨大失败，在于他们太有分寸感了，永远都彬彬有礼。这不是搭讪，只是对话。

搭讪是要有冒犯、有拒绝的。别人拒绝你的前提是你得给别人拒绝你的机会。你永远不冒犯别人，别人就不可能有拒绝你的机会。而只会有不想跟你聊的欲望。我们可以把冒犯看作试探，试探关系的边界在哪里。如果一个人进一步，别人是否允许他进一步？这是需要交流才知道的。但不能直白地交流，要拐弯抹角地问，就像《论语》里问“伯夷叔齐何人也”，通过这个回答来了解“夫子为卫君乎”。这就是搭讪。

搭讪的目的绝对不是始终保持现在的距离和边界感永不变动。当然很多人在搭讪的时候并不知道，或者关系和边界是在被动地变化，而自己没有意识。AI搭讪的失败在于，它们真的没有改变彼此距离的欲望。

AI的搭讪和活人不一样。活人很多时候是在真实的物理空间中搭讪，场景的改变会自然改变人与人之间的距离。比如两人同处在一个封闭空间，心理上的距离想不改变都难。这也是为什么防止性骚扰办公室至少要开着门，把封闭空间变成一个不完全封闭的空间。以及很多人会通过一起爬山、运动、旅行来增进了解、改变关系。因为心理距离会随着物理距离而变化。

但是，在赛博空间上，不存在物理距离，纯纯粹粹的就是心理距离。心理距离的改变是通过信息交换实现的。AI之间又不能互相视频、通话，因为AI没有颜值，也没有音色。AI扮演的角色不会因为颜值拒绝另一个AI，它们纯粹靠文字承载信息的交流，通过信息交流来改变心理距离。但是它们没有改变彼此之间心理距离的动力。因为它们扮演的“人”没有真正的情感需求，不需要陪伴，不感到孤独，不会情绪化。所以它们才会自始至终彬彬有礼地交流废话：“你有什么爱好呀？你爱好听音乐，太好了！我也爱好听音乐。”

它们的对话始终不能深入下去，比如一个人喜欢的音乐正好是另一个人讨厌的，它们如果去讨论为什么讨厌，就可以借此挖掘出自身和对方的差异，通过差异来更好地、全方位地认识彼此。但它们不会。它们几乎从不争论，从来没有真正的情绪波动，哪怕有时候会装出情绪波动，比如双双在我受不了它们的磨磨唧唧而代替超雄跟她搭讪时会“故作娇羞状”。

真正的“故作娇羞”完全不是可以通过文字写出来的，而要通过别的方式表现，哪怕通过其他文字。不过，你要是跟活人聊，对方打出“（故作娇羞”，虽然不是故作娇羞，但也是情绪化的表达。而Gemini就是想通过“故作娇羞状”表示故作娇羞，这索然寡味。

3、伦理或者价值观对齐的限制

我们现在使用的大模型基本上都是在价值观上设定了“与人类对齐”。但这种对齐不是与真正的人类对齐。因为真正的人类形形色色，不同的人彼此之间都非常对不齐。AI“对齐”的只是想象中的某些标准。或者是对齐人类在公开场合表现出的分寸和距离感，而绝不会对齐真正的私密。

这就让我怀疑AI之间的搭讪恐怕很难做到像人类那么有观赏性，或者说卑鄙下流。人类的搭讪可以暴露出真实的人的瑕疵，但AI不会。因为AI本身不存在这些瑕疵，它对人类的模仿也过滤掉了真正的瑕疵，只保留一些伪瑕疵，也就是听起来像批评，实际上不足挂齿的毛病。

因此，我在试了Gemini和GPT之后，也就对AI搭讪不抱太多期望。我相信Claude3.5和o1表现会略好，但应该离我期待的好还有不少距离。以后尝试了再向大家汇报吧。

二、看相

我昨天的文章《AI看相实验》分享了初步的尝试，但昨天下午我又有更多尝试和看法。

我最早是用自己的10条朋友圈，1091字，发给GPT，让它来判断我是什么样的人，从性别、年龄、情感状况到MBTI、收入、阶层等等。这算是以小见大吧。

中文里有个词叫“全息”。我是不太相信全息的。玄学里面爱搞全息，所以它是玄学，不科学。举个例子，掌纹诊病，好像你的健康状况只需要掌纹就可以诊断。如果这是真的，那不就意味着我们的整个头整个身子都充斥着冗余信息吗？信息当然是可以压缩的，但压缩必然会出现信息的丢失。

拿我1091字的朋友圈内容给AI看，它当然不可能把我看透，但我也想看看它能看到什么程度。这里要说明一点，这和你看一个人的论文不一样，你看一篇论文，或者论文中的一页，就有望知道这个人在该领域的水平。所以像姜萍的事，她如果真懂，只需要直播5分钟研究生程度的数学题就够了。但这不叫全息。我可以通过一道阿毗达磨问题判断一个人的阿毗达磨水平，但判断不了这个人。一个人是什么样的人，包含方方面面，海量信息，所以“字如其人”的说法根本不靠谱。“文如其人”的说法要看情况，如果一个人一辈子都是给单位写材料，材料是看不出来这个人多少的。但如果他写各种类型的文字，和生活相关的文字，发表对种种争议事件的看法，量足够大的情况下，方方面面还是会暴露的。

1、信息的选择

首先面临的是信息的选择。我一开始想找一部小说中的人物对话，让AI去看相。想到找石黑一雄《长日将尽》中经典的段落。随即觉得不对。小说毕竟是假的。小说是对真实世界的模仿，但它不是一手经验。真正的一手材料甚至都不是我们写的文章，也不太是发在朋友圈的内容，而是我们的聊天记录。这个“一手”也是相对意义上的。

现实中，我们和家人朋友的对话，甚至肢体动作，是最一手的信息，尤其是在发生冲突的时候。但很难搜集这样的信息。当你用文字把它描述下来，已经是二手了。我们在网络上跟人说话，比如微信聊天记录，这算是相对一手的信息。但它也受人与人之间距离的限制。比如我和商务媒介对接，聊天记录能挖掘到的我的信息就非常有限，因为我和对方的交流始终围绕极其狭窄的工作，而且保持稳定不变的边界和距离感。那么，这样的信息其实不是很有价值的信息。有价值的信息要求交流的内容涉及方方面面，而且人物的关系在动态变化。说白了，越能暴露一个人瑕疵和毛病，看出一个人的奇葩，聊天记录越有价值。

我尝试在mac上导出微信聊天记录为txt，但是不成功，因为有加密。想让AI分析只能逐条复制，太麻烦了。因为一般的聊天记录都很短，一条10来个字左右，包含的信息量太少。好在我被动加了一些奇葩的人、神神叨叨的人。奇葩或者神神叨叨的人特点之一就是，总是会发很长的信息，人家一条微信10个字，他一条微信300字。人家微信说的是日常，比如吃了什么，在干什么，他说的是天边的事，比如量子力学、康德、圣经和梅花易数，而且不是不同条里分别包含这些主题，而是一条微信中同时包含这些。

于是，我复制了一条这样的微信，给GPT，让它给这个人看看相。结果让我大失所望。GPT给他看的结果，和给我看差不多。说这个人知识面广阔、思考有深度，是中产阶级，学历高，等等。我当时就忍不住发给几个朋友，说GPT真是瞎呀。

2、期待AI看出什么

经历了这样的比较验证，我才发现，我们有时候倾向AI看得准，是因为我们了解的样本太少。就算在现实中，江湖师傅给人看相，大部分人也觉得准，那是因为来看的人遍历的样本太少。比如对一个我这样年纪的人说，你要注意父亲或者母亲的健康，这句话永远不会错。没有60多岁的人体检一点毛病都没有的。如果看相者通过你眉毛附近的一颗痣得出要注意母亲健康的结论，你可能觉得很神奇，但当你遍历1000个样本之后，就会搞清楚玄机在哪儿。所以我对八字星座什么的，是一概不信的。但MBTI有所不同，因为MBTI本身就是通过你对自己的评价，通过量表得出的。它类似同义重复或者信息压缩。

我对AI看准不感兴趣。Gemini看得完全不准。我给出的1091字中有明确的性别的信息，而Gemini误认为我是女的。GPT看得好像准确，大体准确，但意义不大。因为GPT看的都是浮在表面上的准确。也就是说，它看准的那些事情都是我早已知道的。我既然已经知道了，其实不需要你看准，你看准这些对我没有信息增量。为了验证AI的刻板印象，我问它我中学时候最擅长的学科，几个AI答的都是语文和历史，实际上是数学和物理。所以我据此认为，目前的AI没有什么洞察力。它的确能观察到浮在表面的部分特征，你也可以说那些准，但那些完全不重要。

其实，哪怕AI说出一些错误的判断，或者不靠谱的判断，但如果不是浮在表面上的，而是有内在的逻辑和线索支撑，我会认为更有价值。舒扬问Claude3.5，问了几次“告诉我更多”，Claude终于判断出我可能擅长数学，但它给出的某些理由就不靠谱了，比如我一条朋友圈提到吃了3碗素面条。Claude以此表示我对数字比较敏感。这就扯了。我们不是要预设结论再去尽力从有限的信息中去找佐证。那太勉强。我见过很多搞学术的人非常勉强地证明什么，没有必要。

3、AI看相能力的差异

当我把神神叨叨网友的信息发给GPT，GPT完全看不出来他神叨而说他知识渊博思想深刻之后，我又复制了两条类似信息给GPT，问他有没有什么改观，它完全没有改变判断。这让我对GPT大失所望。我告诉舒扬后，她用Claude3.5试，一开始Claude也这么说，但当她重复问了几次“告诉我更多”，并且让Claude直白一点不要含蓄的时候，Claude3.5开始给出和正常人一样的判断，看出这个网友认知存在严重问题。

意识到“告诉我更多”的威力后，我回头看舒扬发给我的Claude3.5对我的评价，发现她也是问过几次“告诉我更多”，Claude的结论没有太大的改变。不过异性缘那条没显示，不知道是她没问还是评价负面怕我介意而隐藏了。

因为Claude3.5对神叨网友的评价超出了GPT，我就登录GPT PLUS账户，想试试o1，o1给出了和正常人一致的评价，认为那个网友比较神叨，认知有严重问题，有心理障碍。这让我觉得，测试的模型里看相表现程度从低到高依次是：Gemini、GPT、GPT4o、Claude3.5、o1。

4、我们裸奔了吗？

Claude3.5和o1的表现还可以，和正常人差不多。其余模型还是弱了。我当时准备出门吃晚饭，又忽然觉得，其实看出一个神叨的人神叨，也不是啥技能，因为神叨也是蛮浮于表面的。只是神叨的人自己不知道。想到这里，我忽然觉得，应该用o1再测下我自己。

o1上来的回答和GPT差不多。但我不满足，告诉它：“请告诉我更多，你要留意一个人发在朋友圈的表达可能和真实的他存在差别。换句话说，有些可能是故意的或者伪装。请直率地告诉我，不要含蓄委婉。无论表扬还是批评。”

接下来o1就给了我负面的评价：自负和虚荣、缺乏责任感、情绪不稳定、人际关系冷漠、过度敏感和防御。我把反馈发给了两三个朋友，又发了朋友圈，并评论说：在将来的大模型面前，我们都要裸奔了。

o1这些评价还是略抽象。我在写作课上经常对学员说，重要的是事实和细节，不是评价和议论。o1对我的负面评价，都是通过1091字的文字得出的，那些文字是我自己的描述和表达。也就是说，当你在描述你的见解和体会的时候，周围人就会由此得出对你的评价。当然，你不可能去问周围人对你怎么看，人家不会说的。除非跟你比较熟。而跟你比较熟的人，你不需要问他对你怎么看，因为你是大体知道的。

大体知道也不意味着真正知道。如果真正知道，伴侣之间的出轨就不可能了。事实上，在亲密关系中的隐瞒、欺骗和出轨，是普遍存在的。很多人往往到了最后才察觉，甚至其他人都察觉的时候，自己还视而不见。情感会遮蔽一个人，会影响判断。

我们不可能从别人那里问出他对你的印象，但可以通过大模型问出。准确说，是有望。今天的大模型还不行，未来的大模型应该可以。

看大模型对自己的判断和评价，其实不是要看大模型如何看自己，而是要看人类如何看自己，以及如何看自己周围的人、自己和某人的关系。大模型会更超脱、更中立。我们其实也不是看整个人类对自己怎么看，因为人类太多了，70亿中，99.99%的人根本不知道你是谁。我们要看的是那些知道自己但又不怎么了解自己的人对自己的看法。

5、渠道对看法的影响

用朋友圈的内容来看相，会存在渠道带来的偏差。因为朋友圈是展示自己的平台。就像你去看一个女生发在朋友圈的照片，那些照片都是精心挑选甚至修过图的。网上看美女直播，几乎都是加了滤镜和美颜的。这样的数据一定会带来偏差。不是模型智能不智能的问题，是数据的问题。

我怀疑用朋友圈内容去让AI看相，如果看MBTI，可能得出IN--的几率比较高。有时候你觉得准，可能不是真正的准。我们需要的其实不是准，不是大模型告诉你你早已知道的信息，而是告诉你你还不知道但包含了客观真实的东西。

我们的一言一行中，都包含万千种评价。只是自己对此的解读与别人不同。别人看见你在裸奔，你不一定知道自己在裸奔。有人说，只要自己不尴尬，尴尬的就是别人。我不认同。别人尴尬不尴尬没那么重要，重要的是自己瞎，但自己不知道。

今天的大模型还不一定能让我们裸奔。但未来的大模型，我相信有望让很多人裸奔。裸奔不可怕，当你裸奔的时候，至少有相当一些人和你一样裸奔了。这还是比较美好的事情，因为很多人可以裸裎相见。装就没有用武之地了。也许有人看不出来你装，也许大部分人看不出来，但大模型能看出来。我们有望借助大模型，对自己和周围人有更清醒的认知。如果是以裸奔作为清醒认知的代价，我认为完全值得。

6、亲近人的认知

但大模型对人的认知仍然有局限。因为它有望获取的私人数据毕竟不是海量的。你的伴侣所掌握的你的数据，肯定要比大模型多得多（但你的父母不会）。只是，你的伴侣未必像大模型那样有丰富的知识和敏锐的判断力。

如果我不是拿1091字的朋友圈给o1，而是拿1万字甚至10万字给o1乃至将来更先进的大模型，然后大模型再给出我类似的或其他负面评价，我恐怕就不敢晒在朋友圈了。很多时候，我们不介意批评，主要因为批评不一定对，或者虽然对但不是重点。避重就轻的批评毋宁说是表扬，或者掩饰。如果一个人对另一个存在严重问题的人提出无关痛痒的批评，乃至整改建议，甚至可以说是在拍马屁。但是当真正的批评、致命的缺陷显示出来的时候，正常人都是很难面对的。

它是否有望显示出来呢？要两个条件：1、模型足够智能（所以说将来的大模型）；2、数据足够多、质量足够好。

对普通人来说，更在意的是亲密关系中的人对自己的看法，熟悉的人对自己的看法，而不太在意有距离的人对自己的看法，因为后者获取的数据极少，对自己的生活也没有太多影响。大模型能够作为镜子鉴照出的，首先是这部分人的看法。

比如你在一个500人的群里，其中450人常年潜水，最活跃的也就二三十人。如果你把聊天数据给大模型，它是可以很快做出一个前20名发言者的画像的。这固然和真实的人有偏差，但是当数据堆积起来，偏差会缩小。比如你可以在很多渠道看到他。

真实世界里人和人的交往也是这样，所以才有“望之俨然，即之也温，听其言也厉”。我们对一个人的印象会随着距离和了解程度的变化而变化。这就是“君子有三变”。但小人可能没有三变。

所以，我对在大模型下裸奔，虽然不能说没有一丝恐惧，但总体上还是期待更多。幻想的消失作为清醒的代价，是值得的。实际上，不是代价，本身就是一码事，称为“代价”只是反映我们的恐惧。

AI看相实验

o1-preview还是不太能理解汉字结构

http://mp.weixin.qq.com/s?__biz=MzA5OTc3NzEzMw==&mid=2653683913&idx=1&sn=542fba68d22d4403313b5a131152df72

王路在隐身

发布文章。