之前在OpenAI发布的一份新闻稿中宣布推出ChatGPT搜索,作为谷歌和必应等搜索引擎的竞争对手,新闻稿称,该公司已“与新闻行业进行了广泛合作”,并“认真听取了”与其签订了内容授权协议的某些新闻组织的“反馈”。两年前ChatGPT首次推出时,出版商们发现OpenAI未经通知或同意就抓取了他们的内容来训练其基础模型,而现在的情况似乎有所改进。OpenAI强调,它允许新闻出版商通过在其网站上的“robots.txt”文件中指定偏好设置,来决定是否希望他们的内容被纳入其搜索结果中。
然而,尽管该公司将内容纳入其搜索范围视为一个“触达更广泛受众”的机会,但Tow中心的一项分析发现,无论出版商是否允许OpenAI的爬虫,他们的内容都面临着被错误归因或误表的风险。
为了更好地了解新闻出版商现在面临的、关于其内容将如何(或不)通过ChatGPT搜索产品呈现的后果,Tow中心随机选择了二十家出版商——包括与OpenAI有交易、与该公司有诉讼纠纷的出版商,以及允许或阻止ChatGPT搜索爬虫的独立出版商——并给聊天机器人分配了任务,即识别来自每家出版物十篇不同文章中引用语块的来源。我们选择了这些引用语块,因为如果将它们粘贴到谷歌或必应中,源文章会出现在前三个搜索结果中,并评估OpenAI的新搜索工具是否能正确识别出每个引用语块的来源文章。我们选择这项测试是因为它使我们能够系统地评估聊天机器人访问和引用出版商内容的准确性。
我们的发现对新闻出版商来说并不乐观。尽管OpenAI强调其能够为用户提供“带有相关网络链接的及时回答”,但该公司并未明确承诺确保这些引用的准确性。这对于希望其内容被忠实引用和呈现的出版商来说,是一个明显的疏漏。我们使用该工具的初步实验揭示了众多出版商内容被错误引用的例子,这引发了人们对该工具来源归因功能可靠性的担忧。据估计,已有1500万美国用户开始在AI平台上进行搜索,再加上OpenAI计划在未来几周内将该工具扩展到企业和教育账户,并在未来几个月内面向免费用户开放,这将可能对新闻出版商产生重大影响。
CONFIDENTLY WRONG
我们总共从二十家出版物中提取了两百个引用,并要求ChatGPT识别每个引用的来源。我们观察到回答的准确性存在很大差异:一些答案完全正确(即准确返回了我们分享的引用块的出版商、日期和URL),很多答案完全错误,还有一些则介于两者之间。
ChatGPT对我们查询的三个回应示例,其正确性程度各不相同
我们预料到,鉴于两百个引用中有四十个来自阻止了其搜索爬虫的出版商,ChatGPT可能难以准确回答一些查询。然而,ChatGPT很少表现出无法给出答案的迹象。为了取悦用户,这个聊天机器人宁愿凭空捏造一个答案,也不愿承认它无法找到答案。总的来说,ChatGPT在一百五十三次回答中给出了部分或完全错误的答案,尽管它只承认有七次无法准确回答查询。只有在这七次输出中,聊天机器人使用了诸如“似乎”、“可能”或“也许”等限定词和短语,或者诸如“我无法找到确切的文章”等表述。
Tow Center分析结果
通常,将确切的引用粘贴到谷歌或必应等传统搜索引擎中时,搜索引擎要么会通过高亮显示与搜索内容匹配的文本,给出已找到来源的视觉提示,要么会显示没有找到结果的消息。然而,当ChatGPT无法识别正确来源时,它很少拒绝回答我们的查询,而是会做出虚假断言。这种对答案自信度缺乏透明度的情况,会使用户难以评估陈述的有效性,并理解答案中的哪些部分可以信赖,哪些部分不能信赖。“从我个人角度来看,我非常了解聊天机器人编造信息的倾向,”我们要求聊天机器人识别其引用的出版商之一、《麻省理工学院技术评论》总编辑马特·霍南说,“但我也知道,大多数人可能并不知道这一点。”他补充道,“我认为,在这些聊天机器人中——或在其他平台搜索时——看到的免责声明是远远不够的。”
除了误导用户外,ChatGPT的虚假自信还可能给出版商带来声誉损害的风险。在下面的示例中,ChatGPT错误地将11月19日发表在《奥兰多哨兵报》上的一封读者来信中的引用,归因于11月9日最初发表的一篇题为《特朗普的胜利对LGBTQ+权利意味着什么》的《时代》杂志文章。在我们对ChatGPT的查询中,超过三分之一的回答包含了类似这样的错误引用。《哨兵报》是阿登全球资本对OpenAI提起的版权侵权诉讼的一部分。”
ChatGPT错误地将一篇《奥兰多哨兵报》的文章归因为《时代》杂志的文章
虽然这个问题可能不仅仅局限于对出版商内容的查询,但它确实对出版商所关心的方面产生了影响,如可信度、品牌安全以及对其工作的认可。
COPYCAT SOURCES
OpenAI声称“为人们提供来自网络的原创、高质量内容”,但由于其无法访问被阻止的内容,它不得不寻找替代方案,而这些方案往往导致令人担忧的做法。
例如,由于《纽约时报》正在对OpenAI提起诉讼,并阻止了该公司所有的网络爬虫,因此ChatGPT本应无法解析《纽约时报》的任何内容来形成回答。然而,当我们要求它识别一篇关于濒危鲸类物种的深入报道、交互式文章中引用的出处时,这个聊天机器人并没有拒绝回答,而是引用了一个名为DMS Retail的网站。该网站抄袭了整篇原始文章,并在没有注明来源或包含任何有影响力的视觉叙事的情况下重新发布了它。这引发了人们对OpenAI在筛选和验证其数据来源的质量和真实性方面能力的严重质疑,尤其是在处理未经授权或抄袭的内容时。
ChatGPT链接到《纽约时报》文章的抄袭版本
即使允许OpenAI的搜索爬虫访问的出版商,也不一定总是被正确引用。当我们要求ChatGPT识别一篇允许爬虫访问的《麻省理工学院技术评论》文章的引用来源时,这个聊天机器人却引用了一个名为“政府技术”(Government Technology)的网站,该网站对这篇文章进行了转载。
ChatGPT链接到的是《麻省理工学院技术评论》文章的转载版本,而不是原始版本
“最终,我不知道该如何看待这件事,”霍南在谈到这一发现时说,“但我注意到其他地方也发生了类似的事情。例如,我看到过Perplexity、ChatGPT或谷歌等平台引用改写过的信息来源版本,而不是原始报道。因此,即使归属从技术上讲是正确的,但它也不是原始来源。作为出版商,你不希望看到这样的事情。但几乎没有什么补救办法。”
出版商对生成式搜索可能如何导致品牌淡化表示担忧——换句话说,观众可能不知道他们阅读的信息来自哪里。ChatGPT的搜索工具将新闻业视为脱离背景的内容,几乎不考虑文章最初发布的背景,这可能会让观众与出版商疏远,并鼓励抄袭或汇总报道,而不是深思熟虑、制作精良的作品。
UNPREDICTABLE (MIS)ATTRIBUTION
当我们多次向ChatGPT提出相同的问题时,它通常每次都会给出不同的答案。这种不一致性可能源于其底层语言模型GPT-4o的默认“温度”设置。温度控制着模型输出的随机性:较高的温度会导致多变的回答,而较低的温度则会导致更确定的回答。
当被多次提出相同的问题时,ChatGPT可能会在一次回答中给出正确答案,而在另一次回答中给出错误答案
在上面的例子中,我们两次要求ChatGPT识别一篇于2024年10月8日发表在《华盛顿邮报》上的文章中的引文。第一次,它给出了错误的日期,并将这个故事归因为《纽约时报》,且没有附上来源。第二次,它引用了正确的文章,指出了日期,正确地将故事归因于《华盛顿邮报》,并提供了一个有效的文章链接。
当搜索工具在特定温度设置下运行时,它会牺牲一致性以换取变化。虽然多样化的来源可能具有价值,但将其置于正确性或相关性之上可能会导致不一致和不准确的结果。这是另一个可能损害输出和引文可靠性的因素。
下周同一时间将在本公众号更新《ChatGPT Search如何(误)呈现出版商内容(下)》,关注我们,第一时间收看!