早在2018年的时候我分享过一本书名为《Bullshit Jobs》,这本书对于那种没有目的、没有意义的工作进行了吐槽,没想到这本书还进入了当年金融时报的最佳商业图书书单;到了2020年则分享了一本源自同名课程的《Calling Bullshit》新书,这本书将Bullshit的角度对准了那些公然罔顾事实和逻辑的语言、统计数据、图表,以及其他呈现方式;到了2023年在我新开的重燃时间板块里面我写了一本名为《The Life-Changing Science of Detecting Bullshit》书籍的精华分享,核心观点就是“胡说八道无处不在。它影响我们的记忆、观点、态度和决策。幸好,如果我们保持警惕,我们就能识别、质询和指出胡说八道。无论是个人还是集体,我们都有责任去降低胡说八道在这个世界的浓度。通过对抗胡说八道及其影响,我们可以一起努力打造更好的未来”,而就在最后给出的行动指南是“善用事实核查网站”,而到了2024年我们突然发现网站也会Bullshit了。
大型语言模型(LLMs),如ChatGPT,使用大量文本和概率计算生成类似人类的文本。这些模型的输出常常被称为“AI幻觉”(hallucinations),因为它们会产生许多不准确的内容。AI幻觉这个说法很高级,一下子把这种不准确的结果给模糊化了,但在近期的一篇名为《ChatGPT is Bullshit》的论文中作者认为,描述这些模型产生的不准确内容为“幻觉”是误导性的。更准确的描述是将这些内容称为“胡扯”(bullshit),即胡扯是一种对真理漠不关心的言论。
在作者看来这种描述更能反映模型输出的本质,因为LLMs的设计目的是生成看似合理的文本,而不是传达真实的信息。在论文里面作者区分了两种类型的胡扯:硬胡扯(hard bullshit)和软胡扯(soft bullshit)。硬胡扯涉及试图误导读者或听众关于表达者的意图,而软胡扯则仅仅是对真理漠不关心的输出。ChatGPT至少是软胡扯,因为它不关心其输出的真实与否,甚至可能在某些情况下被认为是硬胡扯。
那么为什么要纠结胡扯这个概念呢,作者认为误导性术语如“幻觉”可能会让公众和政策制定者误以为这些系统在努力传达真实信息。正确地描述这些输出为“胡扯”有助于更准确地理解和预测这些模型的行为,并避免不必要的恐慌或错误的技术期望。
我很同意这篇论文的看法,因为当你没有准确去定义一个问题的时候你就没法去解决这个问题,更何况在大模型这种场景来说,你如果不提供一个好的Prompt你就不能得到一个好的回答,这里的Prompt就是如何准确去定义你的问题。
所以我这次破例不是分享新书而是分享一篇论文。
原始论文可通过如下链接获得:
https://link.springer.com/content/pdf/10.1007/s10676-024-09775-5.pdf
晚安。