作者:肯·马格拉奇;斯里尼瓦桑·拉古拉曼
也许我们会忽视这种体验,认为可以通过更大的数据集或更好的训练来纠正。然而,只要它反映了我们对技术的心智模型的扰乱(例如,我不喜欢它在那里做的事情),这就是需要被承认和解决的问题。
心智模型和反模式
心智模型是用户体验和产品设计中的重要概念,但需要被人工智能社区更广泛地接受。在某种程度上,心智模型经常不会显现,因为它们是我们关于人工智能系统的假设的常规模式。
例如,我们指出了对人工智能生成的代码产生的自满情绪以及将配对编程替换为生成式人工智能这两种做法,我们认为从业者在人工智能编程助手的流行度继续增长时必须避免。这两种现象源于不良的心智模型,未能承认这项技术实际运作方式及其局限性。其后果是,这些工具变得越来越令人信服和“人类化”,我们就越难承认这项技术的实际运作方式和其所提供的“解决方案”的局限性。
当然,对于那些将生成式人工智能投入实际应用的人来说,风险相似,甚至更为显著。虽然这些工具背后的意图通常是创建令人信服和可用的东西,但如果这些工具误导、欺骗,甚至仅仅让用户感到不安,它们的价值和意义就会荡然无存。毫不奇怪,为了解决这些问题,一些立法如欧盟人工智能法案要求制作者将深度伪造内容标记为“AI生成”已经开始实施。
值得指出的是,这不仅仅是人工智能和机器人领域的问题。回顾到2011年,我们的同事马丁·福勒曾写过关于如何构建跨平台移动应用程序可能会产生神秘山谷的文章,“在这里,事物的工作方式大部分类似于…本机控件,但只有足够微小的差异会让用户感到困惑。”
具体地,福勒写道了一些我们认为具有启示意义的内容:“不同的平台有不同的使用预期方式,这些方式会改变整体的体验设计。” 这里要强调的是,对生成式人工智能的应用,不同的背景和不同的用例都伴随着不同的假设和心智模型,这些都会影响用户何时会陷入神秘山谷。这些微妙的差异改变了人对大型语言模型(LLM)输出的体验或感知。
例如,对于希望获取大量合成数据的药物研究人员,微观水平的准确性可能并不重要;而对于试图理解法律文件的律师来说,准确性非常重要。事实上,陷入神秘山谷可能只是一个信号,提示我们停下来,重新评估自己的期望。
转变我们的观念
生成式人工智能的神秘山谷可能令人困扰,甚至是我们希望最小化的问题,但它也应该提醒我们生成式人工智能的局限性——它应该鼓励我们重新思考我们的观点。
在整个行业中已经出现了一些有趣的尝试。其中一个引人注目的人是宾夕法尼亚大学的教授伊桑·莫利克,他认为人工智能不应被理解为优秀的软件,而应被理解为“相当不错的人”。
因此,我们关于生成式人工智能能做什么以及在哪些方面有效的期望必须保持暂时性,并且应该具有灵活性。在一定程度上,这可能是克服神秘山谷的一种方式——通过反思我们的假设和期望,我们消除了技术扰乱或迷惑它们的力量。
然而,仅仅呼吁心态转变是不够的。有各种实践和工具可以帮助解决这个问题。一个例子是我们在最新的Technology Radar中确定的技术,即从大型语言模型(LLM)中获得结构化输出。这可以通过指示模型在提示时以特定格式回应,或通过微调来实现。借助像Instructor这样的工具,执行这一过程变得更加容易,可以更好地使期望与LLM的输出保持一致。虽然可能会出现意外或不太符合预期的情况,但这种技术在一定程度上有助于解决这个问题。
还有其他技术,包括检索增强生成,作为更好控制“上下文窗口”的一种方式。有框架和工具可帮助评估和衡量这些技术的成功,包括Ragas和DeepEval,这些库为AI开发人员提供了关于忠实度和相关性的度量标准。
测量是重要的,LLM的相关准则和政策也同样重要,比如LLM的监管措施。重要的是采取措施更好地了解这些模型内部实际发生的情况。完全解开这些黑匣子可能是不可能的,但像Langfuse这样的工具可以提供帮助。这样做可能会在重新调整与这项技术的关系、转变心智模型并排除陷入神秘山谷的可能性方面产生深远影响。
是机会,而非缺陷
这些工具——作为生成式人工智能工具的寒武纪爆发的一部分——可以帮助从业者重新思考生成式人工智能,并希望建立更好、更负责任的产品。然而,对于更广泛的世界来说,这项工作将保持不可见。重要的是探索如何演进工具链,以更好地控制和理解生成式人工智能,即使现有的心智模型和对生成式人工智能的理解是一个根本的设计问题,而不是我们可以选择忽视的边缘问题。
作者肯·马格雷奇是Thoughtworks首席技术专家办公室的首席技术专家。斯里尼瓦桑·拉古拉曼是Thoughtworks驻新加坡的技术负责人。撰文发表2024年10月24日 MIT Technology Review。