人工智能辅助决策的三大挑战

学术   2024-11-19 18:34   北京  

Abstract人工智能(AI)有可能通过提供决策建议和与问题相关的信息来帮助人类决策者来改善人类决策。然而,充分实现人类与人工智能协作的潜力仍然面临一些挑战。首先,支持互补性的条件(即,在人工智能辅助下,人类的表现超过无辅助人类的表现,或者孤立的人工智能)必须被理解。这项任务要求人类能够识别应该利用人工智能的情况,并开发新的人工智能系统,这些系统可以学习补充人类决策者。其次,必须准确评估人工智能的人类心智模型,其中包含对人工智能的期望和依赖策略。第三,必须了解人机交互的不同设计选择的影响,包括人工智能辅助的时机和应呈现给人类决策者的模型信息,以避免认知超载和无效的依赖策略。为了应对这三个挑战,我们提出了基于最近的实证和理论发现的跨学科视角,并讨论了新的研究方向。

Keywords人工智能辅助决策、人机协作、建议采纳、心智模型、人机交互

在过去十年中,人工智能(AI)越来越多地被用于在各个领域帮助人类。现在,通过SiriAlexa等数字AI助手,可以自动执行简单的任务。人们依靠先进的驾驶辅助系统来改善他们的驾驶体验。媒体平台上的推荐系统提供个性化的播放列表,包括用户最喜欢的内容和他们可能喜欢的新内容。将人工智能融入人们的日常生活有望节省人类精力,避免人类决策的盲点,并有可能挽救生命。然而,许多挑战困扰着人类与人工智能的协作。部署的人工智能系统因传播系统性偏见而面临公众审查(Gebru2020;Raji&Buolamwini2019),不能很好地泛化到训练数据之外的示例(Shenetal.2021),并针对用户参与度进行了优化用户福祉的成本。这些问题源于这些人工智能系统与人类用户的目标和价值观缺乏一致性(Christian2020;加布里埃尔,2020年)。创造符合人类价值观的人工智能,以及期望,研究人员需要指定反映人类价值观的效用功能,这仍然是一个挑战。在目前的形式下,人工智能无法独立做出准确、可接受和公平的决策。因此,在做出决策时,除了人工智能的计算之外,还要考虑人类决策者(DM)的专业知识和反馈,这一点至关重要。

在本文中,我们将重点关注与人工智能辅助决策相关的一系列挑战,其中人工智能以预测和/或解释的形式提供帮助。做出最终决定的人类DM。例如,已经开发了人工智能系统来协助专家进行临床诊断(Rajpurkar等人,2020;Sayresetal.2019)、金融(Bussmannetal.2021)和司法(Grgic'-Hlacˇaetal.2019)决策,和预测(Benjamin等人,2023年)。关于人工智能辅助决策的文献越来越多,涉及多个学科和研究领域,包括人机交互、人工智能和机器学习和心理学(Lai等人,2021年)。

我们没有对这些文献进行系统回顾,而是综合了一些已经出现的见解,专门关注人工智能辅助决策的绩效相关方面。具体而言,我们研究了当人工智能协助人类DM完成独立任务时影响决策准确性的三个主要挑战。首先,我们讨论了开发可以补充人类DM能力的AI的必要性。当熟练的人工智能助手被整合到决策过程中时,人类必须对人工智能的能力有很好的理解,并且约束。其次,我们强调了人工智能精确的人类心智模型的重要性。只有当个人知道如何利用这种支持来提高人类-人工智能团队的绩效时,人工智能援助才能充分发挥其潜力。第三,我们讨论了在人类和人工智能协同工作的不同工作流程中开发有效的人与人工智能交互方法的挑战。这包括确定何时需要人工智能援助,提供哪些信息,并考虑人工智能系统适应的必要性人类认知局限性。我们认为,认知建模有助于理解有效利用人工智能信息所面临的障碍。表1包括这三个挑战的真实示例,包括临床决策支持、信用评估和高级驾驶辅助系统,其中人工智能辅助决策正慢慢成为常态。

针对这些挑战中的每一个,我们深入研究了正在进行的跨学科研究,包括实证和理论背景。此外,我们提出了未来的研究方向,以帮助更有效地应对这些挑战。

挑战1:理解人类-人工智能互补的决定因素

人类经常在两个或两个以上的群体中审议问题,并且可以取得比群体中任何一个人更高的表现(Kameda等人,2022年)。之前研究人类之间协作工作的研究表明,绩效的提高通常是由于小组成员之间的互补分工(Stasser&Abele2020年)。将人工智能引入以前只有人类的工作流程,其动机是通过利用人类DM的互补优势来提高决策准确性。人工智能。至少,我们希望在人工智能的帮助下,人类的表现会比在没有帮助的情况下做出决定的人类表现得更好(或至少不差)。许多研究之所以能够达到这一基准,主要是因为它们涉及人工智能向人类提供人工智能建议的情况表现出比仅通过人类表演产生的更高的准确性(Vodrahalli等人,2022;Y.Zhang等人,2020)。在这种情况下,人类可以遵循简单的启发式方法,即始终遵循AI的建议来提高性能。然而,这种情况提出了一个问题,即在没有相关道德的情况下,为什么人类应该参与决策过程和法律考虑。当人工智能辅助的性能不仅超过无辅助的人类性能,而且超过人工智能本身的性能时,就会出现更令人信服的情况。这这种情况被称为互补性BansalWuetal.2021;Steyvers等人,2022年),并指出人类与人工智能的性能优于人类或人工智能单独的表现。尽管一些研究已经显示出关于人类和人工智能的综合性能超过人工智能或孤立的人类(BansalWuetal.2021;Tejeda等人,2022年),其他研究表明,人类DM对这种性能没有贡献,而AI本身的行为会带来更好的性能(冯&Boyd-Graber2019;Green&Chen2019;Lai&Tan2019;Y.Zhang等人,2020)。

为了理解人工智能增强决策导致互补绩效的条件,区分潜在失败的两个不同原会有所帮助互补。首先,重要的是要了解人类DMAI可以独立贡献什么样的信息,以及这些信息是否可以(理论上)引导互补性。例如,Steyvers等人。(2022)确定了在分类领域互补的一些一般条件。调查的重点是成对的分类器:人类-人类、混合人类-人工智能和人工智能-人工智能(特别是两个不同的机器分类器)对。研究结果表明,将人类预测与不同程度的准确人工智能预测相结合的混合人类-人工智能对可以超越人-人或AI-AI配对。只要人类和人工智能预测之间的准确性差异保持在特定阈值以下,就可以实现这种卓越的性能。这个阈值取决于潜在相关性,这表示人类和人工智能预测之间的独立性水平。当人类和人工智能预测之间的相关性较低时,将高度准确率的人工智能的预测与人工智能的预测合并。不太准确的人类(反之亦然)仍然可以产生比一对人类或一对人工智能所达到的性能更好的性能。同样,对人类群体决策的研究表明,当群体由认知组成时,个体预测的统计组合可以导致准确的群体表现不同的个体,产生不相关的预测(Davis-Stober等人,2015;Hong&Page2004)。

在人工智能增强决策的情况下,最终的预测不是使用统计手段创建的,而是人类DM内部认知过程的结果,他们必须将AI预测与自己的独立信息相结合。理想情况下,人类在人工智能更准确的问题背景下依赖人工智能,而当人工智能不太准确时,人类依靠自己的判断。为确保适当的依赖性,帮助人类正确识别人工智能的互补能力区域至关重要。这可以通过提供AI信心或解释来帮助人类更好地理解AI的决定来实现。当互补性的本质易于人们识别时,人们可以做出适当的依赖决定(Q.Zhangetal.2022)。然而,目前尚不完全清楚人类DM是否能够更广泛地利用这种潜力。因此,互补性可能会失败,因为尽管互补性具有潜力,但由于依赖决策不理想,DM无法实现互补性存在。

或者,互补性可能会失败,因为从静态的角度来看,互补性的潜力从未存在过(例如,人类和人工智能之间的性能差异可能是足够大且相关性过高),在这种情况下,即使是人类DM的选择性依赖决定也不会产生互补性。识别互补性成功或失败的一种方法是观察人类DM最终决定的范式中的性能差异决策和一种范式,其中独立的人类和人工智能决策在统计上组合成最终决策。然而,依靠外部统计聚合器来识别和利用人工智能的互补性并不是一个可行的解决方案,在这种情况下人类DM做出最终决定。正如我们讨论挑战2时,重要的是要授权人类DM为他们的AI助手构建适当的心理模式,以便他们可以利用人工智能的补充能力。人类是否有效地利用了人工智能提供的信息?

提高人类与人工智能的互补性

必须开展更多的研究,以更好地理解有助于人类与人工智能的融合的因素,并开发促进互补性的新方法。在人工智能研究的背景下,开发了新的人工智能系统,以考虑到人类是决策过程的一部分这一事实(BansalNushi、等人,2021;De等人,2020;Wilder等人,2021年)。这些AI系统经过训练,可以优化人类利用AI促进决策时可以预期的联合性能。在心理学的背景下,有必要进行更多的研究,以了解人工智能预测的独立程度如何影响人类决策。在人类团队中,团队成员之间一定程度的认知多样性对团队绩效有积极贡献,但研究人员假设过度的认知多样性可能会对团队成员之间的沟通产生负面影响从而导致团队绩效欠佳(Aggarwal等人,2015年)。同样,虽然人类和人工智能预测之间的独立性有助于完整性,但与人类预测有很大差异的人工智能预测可能并非如此被认为是有用的(Grgic'-Hlacˇa等人,2022年)。因此,有必要进行更多的研究来了解可能阻止人类DM有效利用AI预测的心理局限性。

挑战2理解人工智能的人类心智模型

有效使用人工智能辅助的一个重要决定因素是人工智能的人类心智模型,它包含一个人对人工智能的信念集合。人工智能以及关于与人工智能互动的影响的期望。一般来说,心智模型是人类构建的世界的简化表示,允许他们整合新信息并做出预测,同时消耗很少的脑力劳动(Craik1952;Smyth等人,1994)。因此,人工智能的心智模型越准确,人工智能就越有可能被正确使用(Bansal等人,2019年)。同样,人工智能的无效使用可能是由人工智能的不完整和/或不正确的心智模型驱动的。这种不正确的心智模型可能导致对人工智能的不适当依赖或错误校准的信任。我们认为,更深入地了解人们对人工智能的心智模型可以促进工作流程的设计,从而帮助人类开发采用适当的依赖策略,从而提高团队绩效。

对人们的人工智能心智模型的研究表明,人们对人工智能有着广泛的概念。为了组织和理解这些实证结果,我们区分了在人们实际体验人工智能之前就已经开发的人工智能心智模型有问题,其中心智模型主要由先前的信念驱动,以及这些模型如何与人类为其他人建立的模型进行比较。我们还讨论了人们的人工智能心智模型是如何通过与人工智能互动的体验来塑造的。

几项研究调查了人们先前的信念,其中参与者被问及在各种假设场景中,他们将如何使用人工智能建议与人类的建议。结果很大程度上取决于场景的框架方式,包括任务域、提供的有关AI性能的信息量、和个体差异(Abrahametal.2017;Bigman&Gray2018;Castelo等人,2019;LubarsTan2019年)。当有选择时,人们更愿意依赖人类而不是人工智能,这非常重要情景Casteloetal.2019),尤其是在与死而未决的假设道德情景的背景下Bigman&Gray2018)。对于高度感知客观性相关的任务(例如,那些涉及可量化事实个人观点直觉的任务),人类这种偏好转变为人工智能偏好(Castelo等人2019年)。一些低风险定量任务的背景下例如照片中估计一个人体重预测歌曲受欢迎程度人们实际上其他人,他们更喜欢从算法中获取建议Loggetal.2019)。此外,当提供有关人工智能的性能数据人们对依赖人工智能偏好会变得更强Casteloetal.2019)。人们考虑使用自动化意愿取决于人口因素例如,年轻用户愿意车辆中使用自动化Abrahametal.2017)。了解这些关于任务可委派性和AI性能的期望偏好非常重要因为这些因素可能会影响人们接受AI意愿当他们实际人工智能决策支持系统交互提供建议

另一研究调查了人们在初次接触人工智能特定人工智能的心理模型一看,这些实验似乎呈现人们对人工智能的理解他们依赖决策的有效性混合图景。例如Dietvorst等人2015表明参与者目睹了算法的性能更愿意依赖人类决策而不是算法,其中包括算法会犯错误,尽管该算法实际上平均优于人类DM这一结果被认为表明,人工智能的经验尤其是人工智能所犯的错误会导致算法厌恶大概因为人们期望算法的性能实际表现更好(例如,有关概述,请参阅Burton等人2020年)。然而,这些实验研究面临着一个重要的局限性。虽然个人熟悉了算法的性能,但他们被要求做出一次委托决定而且他们没有被告知该授权决定后果因此,这些结果不能用于回答有关人类是否选择性地使用人工智能建议的问题。

相比之下,最近的研究中M.Kelly等人2023;Liang等人2022;Tejeda等人2022年),参与者获得了许多做出依赖决策的机会并且DM被允许有选择地使用算法建议。这些实验并没有证实关于人们一般算法厌恶的说法。取而代之的是,Tejeda等人报告的结果2022表明参与者采用灵活的依赖策略,根据该策略依赖取决于DM自身的置信状态、AI表达的信心以及AI的整体性能。此外这些结果表明这种依赖策略有效的,与最优依赖策略没有实质性差异其他研究发现人们可以考虑算法建议准确性Liangetal.2022;Yin等人2019年)。值得注意的是,即使在没有明确的准确性反馈的情况下个人也可以校准他们对人工智能的依赖(Lu&Yin2021;Wang等人,2022年)。他们可以通过使用对自己的表现具有高度信心实例评估人工智能或其他功能来实现这一目标个人(Pescetelli&Yeung2021年)。此外,M.凯利等人2023研究了个人对人工智能系统和其他人类琐事相关任务的能力所做的比较评估研究结果表明个人对他人的评价深受自身感知能力的影响。这种相关性并不延伸到对人工智能评估;个人对人工智能评估他们的自我评估相径庭此外,个人普遍期望人工智能代理将在各种琐事分类胜过人类

总体而言,这些实证结果表明人们对人工智能智模型取决于他们对相关人工智能的熟悉程度以及他们人工智能熟悉程度其依赖性决定的结果那些人工智能的性能有些熟悉,但对自己决定后果不熟悉的人,可能会委托依赖人工智能的建议可能有一个不完整的心智模型,可能无法准确地代表人工智能相对于自身的差异能力也许他们对人工智能的心理评估暴露不可避免的人工智能错误后(正确地)降级但没有正确反映他们试图解决同样的问题,他们自己可能不会表现得更好事实上,在这种情况下他们的表现可能会更糟然而,人们被告知依赖决定的后果的研究结果表明人们发展出更丰富的心智模型AI允许依赖自己AI的决策方面具有灵活性其他因素人工智能复杂性手头决策任务也可能影响心理模型的保真度一些实验室任务侧重于相对简单的行为任务,这些任务可能不需要大量学习制定有效的依赖策略。然而,在复杂的工业试验系统或军事应用的背景下在自动化程度更高的情况下,DM可能无法完全理解系统的工作原理因此可能会默认使用简单的策略例如不分青红皂白依赖AICummings2017年)。

改善对心理模式评估

理解人们对人工智能的心智模型需要在几个方向上进行新的研究。首先,目前人们对人类对人工智能的信念的长期变化知之甚少(Glikson&Woolley2020)。必须进行长期研究,以了解人们心智模式随时间的变化。随着时间的推移,这些心智模型会变得更加准确吗?此外,认知建模等方法可用于推断人们心智模型的潜在内容,包括他们的决策策略和无法使用行为测量直接评估的信念(例如,Chong等人,2022;Tejeda等人,2022年)。鉴于人类与人工智能互动的心理模型编码了他们自己能力与人工智能能力之间的感知差异,它可能是有助于利用从元认知心理学研究中得出的见解来理解人们估计自己自信的方式(Koriat&Levy-Sadot1999)及其相对于其他人的表现(Moore&Cain2007)。此外,个人与人工智能的合作可能是由直接的学习方法指导的,例如无模型强化学习,而不是通过对AI助手能力的明确心理化。需要进一步的研究来确定个人是否对人工智能产生了明确的谴责,或者在整合其建议。

挑战3开发人工智能交互的有效方法

开发准确的人工智能心智模型对于有效和高效的人类与人工智能协作至关重要。因此,开发工作流程和系统来帮助人类DM构建其AI队友的准确心理模型至关重要。具体来说,我们考虑了影响人类DM使用AI辅助方式的两个主要设计选择:选择何时提供AI辅助以及选择提供哪些信息。此外,我们还讨论了自适应方法,这些方法可以定制人工智能输出和人机交互,以考虑人类的认知局限性。

什么时候应该人类DM提供AI帮助

几项研究调查了在整个决策过程的不同时间提供人工智能援助的影响。这些操作旨在提高人们参与AI助手的建议和解释的认知动机(Buçinca等人,2021年)。我们将这些建议呈现范式分为以下几组:(a)并发,(b)顺序,(c)按需和(d)延迟。

在并发范式中,当问题被引入时,人工智能建议会立即显示给DM。在顺序范式中,在决策科学中被称为法官顾问系统Bonaccio&Dalal2006),只有在DM首先做出独立决定后,才会显示AI建议。在收到AI的建议后,DM将有机会更新他们的决定。一些研究表明,与人类在没有帮助的情况下完成任务时的准确性相比,顺序范式提高了人工智能辅助决策的准确性(绿色&Chen2019),大概是因为它鼓励独立反思,这可能导致检索其他与问题相关的信息。然而,其他研究发现,在这种情况下,整体表现没有差异(Buçincaetal.2021;Tejeda等人,2022年)。

按需范式允许DM有选择地寻求AI帮助(Buçinca等人,2021;Kumar等人,2021;Liang等人,2022年)。这种方法要求DM参与一个元认知过程,该过程涉及评估AI助手相对于自己的专业知识并寻求其帮助。请注意,按需范式是顺序参数的变体,因为两者都鼓励DM在接受AI之前做出初步判断助理的建议。Kumar等人。(2021)提出了这种元认知决策的计算模型,以寻求帮助。Buçinca等人。(2021)直接比较了按需范式与顺序和延时范式之间的团队绩效。尽管这些作者没有发现总体准确性有任何改善,但必须进行更多的研究,以更好地理解这种范式中的决策。最后,延时参数延迟了人工智能建议的提供,这可以提高决策的准确性(Parketal.2019)。对这种影响的一种解释是,延迟为DM提供了额外的时间来反思问题并改进自己的决策,从而减少了锚定效应。另一种方法是改变人们处理AI预测的可用时间,立即显示(Rastogi等人,2022年)。Rastogi等人。(2022年)表明,当有更多时间可用时,人们更有可能检测到AI错误。有必要进行进一步的调查,以了解提供人工智能建议的时间的影响。

AI应该向人类DM提供哪些信息?

人工智能辅助决策是一种接受建议的形式,人类可以从人工智能助手那里获得建议。人与人之间的建议文献表明,人类倾向于忽视他人的建议,因为他们无法获得他人的反馈(Bonaccio&Dalal2006;GinoMoore2007)。与AI合作也不例外。研究表明,人类在接受人工智能的建议时容易受到各种误判和偏见的影响(Logg2017;Logg等人,2019年)。因此,开发可解释和可解释的人工智能的任务是建立人工智能的关键。人类与人工智能之间富有成效的工作关系。

AI信心。大多数人工智能系统可以计算其预测的置信度量,例如回归任务的置信度或准确率预测的估计概率分类任务(Bhatt等人,2021年)。这些置信度有助于DM校准他们对AI的心智模型,并确定它何时可能做出错误的预测(Bansal等人,2019;Y.Zhang等人,2020)。与人工智能信心低的DM相比,DM更倾向于采用具有高AI信心的解决方案(Y.Zhangetal.2020)。此外,Tejeda等人。(2022)发现AIDM之间的置信度差异会影响依赖决策。如果AI表现出高度的信心,则DM更有可能遵循AI的建议,而DM则基于其独立决策过程,表现出低置信度。

AI解释。已经开发了多种技术来增强AI预测和解释。其中一种解释是识别有助于模型预测的特征集(Lakkaraju等人,2022年)。这种补充信息可能很有价值,因为它允许DM辨别AI预测何时基于合理或有缺陷的推理,从而允许他们进行调节因此,他们对人工智能系统的依赖。然而,关于特征归因方法的有用性,已经报道了混合证据(BansalWuetal.2021;Buçinca等人,2021;Chen等人,2022;Nguyen等人,2021年)。例如,BansalWu等人。(2021)表明提供功能

在基线条件下,归因并没有提高人类与人工智能的互补性能,在这种条件下,人工智能仅表示其置信度。此外,这些类型的解释只会增加人们采用人工智能建议的倾向,而不管其正确性如何。尽管特征归因存在潜在缺陷,但存在用于呈现人工智能解释的替代方法。一种值得注意的方法是展示一组人工智能模型认为与目标概率相似的示例,并演示这些特征如何相互影响。与这些示例相关。这种方法可以帮助人类DM确定AI是否引用了适当的类,以及它是否准确地识别了特征之间的关系(Nguyen等人,2021;Taesiri等人,2022年)。

提供人工智能解释的一个潜在风险是,人们可能只是肤浅地处理这些解释,并可能利用此类解释的存在作为启发式解释模型精度。因此,设计增加认知努力和分析思维的行为干预可能会使人们更有可能有效地使用解释(Buçinca等人,2021年)。为了增加DM的认知参与度,GajosMamykina2022)认为,仅显示AI的解释(即突出显示信息)可能是有益的与问题相关),并保留AI的预测。

通常,解释的设计必须考虑到人类用户(Hoffmanetal.2018)。与其设计出令人信服的解释,这会导致不恰当的依赖,不如将解释设计得尽可能翔实(BansalWuet等人,2021年)。正如LeeSee2004)所指出的,这个过程的目标不是设计系统来增加依赖或信任,而是设计它们以产生适当的水平的依赖和信任。

迈向自适应交互式AI辅助

总体而言,经验证据表明,提供更多关于人工智能的信息并不总能提高性能。鉴于可用于处理人工智能建议的认知资源有限,特别是在时间敏感(时间不足)的情况下,这对人工智能来说很重要调整其输出(例如,通过提供适当详细程度的解释)。过多的信息可能不利于决策(Poursabzi-Sangdeh等人,2021;Schaffer等人,2019)。因此,人工智能系统的设计必须适应人类DM的认知局限性(Cummings2017)。应该提供什么、何时以及提供多少信息的问题对人类DM强调需要开发理论框架,以推断AI辅助工具对人类认知和观察表现的影响。这种框架现在开始在可解释的人工智能的背景下出现(Chenetal.2022)。此外,在与人工智能合作时,可以利用从心理学中汲取的理论和计算模型来更好地理解人类的认知(Rastogietal.2022年)。例如,在必须快速做出决定或需要不同程度的脑力劳动来处理人工智能输出的情况下,理论合理资源分配(Gershmanetal.2015;Lewis等人,2014;Lieder等人,2018;Lieder&Griffiths2020)可用于确定人们何时可能会忽略人工智能的预测,如果感知到的收益不值得相关的时间和脑力劳动方面的成本。

心理学和行为经济学的研究长期以来一直主张干预或推动来指导人们的决策(Thaler&Sunstein2008)。轻推计算理论的进展(CallawayHardy&Griffiths2022;CallawayJainetal.2022)能够确定最佳决策策略和有效的反馈来指导决策。卡拉威、耆那教等人。(2022)表明,人工智能助手在获得有关其决策过程的反馈时,可以成功地促使人们采取最佳决策策略。同样,最佳游戏化可以重新设计环境的奖励结构,使人们的长期目标与他们的短期奖励保持一致。这种方法有助于人们克服短视的决策倾向,并在面对顺序任务时以更有远见的方式行事(Consuletal.2022;Lieder等人,2019年)。人工智能辅助助推是自适应人工智能辅助的一种强大范式,可以根据人们的能力进行调整,并可以减少长期优化。

最后,另一个有前途的研究方向是使AI输出更具交互性。Lakkaraju等人没有以一次性输出的形式预先发送解释。(2022)论证了交互式AI系统的重要性。在这些系统中,人类DM可以使用自然语言对话来查询模型,了解为什么会做出决策,从而通过以下方式澄清AI预测一系列的互动。此外,交互式AI助手已被证明可以提高用户的接受度和信任度。例如,病理学家报告说,当他们能够在基于内容的图像检索系统中定制搜索时,诊断效用和信任度提高(Caietal.2019年)。允许与人工智能助手进行通信和互动可以提高人们对系统的理解。

讨论与结论

尽管关于人工智能辅助决策的实证研究范围不断扩大,但关于人类与人工智能合作的潜力仍有许多需要发现的地方。这是因为许多实验室研究在各个方面都面临局限性。首先,许多实证研究都涉及来自模拟人工智能或绿野仙踪程序的算法建议(Laietal.2021),这些算法建议在预设的精确水平上产生决策。活泼和与人类的一致(例如,Gajos&

Mamykina2022;Grgic'-Hlacˇa等人,2022;Liang等人,2022;Pescetelli等人,2021年)。尽管这种方法简化了进行行为研究的过程,但它忽略了实际人工智能系统的一个重要方面,即它们在某种程度上是相关的与人类决策(Steyvers等人,2022;Tejeda等人,2022年)。其次,许多实验室研究涉及低风险的决策问题,对参与者的专业知识要求相对较少。目前尚不完全清楚这些实证研究的结果将如何推广到更复杂和高风险的环境,例如医疗保健决策(Buçincaetal.2020;.J.Kelly等人,2019年)。最后,大多数实证研究只关注有限的时间窗口来评估人类对人工智能的理解。在极端情况下,一些研究涉及单次人工智能依赖决策(例如,Dietvorst等人,2015年),这些决策可能无法提供选择性的完整情况人类对人工智能的依赖。其他实证研究往往局限于单一的体验性会议,没有提供对人类长期变化的见解关于人工智能的信念或人工智能依赖策略的变化(Glikson&Woolley2020;Nishikawa&Bae2018年)。

在长期使用人工智能决策辅助工具的背景下,可能需要考虑其他因素。例如,人类动机理论,如自我决定理论(Ryan&Deci2000),已经强调了感知自主的重要性,因为感觉的控制和代理可以提高整体参与度和结果。如果人类DM认为缺乏自主性,这可能会对参与度产生负面影响,并最终导致更糟糕的结果。例如,Dietvorst等人。(2018)表明,允许个人干预算法的决策会使相关个人更加欣赏算法,并使他们更加将来可能会使用该算法,即使允许算法在没有干预的情况下做出决定会带来更好的结果结果。作者认为,允许人类拥有一定程度的控制权最终可能会带来更好的整体结果,并避免原地其中,人类避免使用算法。在人工智能辅助决策的框架下,最终决定权在人类手中,因此,人们可以争辩说,这种方法为人类的自主性留下了充足的空间。然而,与该框架相关的许多潜在因素可能会影响对决策的感知控制,进而影响人类的依赖意愿在人工智能上(Chugunova&Sele2022年)。例如,人工智能可能不会透露其预测,而只是显示与预测相关的信息,以增加人类的参与度和感知的能动性。&Tan2019)。一般来说,需要更多的研究来了解为人类DM提供对AI的额外控制的方式(例如,允许他们确定人工智能解释的程度)会影响性能,因为这种方法可能会增加感知能动性,但也会导致认知超载和无效使用可用信息。

为了更深入地了解人类如何依赖人工智能,研究人员可以在先前的人对人建议的基础上进行研究,旨在阐明个人采用的策略在重新评估和完善自己的判断时,整合他人的意见(Himmelstein2022;Jayles等人,2017)。与人工智能辅助决策研究的分析,这些研究有着共同的主题。这两个研究领域都有兴趣了解如何从人类或人工智能来源获得建议。这包括建议的沟通和提出,以及建议来源的可信度如何影响其被接受的可能性。此外,在这两种情况下,研究人员都有兴趣了解人们如何汇总多种意见以形成修订后的判断。这包括探索个人对不同建议来源的权重以及用于组合信息的策略。然而,在比较人类和人工智能的建议时,也存在显着差异。人工智能生成的建议可能更难理解或解释,尤其是在涉及复杂算法时。与人类建议相比,这可能会影响人们如何理解人工智能建议,而人类建议通常更透明,更容易理解。人类的建议也可能受到情感和社会因素的影响,例如同理心和个人关系。这些因素可以在人类建议的接受中发挥作用,但在人工智能生成的建议中通常不存在。最后,使用人工智能生成的建议引发了伦理问题,例如算法的公平性和有偏见的建议的可能性。虽然人类的建议也可能有偏见,但人工智能建议的伦理影响可能会有所不同,从而导致这一研究领域面临独特的挑战。总体而言,尽管关于人类从其他人那里获得建议和人类从人工智能中接受建议的研究有几个共同的主题,但人工智能生成的建议的独特方面为决策过程引入新的维度,值得进一步探索。

尽管研究人员也可以从大量关于人类依赖简单算法决策辅助工具(Arkesetal.1986)和自动(Parasuraman)的研究中汲取见解&Riley1997),我们认为,当人工智能充当助手而不是基于直接的决策辅助时,不同的因素就会发挥作用算法。人工智能能够提供多样化的信息,而不仅仅是建议,例如置信度和详细的解释,同时具备适应人类DM认知约束的能力。这允许对全新的工作流程进行概念化,从而减少人类的工作量。例如,与其说人类和人工智能在个别问题上进行合作,不如说他们可能合作定义描述的规则将一整套问题分为人类DM应该解决的类型,以及AI很可能表现出良好性能的问题-曼斯(Lai等人,2022年)。请注意,在此工作流中,人类DM放弃了对某些决策问题的控制,但在定义类型方面保留了高级控制权人工智能解决的问题。

为了在帮助人类的背景下真正增加价值,有必要开发人工智能系统,这些系统可以超越提供肤浅的帮助,而是作为有用的队友到人类DM。完成这项任务的一种方法是使人工智能能够开发人类DM的心理模型,使人工智能能够推断出心理状态,人类DM的专业知识、工作量、长期和短期目标以及信念。我们认为,计算认知建模必须在开发此类人工智能助手方面发挥关键作用。认知建模使研究人员能够对人类的潜在认知状态进行建模,并对其未来的行为、信念和知识状态进行预测。认知科学文献中的大多数先前工作都集中在构建人类单独工作或与他人一起工作时的决策模型(例如,Himmelstein2022年)。最近,人们对在人工智能的帮助下开发用于人类决策过程的计算模型的兴趣激增(参见Kumar等人,2021;Oulasvirta等人,2022;Tejeda等人,2022年)。这些模型是人类DM心理过程的近似值,可用于开发对人类DM的认知状态。尽管使AI能够构建人类DM的显式心智模型是构建有用的AI助手的关键途径,但在某些情况下,AI助手可能足以依靠基于认知科学原理的启发式方法。例如,人工智能助手可以巧妙地只显示最相关的内容对人类的每项任务都有洞察力,以避免用过多的信息淹没DM

对人工智能辅助决策的持续评估对于确保提高绩效至关重要。目前的评估基于简单的经验指标,如总体准确性和决策的周转时间。但是,这些指标仅提供了决策过程的有限视图。有必要进一步详细地理解和量化人工智能真正有帮助的意义。第一个挑战促使研究人员密切关注人工智能的发展,以补充人类的能力并提供有用的帮助。此外,人工智能助手可以推断人类对手头概率的理解以及人类对AI助手的决策过程。第二个挑战强调需要理解人类的心智模型并开发自适应人工智能助手。最后,第三个挑战需要仔细设计人与人工智能的交互。这些设计决策必须以人类DM的潜在认知状态为指导。

总之,为了优化人工智能辅助决策,科学家们必须冒险,而不仅仅是改进人工智能或开发更好的方法来改善人类决策,而是要考虑与人类、人工智能助手以及人类与人工智能之间的交互相关的众多角色。随着人工智能援助变得越来越普遍,本文讨论的三个挑战仍将具有相关性。归根结底,人工智能系统有可能发挥的作用不仅仅是静态信息提供者的简单作用,并且可以被设计为追求更普遍的目标,例如尽可能帮助人类(Russell2019年)并学习补充人类DM的专业知识(Wilder等人,2020年)。回答如何设计和量化这些总体目标的问题需要一种跨学科的方法,结合来自多个学科的见解,包括人工智能和机器学习、人机交互和心理学。

References


人机与认知实验室
人机交互与认知工程实验室 联系方式:twhlw@163.com
 最新文章