本期专题探讨了大模型时代下人机交互的最新进展,重点分析了在智能增强理念下,大模型带来的技术革新对人机交互的推动作用,以及人机交互在以人为中心的智能技术构建中的关键作用。
人机交互与人工智能作为信息技术的两大主克莱德(J.C.R. Licklider)在其论文《人机共生》(Man-Computer Symbiosis)中深入探讨了两者协线,持续推动着科技的进步。1960年,约瑟夫·利同发展的关系,描绘了人机共生的愿景。两年后,图灵奖获得者道格拉斯·恩格尔巴特(Douglas Engelbart)在其论文《增强人类智能:一个概念框架》(Augmenting Human Intellect: A Conceptual Framework)中首次提出了智能增强(Intelligence Augmentation, IA)的概念,强调通过技术提升人类能力的路径。本期专题讨论的人机交互,正是实现智能增强的核心技术之一,也是长期推动计算机科学与技术发展的重要动力。
经过半个多世纪的发展,人机交互技术的表现形式从最初的命令行界面,逐步演进到图形用户界面,再到如今的触摸屏和语音交互,其目标是提高人与计算机之间信息交换的效率。从智能增强的视角来看,人机交互是将机器智能赋能于人类的基础条件。随着机器智能的不断进步,机器能够承担越来越多过去只有人类才能完成的任务。这使人类可以更加专注于高级思维活动,而让机器处理大量重复性的低级操作。因此,人机交互的发展趋势逐渐向着支持高级认知决策的方向演进。机器通过访问庞大的知识库,可以有效辅助人类的创新与决策。简而言之,这种趋势使人类能够聚焦于创造性和战略性任务,而机器则负责高效处理数据和执行任务,共同推进人机协同的未来。
人工智能的飞速发展使人机交互变得越来越自然和直观,更加符合人类的信息处理方式。诸如语音识别和计算机视觉等先进技术,已经突破了传统图形用户界面的限制,使人们能够通过语音、手势等更自然的方式与机器互动。例如,大语言模型(如ChatGPT)的应用大幅提升了计算机理解用户意图的能力,使其能够处理并解释各种复杂的交互指令。未来可以预期的一种交互模式是基于数字化人格的聊天机器人,它们将采用多模态交互方式,结合语音、表情和视觉信号,为用户提供更加丰富且动态的互动体验。这种交互方式不仅减轻了用户在操作界面上的负担,还使沟通过程更为自然和人性化。通过这些技术,机器将能够更好地理解并响应人类的需求,实现更加高效、直观的人机协作。
人机交互技术的发展反过来也推动了人工智能的进步。目前,在人工智能的主要方法——机器学习中,存在的核心挑战之一是如何有效地表示和构建知识。然而,监督学习需要专家提供数据标签,自监督学习依赖于人类产生的高质量文本,这些方法都需要从人类获取知识。随着大规模模型训练逐步耗尽了互联网中的大量数据,优质数据的短缺已成为限制人工智能技术发展的主要瓶颈。在此背景下,利用人机交互技术获取高质量数据,成为突破这一瓶颈的重要途径,并能发挥双重作用。第一个作用是数据生成:人机交互过程中会产生大量与人类行为相关的数据。这些数据包含丰富的知识,为机器学习算法提供了宝贵的训练素材。基于这些数据,人工智能系统能够学习并模仿人类的决策模式、行为习惯等,从而更好地理解和适应用户需求。第二个作用是知识传递:人机交互为人类向机器传输知识提供了直接的渠道。用户可以通过交互向机器输入信息、偏好和指导,这种知识的传递使人工智能得以不断优化,提升其解决复杂问题和适应新环境的能力。
因此,人机交互技术与人工智能相辅相成,它们共同推动着彼此的发展与进步。随着技术的不断演化,这种相互作用将愈发显著,进一步促进智能系统的普及与应用。
2022年底,ChatGPT横空出世,它是大规模语言模型与智能聊天界面ChatUI的融合,而ChatUI本身也得益于基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)的人工智能技术,代表着人工智能和人机交互领域共同发展的成果,开启了人机协作的新纪元。用户现在可以通过自然语言轻松表达需求,而ChatGPT能够提供符合逻辑、人性化的反馈,人们现在习惯利用ChatGPT做信息查询、头脑风暴、智能协作等多种人机协同的任务。此外,ChatGPT所展现的任务理解、规划和执行能力,扩展了GPT的应用范围,不再仅限于聊天功能,也成为支撑通用智能体的基础,助力人们完成更多复杂任务,让通用智能变得不再遥不可及。
本期专题邀请了国内外在人机交互领域较早关注并应用大模型的学者,请他们从自身研究的视角出发,探讨大模型时代下人机交互的相关议题。
清华大学副教授喻纯等人撰写了《人机协同中的交互式学习》一文,阐述如何在人机协同过程中实现知识从人转移到机器。喻纯专注于自然人机交互领域,研究如何高效自然地在人机之间传递信息。大模型的出现为人机交互定义了新的目标——知识传递,这是突破现有机器学习方法缺乏高质量训练数据的有效途径,也是迈向通用智能的关键。
加利福尼亚大学圣迭戈分校助理教授夏海峻在文章《探索信息空间的永恒之道》中讨论人机智能协作中信息空间的组织,这一研究方向涉及创新信息系统和工具。他讨论了如何有效融合人的认知与计算智能,释放新型人机协作的潜力,体现了智能增强的技术思路。
复旦大学教授卢暾等人撰写了《以人为中心的大模型Agent社会交互模拟——以推荐系统为例》一文。这一新的研究方向关注利用用户与大模型智能体(agent)间的复杂互动构建公平、无偏、可解释、可靠的模拟器,并探讨其在用户体验评估、算法治理和网络监管等方面的应用潜力。
香港城市大学教授赵盛东在文章《人机交互与人工智能大模型之间的关系》中分享了互为补充又相互成就的人机交互和大模型之间的关系。他以自己在情境感知交互领域的研究为例,讨论了大模型能为人机交互提供的智能能力,以及人机交互在解决“最后一公里”问题上的重要性。
香港科技大学(广州)助理教授佟馨和中国传媒大学教授范敏撰写了文章《从人机交互视角分析人工智能在特殊教育场景中的应用与趋势:以孤独症谱系障碍为例》。文章聚焦于人工智能辅助教育的议题,讨论了对自闭症儿童多角度学习能力的评估,对教学内容和学习技能的个性化的干预、实时反馈和持续评估等问题。
这五篇文章从多个维度探讨了大模型在当前人机交互前沿问题中的推动作用,涵盖了应用场景、技术实现以及科学挑战,不仅深入分析了大模型如何促进人机交互的发展,还探讨了人机交互对大模型训练的价值引导。所有议题都以人机交互为切入点,核心聚焦于人的需求与智能技术交互过程中所展现的问题。文章的发现和结论为实现以用户为中心的人工智能技术提供了重要启示,与人工智能领域常见的数据和模型视角形成了鲜明对比。这些研究将为读者提供关于大模型与人机交互发展的深刻洞见。
喻 纯
CCF杰出会员、人机交互专委会副主任。清华大学长聘副教授。主要研究方向为人机交互、普适计算。
chunyu@tsinghua.edu.cn
点击“阅读原文”,查看更多CCCF文章。