论文一起读 | PaperToPlace: 将指令文档转化为空间化和上下文感知的混合现实体验

文摘   科技   2024-09-06 10:00   广东  

导读

本文是VCC杨泓亮同学对论文 PaperToPlace: Transforming Instruction Documents into Spatialized and Context-Aware Mixed Reality Experiences 的解读,该工作来自加州大学圣地亚哥分校和Adobe并已被发表在人机交互顶级会议UIST 2023上。

论文主页:
https://dl.acm.org/doi/10.1145/3586183.3606832

本研究提出了一种系统,将冗长的纸质操作说明文档转换为混合现实中的虚拟分步标签。通过该系统,用户仅需关注单个步骤并集中精力于当前操作,从而提高了流程性任务的执行效率。该系统由两个模块组成:创作模块允许说明作者迅速将现有的纸质说明转化并映射为混合现实 (MR) 体验;使用模块则能够将每个虚拟步骤标签精准地置于易于阅读且不妨碍关键交互区域的位置。通过分段呈现操作步骤,该系统有效减少了用户在说明文档与实际操作之间的频繁切换。

注:本文图片均来自原论文与其项目主页。



I


 引言 
基于纸张的说明在知识共享中很常见,这类说明通常涉及需要用户在环境中与多个空间分布的对象进行交互的任务。例如,当按照食谱操作时,用户可能需要与多个厨房电器(如炉灶、冰箱和微波炉)互动。

然而,在执行任务的同时阅读说明可能会很繁琐,因为文本通常与用户的物理环境脱离。因此,用户必须在阅读说明、理解其在环境中的意义以及执行任务之间找到平衡,这在认知上可能是非常费力的。例如,当按照食谱煎牛排时,用户需要频繁在食谱和锅之间切换以检查煎牛排的方式、温度等。如果用户将食谱放在某个边缘位置,使其不妨碍操作区域,这种切换可能会非常费时。在这样的情况下,用户可能会花更多的时间在导航文本和环境上,而不是执行任务。如果用户忘记了重要信息(如温度或时长),并且必须反复查看说明以进行核对,这个问题会变得更糟。

随着增强现实 (AR) 和混合现实 (MR) 的普及,通过在环境上叠加数字元素来解决这种文档活动分离问题变得越来越普及。虽然现有工作提出了现实环境中的程序性AR说明,但是如何放置文本说明没有被探索(这些工作没有利用现有的纸质说明),而本工作支持重复使用由专业作家以读者为中心设计的现有纸质文档,并能够将这些文档转化为空间化和上下文感知的MR体验。并且现有的放置文本的工作,如SemanticAdapt,在不同环境中自动调整混合现实布局,但是此工作仅仅与信息的消费相关,而没有考虑现实世界的相关活动。

II


 技术贡献 

本工作主要贡献如下:

  • 一个允许用户将纸质说明转化为空间化混合现实体验的创作流程;

  • 一个消费流程,能够在不遮挡用户视线或导致大量上下文切换情况下,将虚拟说明以最佳位置计算放置。


III


 方法介绍 
PaperToPlace方法由创作流程和消费流程两部分组成。第一部分是供指导方案作者使用的创作流程,能够从现有的基于纸张的说明中快速且轻松地创建空间化的混合现实 (MR) 说明;第二部分是供说明使用者使用的消费流程,能够在混合现实中探索具有上下文感知、空间化的说明步骤。

本文假设此系统的使用环境是一个典型的工作空间(例如,厨房)用于支持程序性任务(例如,烘焙蛋糕)。每个环境包含多个物理关键对象,这些关键对象被定义为重要的、静止的物体,通常永久附着在环境中(例如,冰箱和微波炉)。每个关键对象包含一个或多个锚定面,这些锚点面是描述对象近似几何形状的虚拟表面。作者使用这些表面来确定MR中指令的放置。

创作流程

创作流程从现有的纸质文档中提取文档配置文件,以便快速且轻松地创建MR体验。PaperToPlace的创作流程分为以下三步:

1.文档捕获与解析:本文的文档捕获和解析过程开始于拍摄文档,通过调整扫描区域和利用OCR服务将其解析为可读文本。接着,系统提取段落结构,每个段落被分割为指令中的一个步骤,作者可以在iPad上重新分割并修正这些步骤。

2.选择模型和关键对象:如下图所示,在选择模型和关键对象的阶段,PaperToPlace利用特定环境的预训练语言模型预测与每个步骤相关联的关键对象。指导方案的作者需要为目标环境选择合适的模型,对于没有预训练模型的环境,作者可以手动提取每个步骤的元数据,并选择目标工作空间中的关键对象。

3.创建文档配置文件:创建文档配置文件需要每个步骤的文本和该步骤关联的关键对象。默认情况下,每个句子被视为一个说明步骤,但步骤说明的作者可以通过分段、合并和删除特定步骤来修改这些结果,当步骤被修改或生成新的合并步骤时,重新预测关联的关键对象。尽管有些步骤可能与多个或没有关键对象关联,这种灵活性允许作者调整目标步骤并修改生成的每个步骤文本以确保传递适量的详细信息。对于关联关键对象,关键对象可以由手动确定,也可以通过机器学习方法来辅助标注。作者创建了一个专用界面,允许作者选择关联的关键对象,并使用颜色尺度指示机器学习预测的置信度。虽然手动分配关键对象是一个更为准确的方法,但是这样的方法非常耗时,因此作者选择使用需要数据集和真实标签的机器学习辅助方法。

图1 系统结构说明图


消费流程

消费流程旨在通过将每个步骤空间化并将其锚定在关键对象旁边的最佳位置来实现。例如,考虑如何将“微波炉高火30秒”的指令附加到微波炉上。一个理想的位置是微波炉门的前表面。一个不太理想的位置是在输入面板的前面,因为在用户尝试设置计时器时,指令可能会妨碍操作。消费流程包含以下三步:

1. 步骤导航:指导系统的内容消费者可以使用手部菜单轻松快速地在步骤之间切换。本文遵循恰当的时间传递适量的信息的原则。因此,PaperToPlace仅在任务完成进度条旁边渲染当前的说明步骤。当一个新步骤被触发时,PaperToPlace首先在消费者面前锚定虚拟标签,因为通常在继续执行相关步骤之前需要初始的说明步骤。

2. 动画空间指导:因为这可能会导致不必要的视觉干扰,PaperToPlace不使用持久的视觉指导。相反,作者使用了一个动画飞行效果,使虚拟步骤在初始说明步骤消耗后可以“飞”向关键对象。这种设计利用了运动效果可以引导消费者注意力的事实,并且可以隐含地和快速地提供空间化关键对象的视觉指导,而不会在消费者执行步骤时造成过度干扰。

3.说明步骤的放置:PaperToPlace将说明步骤放置并锚定在锚定表面之一,而不会遮挡重要区域。该设计强调建议说明与现实世界环境之间的连接,并且在消费者尝试在完成步骤时反复参考说明步骤时可以带来便利。如果消费者不喜欢标签位置,可以使用中空捏合手势请求按需更新位置。我们还允许消费者使用捏合拖动手势手动移动步骤到其首选位置。这种反馈操作将有助于在放置说明步骤时的决策。

作者将最佳放置说明步骤的过程形式化为一个优化问题,在该问题中,作者跟踪了用户的手和视线,以及由空间配置文件定义的锚定表面来搜索每个步骤的最佳放置位置。表1总结了关键参数的符号:
表1 放置说明步骤的关键参数


说明步骤放置的表示:作者首先将每个锚定表面离散化为  个虚拟单元格,每个单元格的尺寸为 我们假设每个虚拟步骤的中心应与锚定表面单元格的中心对齐。我们使用  表示步骤的放置,其中  和  表示表面  的宽度和高度上的单元格索引。步骤放置的世界位置为:

 
其中  是表面  的左上顶点的位置。

步骤标签的旋转的表示:阅读角度是消费文档的关键因素,因此,确定步骤的旋转非常重要,以使文本始终垂直于用户的视线方向(即,虚拟文本应面向用户的眼睛)。为了解决这个问题,本文使用潜在的视线方向旋转锚定表面 表2中的算法展示了本文如何计算水平(例如,台面)和垂直放置的锚定表面(例如,冰箱前表面)的步骤旋转。图2展示了两个步骤表示进行旋转后的示例:
表2 旋转计算算法

图2 步骤表示的旋转示例


IV


 部分结果展示 
本文设计了两项被试内研究以评估PaperToPlace。12名参与者 (PA1 - PA12) 被招募来评估创作流程,另外12名参与者 (PC1 - PC12) 被招募来评估消费流程。在评估期间,参与者或是创作或是消费可用于三个烹饪任务 (T1 - T3) 的MR指导流程,这些任务可以在典型的办公室小型厨房中轻松进行。每项研究包括两个环节,参与者需要完成涉及四个关键对象的指定任务:微波炉、冰箱、水槽和台面。我们使用T1作为训练任务,通过该任务参与者可以熟悉设计的界面。T2和T3用于正式评估。

总体而言,大多数参与者认为PaperToPlace可以帮助指导信息的消费者更快、更容易地完成指定任务(如图3):
图3 消费流程的评估结果

V


 总结与展望 
本论文提出了一种将传统纸质说明通过MR设备与物理环境进行连接的系统。此系统通过创作流程和消费流程既可以使说明作者能够快速将现有的纸质说明转化为空间化的混合显示说明,又可以通过计算将每个说明步骤放置在易于阅读且不遮挡关键交互区域的最佳位置。两项针对两个不同的12人参与组的用户研究展示了所提议的创作和消费工作流程的可用性和有效性。

未来的工作方向可以加入实现迭代形式的说明创作过程、加入更多物理世界中的数据等来进一步优化说明创作者和说明使用者的体验。

VI


 思考与讨论 
Q: PaperToPlace要求说明的消费者明确点击虚拟按钮以切换到下一个说明步骤,这种形式所引入的额外操作是否会加重消费者的负担? 
A: PaperToPlace在用户调研中发现,对于一些有先前MR经验的参与者使用虚拟手菜单和捏合手势“简单且有用”,但没有使用此类设备的使用经验的其他参与者则提出了对偶尔的捏合手势检测和虚拟按钮点击失败的沮丧。作者表示未来的工作可能会考虑设计一个状态机,这个状态机可以指定如何基于用户的活动自动切换到后续步骤,这些活动可能从面部、身体和环境传感器数据中推断出来。 

Q: 作者在实验和评估部分仅仅使用了烹饪这一任务,PaperToPlace是否能够支持更为广泛的应用范围? 
A: 本文使用的设备Quest Pro的透视能力较差,不能支持涉及移动或是更细粒度的任务。这需要高质量的透视和能力来跟踪被视为非静态关键对象的电子组件的实时位置。

以下是开放性问题,欢迎读者朋友留言讨论: 
Q: PaperToPlace认为每个说明步骤的元数据仅包含步骤文本和虚拟步骤应锚定的关键对象。这可能不适用于实际的说明文档,这些文档具有异质的元数据,例如持续时间信息、通常需要消费者注意的警告以及来自环境传感器的通知。是否设计一个更加通用的框架来包含这些数据?

-- End--



导 读 | 杨泓亮
审 核 | 徐鹏飞
编 辑 | 申


参考文献

[1] Chen Chen, Cuong Nguyen, Jane Hoffswell, Jennifer Healey, Trung Bui, and Nadir Weibel. Papertoplace: Transforming instruction documents into spatialized and context-aware mixed reality experiences. The 36th Annual ACM Symposium on User Interface Software and Technology (UIST). 1-21, 2023. 

[2] Yifei Cheng, Yukang Yan, Xin Yi, Yuanchun Shi and David Lindlbauer. SemanticAdapt: Optimization-based adaptation of mixed reality layouts leveraging virtual-physical semantic connections. The 34th Annual ACM Symposium on User Interface Software and Technology (UIST). 282-297, 2021. 

[3] Subramanian Chidambaram, Hank Huang, Fengming He, Xun Qian, Ana M. Villanueva, Thomas S. Redick, Wolfgang Stuerzlinger and Karthik Ramani. ProcessAR: An augmented reality-based tool to create in-situ procedural 2D/3D AR instructions. ACM Designing Interactive Systems Conference (DIS). 234-249, 2021. 

[4] David Lindlbauer, Anna Maria Feit and Otmar Hilliges. Context-aware online adaptation of mixed reality interfaces. The 32nd Annual ACM Symposium on User Interface Software and Technology (UIST). 147-160, 2019. 

[5] Jing Qian, Qi Sun, Curtis Wigington, Han L. Han, Tong Sun, Jennifer Healey, James Tompkin and Jeffson Huang. Dually Noted: Layout-Aware annotations with smartphone augmented reality. The ACM Conference on Human Factors in Computing Systems (CHI). 1-15, 2022.




深圳大学可视计算研究中心
Visual Computing Research Center
----------------------------------
https://vcc.tech


中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础,致力促进多个学科的深入交叉与集成创新,重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学研究。

📫
转载及合作:szuvcc@gmail.com


深圳大学可视计算研究中心
深圳大学可视计算研究中心致力于大力提升可视计算科学研究与高等教育水平,以计算机图形学、计算机视觉、人机交互、机器学习、机器人、可视化和可视分析为学科基础,促进多个学科的深入交叉和集成创新。详见官网: vcc.tech
 最新文章