本文是对MobiCom 2023会议入选论文《Sign-to-911: Emergency Call Service for Sign Language Users with Assistive AR Glasses》的解读。Sign-to-911提供了一种移动系统解决方案,用于快速和实时的美国手语(ASL)和英语翻译。它被指定为在紧急情况下为有听力障碍的ASL用户提供的911呼叫服务。它实现了ASL到英语和英语到ASL的双向翻译。用户佩戴AR眼镜,在他/她的智能手机和眼镜上运行Sign-to-911,并与911操作员交互。Sign-to-911的设计背离了流行的基于深度学习的解决方案模式,采用了更简单的传统的AI/机器学习(ML)模型。关键在于利用ASL语言特点来简化模型结构,提高准确性和速度。它进一步利用了图形,视觉,自然语言处理以及AI/ML的最近组件解决方案。
美国手语(ASL)是美国和加拿大部分地区的听障人士主要使用的交流语言。估计有0.5至2百万的用户。与口头和书面语言不同,ASL是一种视觉语言,依赖于手势特征和动作来表达单词和句子。ASL有其自己的词汇和语法,它两种主要的词汇格式:手语和拼指字。手语是用来代表常见物体、动作和概念的词的图像化手势。拼指字用于表达ASL中没有等效手势的单词。它利用指定的手形来代表英语字母表,拼写出例如姓名、地址和位置等单词。ASL有其自己的语法系统,与英语不同。
911在美国提供紧急呼叫服务。尽管提供多语言支持,但当前的911系统不提供有效的通信渠道,供ASL用户与911操作员进行通信。这在很大程度上是由于ASL和其他口头语言之间的差距;ASL是一种视觉交流语言,需要在运行时进行正确解释。
文章旨在解决ASL社区一个简单但重要的问题:是否可以构建一个移动系统解决方案,用于在可穿戴设备和智能手机上进行ASL和英语之间的翻译,而不需要任何云/边缘支持。同时,必须解决大型训练数据集、大量计算和大量能量开销的限制。这排除大多数基于深度学习的方法,因为它们无法在移动设备上运行而不带来过多的计算和能量开销。
文章抛开了基于深度学习的解决方案范式,设计了一个轻量级系统Sign-to-911,用于快速的ASL和英语翻译。如图1所示,在紧急情况下,用户通过智能手机拨打911电话。AR眼镜捕捉签名者手语动作的实时视频。然后,通过蓝牙将视频帧传送到智能手机进行手语识别和句子翻译。翻译的英文文本转换为语音,并通过电话发送给911操作员。操作员的语音响应被转换为ASL句子和3D角色的手语动画,这些内容被渲染在AR眼镜上。
图1:Sign-to-911的工作流程
第一个任务是在911呼叫时在眼镜-手机设置下将ASL翻译成英语。图2展示了三个主要步骤。首先,捕捉用于识别的手势参数。其次,利用ASL领域知识根据这些参数进行快速手势识别。最后进一步从手势序列构建连贯的句子并将它们翻译成英语。识别的手势参数包括手数、手形、手腕轨迹、手掌方向序列。在识别的过程中首先进行骨架提取,然后将捕捉到的手腕轨迹序列需要被分割为不同的手势,并从手部骨架中提取手部数量和运动。手语者的手势被转换成一系列手势参数,根据这些参数进行手语识别,使用快速动态时间规整算法将捕获的手部轨迹与相同类别中的候选手势进行匹配。在识别了ASL手势之后,将它们翻译成英文句子,解决语法翻译问题和同音异义词的歧义问题。
图2:ASL翻译成英语的流程
第二个任务是英语到手语的翻译。图3显示了其流程,从操作员的回应中生成手势,使用3D头像使生成的手势动画化,并在增强现实眼镜上渲染出来。传入的语音通过智能手机上的语音转文字模块转换为英语句子。然后,将英文文本翻译为ASL概览(即单词手势)序列。需要注意的是,ASL和英语有不同的词序。为了确保生成的概览顺序正确,将英语句子转换为对应的概览序列。最后,我们将概览序列转换为手势动画。
图3:英语翻译成ASL的流程
文章使用一个超过600,000条紧急呼叫记录的数据集。文章选择了六名手语使用者参与研究,包括两名母语ASL使用者、一位ASL语言专家和三名拥有两年以上手语经验的ASL学生。数据收集过程产生249GB的视频痕迹和超过11.5小时的用户手语动作。
文章使用5倍交叉验证来评估手势识别模型训练。将模型的准确性与两种最先进的识别模型进行比较(I3D SL-GCN)。文章的模型平均准确率为91.72%,标准差为1.27%,在手势识别方面与SL-GCN模型具有可比较的准确性,但比I3D模型更准确。
对于手语制作,文章比较了基于视频流和基于我们的基于眼镜的动画的手语制作的质量,如图4所示。基于视频的制作导致视频质量较差,使得难以识别手势。相反,音素流和基于眼镜的制作实现了高保真度的制作,具有低速率的移动眼镜通信。
图4:手语制作质量比较
文章量化测量了端到端延迟。对于ASL到英文,文章测量从手语完成到生成相应语音之间的间隔,并将延迟与移动设备上的SL-GCN模型(Mobile-SG+)和云端(Cloud-SG)进行比较。文章的解决方案平均用时0.55秒,对于Mobile-SG+(9.7秒)减少了17.4倍。尽管Cloud-SG通过其强大的GPU减少了处理时间,但仍比文章的解决方案慢7倍。对于英文到ASL的延迟,比较了三种解决方案:以480P流式传输生成的视频、流式传输完整骨架序列以及我们的音素流式传输。移动设备上的翻译平均需要122毫秒,而音素流式传输仅需206毫秒呈现动画。相比之下,基于视频和基于骨架的动画分别产生了22倍和16倍的延迟。
本文提出了Sign-to-911,该系统利用传统的人工智能/机器学习模型,同时融入了ASL语言领域知识,为听障人士提供基于AR眼镜的911紧急呼叫服务。
编辑:秘玮晨
原文作者:Yunqi Guo, Jinghao Zhao, Boyan Ding, Congkai Tan, Weichong Ling, Zhaowei Tan, Jennifer Miyaki, Hongzhe Du, Songwu Lu