经典思辨｜为使用辅助AR眼镜的手语用户提供的紧急呼叫服务

文摘 2024-06-03 12:02 北京

提要

本文是对MobiCom 2023会议入选论文《Sign-to-911: Emergency Call Service for Sign Language Users with Assistive AR Glasses》的解读。Sign-to-911提供了一种移动系统解决方案，用于快速和实时的美国手语（ASL）和英语翻译。它被指定为在紧急情况下为有听力障碍的ASL用户提供的911呼叫服务。它实现了ASL到英语和英语到ASL的双向翻译。用户佩戴AR眼镜，在他/她的智能手机和眼镜上运行Sign-to-911，并与911操作员交互。Sign-to-911的设计背离了流行的基于深度学习的解决方案模式，采用了更简单的传统的AI/机器学习（ML）模型。关键在于利用ASL语言特点来简化模型结构，提高准确性和速度。它进一步利用了图形，视觉，自然语言处理以及AI/ML的最近组件解决方案。

研究背景

MPIWasm运行时基于Wasmer运行时实现，支持：（1）通过将基于MPI的HPC应用程序编译为Wasm来实现高性能执行；（2）通过零复制内存操作实现 MPI 调用的低开销；（3）支持高性能互连，例如Infiniband和Intel OmniPath；（4）通过在Wasm和主机MPI库间提供转换层使得开发人员无需了解目标 HPC 系统上存在的特定MPI库或网络互连。

美国手语（ASL）是美国和加拿大部分地区的听障人士主要使用的交流语言。估计有0.5至2百万的用户。与口头和书面语言不同，ASL是一种视觉语言，依赖于手势特征和动作来表达单词和句子。ASL有其自己的词汇和语法，它两种主要的词汇格式：手语和拼指字。手语是用来代表常见物体、动作和概念的词的图像化手势。拼指字用于表达ASL中没有等效手势的单词。它利用指定的手形来代表英语字母表，拼写出例如姓名、地址和位置等单词。ASL有其自己的语法系统，与英语不同。

911在美国提供紧急呼叫服务。尽管提供多语言支持，但当前的911系统不提供有效的通信渠道，供ASL用户与911操作员进行通信。这在很大程度上是由于ASL和其他口头语言之间的差距；ASL是一种视觉交流语言，需要在运行时进行正确解释。

文章旨在解决ASL社区一个简单但重要的问题：是否可以构建一个移动系统解决方案，用于在可穿戴设备和智能手机上进行ASL和英语之间的翻译，而不需要任何云/边缘支持。同时，必须解决大型训练数据集、大量计算和大量能量开销的限制。这排除大多数基于深度学习的方法，因为它们无法在移动设备上运行而不带来过多的计算和能量开销。

方法设计

文章抛开了基于深度学习的解决方案范式，设计了一个轻量级系统Sign-to-911，用于快速的ASL和英语翻译。如图1所示，在紧急情况下，用户通过智能手机拨打911电话。AR眼镜捕捉签名者手语动作的实时视频。然后，通过蓝牙将视频帧传送到智能手机进行手语识别和句子翻译。翻译的英文文本转换为语音，并通过电话发送给911操作员。操作员的语音响应被转换为ASL句子和3D角色的手语动画，这些内容被渲染在AR眼镜上。

图1：Sign-to-911的工作流程

第一个任务是在911呼叫时在眼镜-手机设置下将ASL翻译成英语。图2展示了三个主要步骤。首先，捕捉用于识别的手势参数。其次，利用ASL领域知识根据这些参数进行快速手势识别。最后进一步从手势序列构建连贯的句子并将它们翻译成英语。识别的手势参数包括手数、手形、手腕轨迹、手掌方向序列。在识别的过程中首先进行骨架提取，然后将捕捉到的手腕轨迹序列需要被分割为不同的手势，并从手部骨架中提取手部数量和运动。手语者的手势被转换成一系列手势参数，根据这些参数进行手语识别，使用快速动态时间规整算法将捕获的手部轨迹与相同类别中的候选手势进行匹配。在识别了ASL手势之后，将它们翻译成英文句子，解决语法翻译问题和同音异义词的歧义问题。

图2：ASL翻译成英语的流程

第二个任务是英语到手语的翻译。图3显示了其流程，从操作员的回应中生成手势，使用3D头像使生成的手势动画化，并在增强现实眼镜上渲染出来。传入的语音通过智能手机上的语音转文字模块转换为英语句子。然后，将英文文本翻译为ASL概览（即单词手势）序列。需要注意的是，ASL和英语有不同的词序。为了确保生成的概览顺序正确，将英语句子转换为对应的概览序列。最后，我们将概览序列转换为手势动画。

图3：英语翻译成ASL的流程

实验评估

文章使用一个超过600,000条紧急呼叫记录的数据集。文章选择了六名手语使用者参与研究，包括两名母语ASL使用者、一位ASL语言专家和三名拥有两年以上手语经验的ASL学生。数据收集过程产生249GB的视频痕迹和超过11.5小时的用户手语动作。

文章使用5倍交叉验证来评估手势识别模型训练。将模型的准确性与两种最先进的识别模型进行比较（I3D SL-GCN）。文章的模型平均准确率为91.72%，标准差为1.27%，在手势识别方面与SL-GCN模型具有可比较的准确性，但比I3D模型更准确。

对于手语制作，文章比较了基于视频流和基于我们的基于眼镜的动画的手语制作的质量，如图4所示。基于视频的制作导致视频质量较差，使得难以识别手势。相反，音素流和基于眼镜的制作实现了高保真度的制作，具有低速率的移动眼镜通信。

图4：手语制作质量比较

文章量化测量了端到端延迟。对于ASL到英文，文章测量从手语完成到生成相应语音之间的间隔，并将延迟与移动设备上的SL-GCN模型（Mobile-SG+）和云端（Cloud-SG）进行比较。文章的解决方案平均用时0.55秒，对于Mobile-SG+（9.7秒）减少了17.4倍。尽管Cloud-SG通过其强大的GPU减少了处理时间，但仍比文章的解决方案慢7倍。对于英文到ASL的延迟，比较了三种解决方案：以480P流式传输生成的视频、流式传输完整骨架序列以及我们的音素流式传输。移动设备上的翻译平均需要122毫秒，而音素流式传输仅需206毫秒呈现动画。相比之下，基于视频和基于骨架的动画分别产生了22倍和16倍的延迟。

总结

本文提出了Sign-to-911，该系统利用传统的人工智能/机器学习模型，同时融入了ASL语言领域知识，为听障人士提供基于AR眼镜的911紧急呼叫服务。

编辑：秘玮晨‍‍‍

原文作者：Yunqi Guo, Jinghao Zhao, Boyan Ding, Congkai Tan, Weichong Ling, Zhaowei Tan, Jennifer Miyaki, Hongzhe Du, Songwu Lu

数据空间技术与系统

数据空间技术与系统全国重点实验室面向国家数据空间建设的中长期战略需求和重大任务，开展数联网基础软件与数据空间操作系统的技术体系、标准规范、核心系统、试验环境、应用示范与开源生态等重点任务研究。

最新文章

经典思辨｜Collie：查找 RDMA系统中的性能异常

人民网、新华网发布！聚焦共建共享共治全球数据基础设施数联网高峰论坛在京成功举办

经典思辨｜Dirigent: 轻量化的服务器无感知计算编排系统

关注｜数据空间技术与系统全国重点实验室2024年度开放基金立项课题公布

学界前沿 | 如何解决大模型长距离依赖问题？HiPPO 技术深度解析

经典思辨｜(几乎）零气泡流水线并行

《智人之上：从石器时代到AI时代的信息网络简史》

诺奖专题 | 诺奖级成果开源！为什么说AlphaFold2足以改变全人类？

业界前沿 | PolarDB 的 BLOB 实现与性能优化

学界前沿 | 无需人工标注的 3D 目标检测：基于视觉语言引导的无监督学习方法

经典思辨｜Spectrumize: 物联网卫星星地通信链路频谱优化

Kins（K3s in SuperEdge）海量 K3s 集群秒级部署

学界前沿 | 覆盖5.4w+图像，MIT提出医学图像分割通用模型ScribblePrompt，性能优于SAM

经典思辨｜WaDec：使用大语言模型反编译WebAssembly

业界前沿 | 浅谈 K8s Service 网络机制

经典思辨｜PowerInfer-2：在内存受限的移动设备上运行大型语言模型

业界前沿 | 一念 LLM 大语言模型推理加速

学界前沿｜英伟达 & MIT 提出 LongVILA ，从 8 帧到 1024 帧如何实现长视频理解的飞跃？

经典思辨｜GENRET：学习如何为生成式检索进行分词

经典思辨｜用于 WebAssembly 的灵活非侵入式动态插桩技术

业界前沿 | Runway踢馆Luma，重磅发布Gen-3 Alpha！10秒视频仅需90秒

学界前沿｜华中科技 & 地平线提出通用视觉 Backbone 网络， FLOPs减少 5.2倍，速度提高4.8倍！

经典思辨｜Mobile Foundation Model as Firmware: 将大模型作为移动设备的基础固件

业界前沿 | AI 技术演进与商业落地：从学术探索到创业实践的全景观察

学界前沿 | 突破内存瓶颈 KCache, 不需要任何训练，适用于各种主流结构，提升 LLM 大型语言模型推理效率！

经典思辨｜DistFlashAtten：面向长上下文大语言模型训练的内存高效的分布式注意力机制

业界前沿｜微软开发者大会，Copilot Agents发布，掀起新一轮生产力革命！

学界前沿｜上海AI lab发布MathBench，GPT-4o的数学能力有多强？

经典思辨｜为使用辅助AR眼镜的手语用户提供的紧急呼叫服务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉