【Nano-Micro Letters】具有自监督对比学习功能的可穿戴腕带,用于快速适应手势识别

文摘   2024-11-07 21:00   北京  

手势识别是一种直观的交流方式,在人机交互领域获得广泛关注。捕捉手部动作的常见技术包括图像识别、雷达系统和可穿戴技术等。其中,高分辨率摄像头、加速度计或雷达系统等笨重的设备不适合日常佩戴。相比之下,可穿戴设备可以无缝集成到各种配件中,为监测手部运动提供了一种有吸引力的替代方案。深度神经网络能够分析和学习可穿戴设备捕获的手势,但它们受到传统监督学习方法的限制,严重依赖大量的手动标记数据来执行单个任务,费时费力,同时在适应新用户或新场景又需要收集大量新的标记数据,或修改整体模型架构。因此,提高数据处理效率并优化训练过程以增强用户体验是一项重大挑战。

近日,山东大学李阳和北京理工大学沈国震团队在期刊《Nano-Micro Letters》上发表了最新研究成果“A Rapid Adaptation Approach for Dynamic Air-Writing Recognition Using Wearable Wristbands with Self-Supervised Contrastive Learning”。研究者提出了一种具有自监督对比学习功能的可穿戴腕带,其在动态运动跟踪方面表现出色,并且可以在多种场景中实现快速适应。所提出的算法从随机手腕运动的未标记信号中学习潜在特征。只需要少量标记数据就足以微调模型,从而能够快速适应各种任务。该系统在不同场景下实现了94.9%的高精度,包括八个方向指令的预测,以及所有数字和字母的空中书写。所提出的方法有助于在多个任务之间稳定切换,而无需修改模型结构或进行大量的特定任务训练。为了进一步拓展该系统的实用性,以增强数字平台上的人机交互,开发了包括游戏控制、计算器和三种语言的登录系统,为用户提供一种自然直观的通信方式。


图1. 可穿戴腕带和空中写作预测过程的示意图

可穿戴腕带利用时间序列交叉视图融合对比(TS-VFC)学习算法在人机交互中进行动态手势识别,如图1所示。这个通用的学习框架可以快速适应多种场景,而无需大量的标记数据收集。腕带具有四个柔性离电式器件阵列和用于无线通信的Wi-Fi模块。TS-VFC学习方法从手腕收集未标记的随机运动数据,创建一个先验特征的潜在空间 (LTS)。它使模型能够针对具有少量标记数据的新用户或场景进行微调,从而避免了大量训练或重新设计模型的需要。

图2. 传感机制和性能,以及 TS-VFC 算法架构

离电式器件的压力传感机制的示意图如图 2a 所示,光固化水凝胶在其中起着关键作用。阴/阳离子聚集在电极和水凝胶之间的界面处,形成电双层(EDL)。水凝胶层含多级微锥结构,以增加压力变化时的接触面积变化。低压力主要影响较高微锥的接触面积变化,随着压力的增加,当较高的微锥被压缩后,较小的微锥依次接触上部电极,接触区域发生了显著变化,由此产生了很高的界面电容。图 2e 描绘了整个预测过程,所提出的模型没有使用标签对四个电容信号进行分类,而是采用未标记的随机手腕运动信号进行自监督对比学习,区别于传统的监督算法。使用这种方法,可以自主学习传感器信号中的特征,形成一个可分离的特征空间,从而支持对不同任务进行分类。原理是计算相同样本和不同样本之间的相似性,创建手腕产生信号的 LTS,以表示先前的运动。因此,新用户可以快速参与各种任务的迁移学习,促进不同样本的划分。在执行新任务时,只需收集特定于该任务的少量手腕运动数据,然后将这些信号投射到 LTS 上。通过度量计算,将这些特征与实时输入进行比较,就能显示对手腕运动手势的精确预测,即使对于未包含在模型训练集中的任务也是如此。

图3. 方向预测和游戏控制的演示

当用户的食指指向不同的方向时,无线模块会捕获来自四个设备的相应电容信号。可以通过微调特定于方向的标记运动数据来实现实时方向预测。图3展示了当食指向八个不同方向移动时相应的信号波形。所提出的模型旨在有效地适应引入少量标记数据集的新操作,同时保留原始操作的信息。训练过程不需要加强,模型也不需要针对新添加的动作重新设计。对于8个方向,每个方向只需要5次数据即可完成微调。

图4. 空中书写数字和字母的演示

图 4a 说明了使用腕带进行空中书写数字的场景,以及显示四通道信号和预测的界面。数字“8”是通过在写入过程中提取电容信号来识别的。所提出的模型在预测16类数字和符号时实现了81.2%的平均准确率,每个类别只需5次学习,消除了大量标记数据进行训练的必要性。如图4b所示,采用t-SNE算法来可视化这些特征并将它们映射到特征空间上,揭示了每个类别形成不同的集群。尽管个体之间存在潜在差异,但所提出的模型可以持续学习新用户的写作特征。图4f说明了TS-VFC算法学习的预训练模型适应不同场景的能力。此外,以数字预测场景为例,通过构建不同的模型变体进行消融实验,与TS-VFC模型进行比较,旨在证明每个模块的有效性。

图5. 基于空中书写的计算器、键盘输入和登录系统的图示

空中书写输入系统(图5a)将来自腕带的信号通过无线模块传输到计算机进行进一步处理和识别,预测结果会实时显示在界面上。图5b表示空中书写方程 “2.9 × 5 + 6/3 =”时的四通道信号的连续变化,输入符号“=”即可得到方程的最终结果。图5c演示了使用功能键“SHIFT”切换三种语言(英文、中文、韩文)的问候语时的信号变化。支持多语言输入的登录系统如图5d所示,用户可以通过切换其空中书写用户名的输入来访问各种语言系统。无需学习专有符号即可将空中书写字符转换为计算机可理解的信号的能力,最大限度地减少了用户负担。

综上所述,该研究利用TS-VFC学习,推出了一种可穿戴腕带,有助于快速适应动态手势跟踪的各种场景。在模型的预训练阶段形成LTS后,腕带系统可以有效地处理多个场景中的各种任务,包括精确八方向命令的预测以及数字和字母的空中书写。它可以适应新的手势识别任务,而无需重新设计架构或对特定任务进行大量训练。使用最少的标记数据,可以微调模型以泛化到新任务,即使是那些最初未包含在训练数据中的任务。此外,还演示了游戏控制、计算器操作和登录系统等实际应用,突出了人机交互的可行性和潜力。这种基于自监督学习的腕带系统与用户无缝集成,通过与日常习惯相符的手势提供直观的通信和控制数字界面的方式。

论文链接:https://doi.org/10.1007/s40820-024-01545-8

纳米发电机
本公众号致力于发现、分享“纳米发电机”领域的优秀工作、科研进展! 关于公众号运营的建议和意见欢迎向我们反馈,也欢迎大家投稿课题组的最新科研进展和优秀工作:advanced_teng@binn.cas.cn。
 最新文章