模型案例：| 手势动作识别模型训练与应用！

科技 2024-10-16 18:05 河北

导读

2023年以ChatGPT为代表的大语言模型横空出世，它的出现标志着自然语言处理领域取得了重大突破。它在文本生成、对话系统和语言理解等方面展现出了强大的能力，为人工智能技术的发展开辟了新的可能性。同时，人工智能技术正在进入各种应用领域，在智慧城市、智能制造、智慧医疗、智慧农业等领域发挥着重要作用。

柴火创客2024年将依托母公司Seeed矽递科技在人工智能领域的创新硬件，与全球创客爱好者共建“模型仓”，通过“SenseCraft AI”平台可以让使用者快速部署应用体验人工智能技术！

本期介绍：模型案例：| 手势动作识别模型训练与应用！

GroundingDINO

基于DINO的开放式检测器Grounding DINO不仅实现了最先进的物体检测性能，还通过Grounding预训练实现了多级文本信息的集成。与 GLIP 或接地语言图像预训练相比，GroundingDINO 具有多项优势。首先，其基于Transformer的架构，类似于语言模型，便于处理图像和语言数据。

该方法融合了文本和图像两个模态的数据，实现了开放集目标检测，即给定一个文本提示，自动框出目标所在，该目标可以是训练集中没有的类别。该方法主要通过特征增强模块、语言指导查询选择模块、跨模态解码模块实现上述功能。

GroundingDINO架构

如上图所示，该方法从下到上主要包括五大模块：特征提取模块（Backbone）、特征增强模块（Feature Enhancer）、语言指导查询选择模块（Language-guide Query Selection）、跨模态解码模块（Cross-Modality Decoder）、损失计算模块（Loss）。

该框架支持多种功能，包括推理、对象检测数据训练、基于接地的数据训练等。它采用了PyTorch作为主要开发库，并优化了训练策略以加快模型收敛速度。Grounding DINO的灵活性体现在其对混合数据集的支持上，可以同时处理OD（对象检测）和VG（视觉基因组）数据，使得模型能够在更广泛的上下文中学习和泛化。

应用场景

Grounding DINO可应用于多种场景中，例如智能监控、自动驾驶、无人机导航以及图像搜索等领域。尤其是在多模式识别和理解方面，它的表现尤为出色。结合BERT等语言模型，Grounding DINO能根据文本提示精确定位图片中的目标对象，极大地提升了场景理解和语义解析的能力。

Grounding DINO特点

适应性强：不仅能在官方提供的预训练模型下运行，还能通过微调以适应特定数据集。

高度可配置：提供了详细的配置文件，允许用户自定义训练参数，如backbone架构、批量大小、学习率等。

训练加速策略：针对大型数据集设计，采用torch.distributed.launch进行分布式训练，支持多机协同工作，大幅缩短训练时间。

广泛的数据兼容性：支持OD和VG两种不同类型的标注数据，极大扩展了模型的应用范围。

手势动作识别模型训练与应用

在模型案例推文中，介绍过通过摄像头进行视觉识别和通过麦克风进行声音识别案例，今天介绍第三种识别形式：利用三轴加速度传感器进行动作识别。

我们尝试利用手机自带的三轴加速度传感器来采集三种动作手势，包括左右晃动、上下晃动和静止不动

动作训练与应用

Edge Impulse 是一个专注于边缘计算和物联网 (IoT) 的机器学习平台。它允许开发者和企业创建、训练和部署机器学习模型，以便在边缘设备上运行。

官网 : edgeimpulse.com

易于使用：提供图形用户界面，让非数据科学家也能轻松使用。

快速原型：支持快速构建和测试机器学习模型，缩短开发周期。

多种数据输入：支持从多种传感器和数据源收集数据，如音频、图像和加速度计等。

模型优化：能够对模型进行优化，以适应边缘设备的限制，例如减少内存和计算需求。

支持多种平台：可以将模型部署到不同的硬件平台，包括微控制器和更复杂的嵌入式系统。

采集三种手势动作数据

1、进入Edge Impulse官网，注册并登录账号后点击右上角【Create new project】按钮，创建一个项目，如下图所示。

2、在文本框中输入项目名称（备注：请输入英文名称），单击右下角的【Create new project】按钮，这样就创建了一个新项目，如下图所示。

3、进入项目后单击左侧的【Data acquisition】按钮，进入数据采集页面，如下图所示。

4、进入数据采集页面后，在右侧的“Collect data”中点击“Connect a device”链接，如下图所示。

5、弹出Collect new data窗口，用手机浏览器扫描下左侧的二维码，如下图所示。

6、在手机浏览器上会显示连接界面，这里列出了手机可采集数据的方式包括摄像头、麦克风和三轴加速度传感器，这里单击【Collecting motion】按钮，，如下图所示。

7、进入提示页面，单击【Give access to the accelerometer】按钮，打开手机上的三轴加速度传感器，如下图所示。还会弹出一个询问是否允许界面，单击【允许】按钮。

8、这样就进入三轴加速度传感器采集页面，单击“Label”会弹出设置类别窗口，这里会采集三个类别包括左右晃动（about）、上下晃动（up_anddown）和静止不动（static）；比如采集静止不动，在单击“Label”选项输入“static”，单击【Start recording】按钮如下图所示。

9、单击【Start recording】按钮后，手里拿着手机静止不动，等待1秒钟后就会将三轴加速传感器的x、y、z的三轴数据上传到Edge Impulse平台上，如下图所示。

10、手机上采集的三轴加速度传感器数据会上传到Edge Impulse的项目页面中，在“Dataset”列表中会列出采集数据文件，右侧会显示出此文件的x、y、z三轴折线图表，如下图所示。按照这种方法先参加20到30条静止不动（static）的数据。

11、接着采集，拿着手机上下晃动（up_anddown）动作状态采集30条左右，如下图所示。

12、最后采集左右晃动（about）动作状态30条左右，如下图所示。

13、采集三个手势动作数据后，在左侧【MImpulse design】中单击【Create impulse】选项，添加“处理块”和“学习块”，添加标星号的推荐内容即可，最后单击【Save lmpulse】保持设置，如下图所示。

14、接着单击左侧的【Spectral features】选项，进分析页面后单击【Save parameters】按钮保存参数特征，如下图所示。

15、然后单击【Generate features】生成特征要素，经过一段时间会生成特征图，如下图所示。

16、单击左侧的【Classifier】选项进入训练模型页面，设置训练周期数为“45”，然后单击【Save & train】按钮，开始进行模型训练经过一段时间后在页面的右侧会显示出模型的准确率和损失率等指标，如下图所示。

17、单击左侧的【Deployment】模型部署选项，进入模型部署页面，在选择框中选择“Arduino library”选项；在“MODEL OPTIMIZATIONS”模型优化选项中选择“TensorFlow Lite”，使用默认的“INT8”模式，最后单击底部的【Build】按钮，如下图所示。

18、在右侧的“Build output”选项中可以看到生成相应格式模型的过程和进度，完成模型后会弹出一个窗口提示如何添加Arduino模型库文件和预览案例文件，如下图所示。

19、同时会弹出提示Arduino模型库文件下载提示窗口，将其下载到特定文件夹中即可，如下图所示。

20、这样手势动作识别模型就训练完成并生成了支持Arduino的库文件，打开Arduino IDE软件选择【工具】-【导入库】-【添加zip库】添加此手势动作识别模型库文件，如下图所示。

下载模型库文件：https://share.weiyun.com/ln2nwFTJ

21、导入模型库文件后会生成一个后缀为inferencing名字的库文件，在单击【文件】-【示例】-【后缀是inferencing名字的库文件】-【esp32】-【esp32_fusion】，打开此案例程序，如下图所示。

22、esp32_fusion案例程序是以基于 LIS3DHTR 芯片的三轴加速度传感器为例的，到这里需要先连接好相应的硬件，这里使用了一个XIAO ESP32 S3（Sense）开发板、一个XIAO扩展板和一个Grove - 3-Axis Digital Accelerometer (LIS3DHTR)三轴加速度传感器连接到一起。

23、esp32_fusion案例程序如果无法启动或初始化Grove - 3-Axis Digital Accelerometer (LIS3DHTR)三轴加速度传感器，就需要修改下相应的代码，可以使用这个修改过的案例程序试试。

具体程序代码请在网盘中下载查看

https://share.weiyun.com/QHhHzmbz

24、将相关硬件连接好并用数据线将XIAO ESP32 S3（Sense）开发板与电脑的USB接口连接后，开始上传此程序（备注：如果上传失败在工具菜单中，请打开PSRAM功能），上传成功后打开串口监视器可以看到三轴加速度初始化成功，并输出三个类别名称和置信率等信息，如下图所示。

25、手里拿手机并左右或上下摇晃，通过串口可以观察到about或up_anddown这两个类别后面的值会改变，这个值就是预测结果的置信率，比如0.8就代表80%的预测结果是这个类别。

模型推理演示，请看如下视频。

XIAO ESP32S3 Sense 套装介绍

XIAO ESP32S3（Sense）

强大的 MCU 板：集成ESP32S3 32 位双核 Xtensa 处理器芯片，运行频率高达 240 MHz，安装多个开发端口，支持Arduino/MicroPython
高级功能：可拆卸OV2640相机传感器，分辨率为1600*1200，兼容OV5640相机传感器，集成附加数字麦克风
超强内存，带来更多可能性：提供 8MB PSRAM 和 8MB 闪存，支持 SD 卡插槽，用于外部 32GB FAT 内存
出色的射频性能：支持2.4GHz Wi-Fi和BLE双无线通信，连接U.FL天线时支持100m+远程通信
拇指大小的紧凑型设计：21 x 17.5mm，采用XIAO的经典外形，适用于可穿戴设备等空间有限的项目
来自 SenseCraft Al 的用于无代码部署的预训练 Al 模型

写在最后

SenseCraft-AI平台的模型仓数量还很少，但是好消息是它支持自定义模型上传并输出推理结果，平台会逐渐增加模型仓的数量和分享有爱好者设计的模型仓原型，敬请关注！

粉丝福利

扫码领取

XIAO ESP32S3（Sense）套装

优惠卷

首单 76元

即可体验模型仓中的各种模型

本文图片素材来源于网络，如有侵权后台联系删除！

往期模型案例回顾

新一代信息技术赋能｜人才升级｜产业创新

柴火课程合集！

柴火驻场会员火热招募中！

Seeed Studio物联网设备试用中心落地柴火！

----END----

Chaihuo x.factory｜深圳，河北

http://mp.weixin.qq.com/s?__biz=MjM5MjIzNDAxNA==&mid=2651991994&idx=1&sn=aa0fb830938ba6a56750e24f9913f405

柴火创客空间

深度服务产业升级的国际化双创平台

最新文章

如何让校园更智慧更便捷更绿色？他们出了这些创新解决方案

地瓜机器人 RDK X5 开发工作坊震撼来袭！千元内最强机器人开发套件等你挑战

海量工作坊来袭，等你解锁无限创意！

重磅 | 2024创新论坛主题、嘉宾阵容、报名攻略全解析！

Maker Forum 2024 Now Open for Registration!

海量工作坊来袭，等你解锁无限创意！

重磅 | 2024创新论坛主题、嘉宾阵容、报名攻略全解析！

Maker Forum 2024 Now Open for Registration!

重磅 | 2024创新论坛主题、嘉宾阵容、报名攻略全解析！

Maker Forum 2024 Now Open for Registration!

卫星活动 | 深圳湾对话创客：Maker是如何炼成的？

模型案例：| 手机识别模型！

转载：【团学动态】“柴火创客校园AI硬件”竞赛活动决赛圆满落幕

AI赋能·共创绿色 —— 深职大智慧校园创新Hackathon活动圆满落幕

燃点月刊 | 10月柴火动态，新鲜奉上！

创客项目秀|基于Grove Vision AI V2和XIAO ESP32S3的助盲环境感知装置

线下集结令 | Maker Faire安谋科技工作坊招募开发板体验官，席位有限，预报从速！

模型案例：| 花卉分类识别模型！

Maker们的动手能力都这么强吗？一起来看48小时创客马拉松

矽基金 - 让孤独的创新破土而出

创客项目秀|基于XIAO ESP32S3 的可以检测困倦的海绵宝宝！

矽基金 - 让孤独的创新破土而出

模型案例：| 辣椒炭疽病识别模型！

柴火新农人071 l 杨喜堤：用数字育种赋能“中国猪芯”

创客项目秀|基于xiaoESP32C3的桌面嵌入式充电站

模型案例：| 手势动作识别模型训练与应用！

活动推荐 | 第二届全球铁路创客大赛亚太区赛事正式启动！

终于来了！Maker Faire Shenzhen 2024最终参展名单公布！

基于Grove Vision AI V2的洗衣机监测模块

模型案例 | SenseCraft Al平台模型训练与部署！

卫星活动 | Super Makers，万科云城邀你共创赛博空间啦！

燃点月刊 | 9月的柴火动态，新鲜奉上

论坛回顾 | 科技赋能下的社区更新

基于使用 XIAO BLE Sense 和 Edge Impulse 的宠物活动跟踪器

模型案例：| 野生鸟类检测模型！

柴火创客2024校园大使项目分享（第三期）

柴火创客2024校园大使招募令

模型案例 | 行李检测模型！

基于XIAO ESP32S3 Sense 的最小 DIY 相机

模型案例：| 篮球识别模型！

基于XIAO ESP32S3 Sense的盲人辅助智能眼镜

社区沙龙 | 久违的高科技龙门阵

柴火共进社 | AI新交互闭门会，一起聊聊怎么更好地用AI硬件

《芯有翼创无界》：探索高校双创实验室的创新实践与企业合作

柴火共进社 | AI新交互闭门会，一起聊聊怎么更好地用AI硬件

模型案例：| 网球检测模型！

月度智能可穿戴分享会嘉宾招募开启！

燃点周刊 | 009期新鲜奉上

柴火共进社 | AI时代下社交应用和发展趋势将如何变化？

创客项目秀|基于XIAO ESP32C3的Night Lamp With Chinese Traditional Pane项目

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉