本周科技看点速递
(11.11-11.17)
1 NeuralFeels技术助力机器人实现未知物体的精准操作
2 自适应“触觉反馈”智能数据手套
3 基于在线抓取姿态融合的可抓取性感知移动操作策略学习
4 一个框架搞定人物动作生成,精细到手部运动
5 用于可穿戴健康监测和弱光成像的氰配位卤化锡钙钛矿探测器
6 超导魔角扭曲双层石墨烯红外单光子探测最新进展
7 Rokid Glasses,开启AI+AR生活新体验
8 北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型
01
计算机科学
NeuralFeels技术助力机器人
实现未知物体的精准操作
抓取与操控未知物体一直是机器人领域的技术难题,尤其当视觉信息被遮挡时,机器人操作的精准度往往大幅下降。近期,Meta FAIR团队,提出了一种全新的多模态感知技术 NeuralFeels,通过融合视觉和触觉,实现了机器人在复杂场景下对未知物体的精确操作。
NeuralFeels技术采用视觉和触觉的多模态融合策略,使机器人能够动态生成物体的3D模型,精确估计其姿态和形状。在执行中,触觉与视觉协同分工:在视觉受限的情况下,触觉发挥关键作用;而在视觉信息充分时,触觉则用于优化微调。此外,该技术通过结合神经优化框架,实时构建并优化物体的几何形状与姿态,显著提高了操作精度。
研究团队在真实环境与模拟场景中测试了NeuralFeels技术,实验结果表明:在物体形状重建中精度提升平均超过15%,重建误差降至真实世界的3.9毫米。相比传统方法,姿态跟踪精度在真实场景中提升26.6%,在遮挡严重场景中提升幅度更高达94.1%。所述系统在复杂场景中表现优异,即使面对视觉深度噪声等挑战,NeuralFeels依然能够显著降低误差分布。
NeuralFeels技术展现了机器人在家庭、仓库和制造业等复杂场景中的广泛应用潜力。未来研究方向包括加入长期闭环检测以减少误差累积;优化神经SLAM输出,用于通用灵巧操作研究。
相关研究作为封面文章发表在Science Robotics期刊上。论文链接: https://www.science.org/doi/10.1126/scirobotics.adl0628
图1 封面论文
(图源:Science Robotics)
简评:
@清华大学机械系2023级硕士生 李明暄
这项研究以NeuralFeels技术为核心,深入探讨了视觉与触觉融合在机器人操作未知物体中的应用潜力。通过系统性实验与技术分析,研究者提出了多模态感知和动态神经场优化的新方法,并以此显著提升了复杂场景下的操作精度。这些创新点不仅为机器人操控领域提供了全新视角,也为后续视觉-触觉融合技术的深入研究奠定了坚实基础。
自适应“触觉反馈”智能数据手套
近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)推出一款创新型自适应智能手套,通过融合先进的智能传感技术与触觉反馈机制,实现对触摸指令的精准捕获、复制和传输。这款智能手套的核心亮点在于其基于数字机绣技术的设计与制作。研究团队将触觉传感器和振动触觉单元巧妙地嵌入织物中,形成高分辨率的传感与反馈矩阵(触觉传感器分辨率为0.25 cm²,振动触觉单元分辨率为4 cm²)。
得益于模块化设计,手套能够快速定制,满足不同用户和任务的需求。制作材料选择成本低廉的商用纺织品,在保证柔软性和耐久性的同时,仅需10分钟即可完成制备。振动触觉单元采用了基于线性谐振执行器的设计,通过刺绣线圈与嵌入式磁铁结合,实现了高度可调的振动强度与频率。触觉传感单元则基于压阻层设计,具备广泛的压力检测范围(0.35 N/cm²至20 N/cm²),并在高频循环中展现出稳定性能。
在多轮用户实验中,这款智能手套展现了卓越的触觉传输与交互性能:佩戴者在实验中能够以94%的准确率识别触觉单元的位置,并辨别其时间模式,表现出对触觉刺激的高度敏感性。通过自适应算法,手套捕获用户触觉输入后,可定制化调整触觉输出,成功实现师生间钢琴节奏的触觉迁移,显著提升交互效率。在厚防护手套的遮挡环境下,集成触觉传输的系统有效减轻了触觉感知损失,将用户的触觉识别准确率从原本的5.7%提升至88.6%。
本研究为基于纺织品的智能触觉系统提供了高效、灵活的实现路径,其模块化、快速定制和自适应设计有望推动触觉交互技术进入日常应用。未来,这种创新技术将在人机协作、教育、康复等领域大放异彩。
相关论文发表在Nature Communications杂志上。
论文链接:https://www.nature.com/articles/s41467-024-45059-8#ref-CR47
图2 转速优化飞行测试
(图源:ACM ToG)
简评:
@清华大学机械系2023级硕士生 李明暄
该研究提出了一种基于纺织品的模块化触觉手套系统,通过数字机绣与自适应算法实现高效触觉反馈。研究系统性验证了该技术在虚拟现实与机器人操控中的应用潜力,为触觉反馈与人机交互研究提供了新思路。
基于在线抓取姿态融合的
可抓取性感知移动操作策略学习
移动操作是机器人助手的一项基本任务,并在机器人学领域获得了广泛关注。在移动操作的研究中,一项具有挑战性但广受欢迎的任务设置是要求智能体主动观察并探索一个未见过的环境,目标是操作一个目标物体。北京大学王鹤提出了一种具有可抓取性先验的移动操作算法 GAMMA。该算法通过在线预测和融合可抓取位姿,获得了时序上一致的可抓取性位姿,并基于此构建了针对移动操作的强化学习观测和奖励机制。最终,GAMMA 在模拟环境和真实世界中均展现了出色的抓取表现。
该文章《GAMMA: Graspability-Aware Mobile MAnipulation Policy Learning based on Online Grasping Pose Fusion》发表于机器学习顶会《2024 IEEE International Conference on Robotics and Automation》 (ICRA2024)上。
图3 真实世界的抓取和抓取位姿的可视化
(图源:2024 ICRA)
简评:
@清华大学机械系2022级硕士生 潘智辉
该方法提出了一种基于在线抓取姿态融合框架的可抓取性感知移动操作方法,能够实现时间上一致的抓取观察,在具有挑战性的真实世界实验中表现出稳健的性能,是一个非常有潜力的工作,可以用在未来机器人移动操作上。
一个框架搞定人物动作生成,
精细到手部运动
近年来,人物动作生成的研究取得了显著的进展,在众多领域,如计算机视觉、计算机图形学、机器人技术以及人机交互等方面获得广泛的关注。然而,现有工作大多只关注动作本身,以场景和动作类别同时作为约束条件的研究依然处于起步阶段。
为了解决这一问题,北京大学朱毅鑫提出了一种使用自回归条件扩散模型的动作生成框架,实现真实、带有语义、符合场景且无长度限制的动作生成。此外,文章发布了大规模人物 - 场景交互数据集 TRUMANS,包含准确且丰富的针对人物动作以及三维场景的标注信息。
该文章《Scaling Up Dynamic Human-Scene Interaction Modeling》发表于机器学习顶会《The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2024》 (CVPR2024)上。
图4 本文提出的动作生成框架使用自回归机制,
将场景和动作类别作为条件控制动作的生成
(图源:CVPR 2024)
简评:
@清华大学机械系2022级硕士生 潘智辉
该文提出了一种融合场景和语义信息的动作生成框架,由自回归的扩散模型作为驱动,能够在给定动作类别和路径点的条件下,生成符合场景约束的人物动作。为了获取场景中的动作数据,该工作发布了一个全新的人物 - 场景交互数据集 TRUMANS,包含在真实世界捕捉的 15 小时动作数据,并合成到 3D 虚拟场景中,覆盖了卧室、餐厅和办公室等 100 个场景配置。TRUMANS 包含寻路、物体操作、及与刚性和铰接物体的交互等全面的日常行为,十分具有应用潜力。
北大等发布多模态版o1!
首个慢思考VLM将开源,
视觉推理超越闭源模型
北京大学等研究机构发布了首个多模态版o1开源模型——LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。LLaVA-o1在多模态推理基准测试中超越了其基础模型8.9%,并在性能上超越了一众开闭源模型,展现出强大的视觉推理能力。LLaVA-o1的核心优势在于其结构化、多步骤的推理方式。它将推理过程划分为四个阶段:总结、注释、推理和结论,并在每个阶段采用优中选优策略,为下一阶段提供响应。这种设计使得LLaVA-o1能够像人类一样进行系统化的思考,从而得出更加准确和合理的答案。为了进一步提升推理能力和推理时间的可扩展性,LLaVA-o1采用了阶段级光束搜索方法。这种方法允许模型在每个推理阶段生成多个候选结果,并从中选择最佳的结果进入下一阶段。通过这种分阶段的搜索策略,LLaVA-o1能够更有效地进行推理,尤其是在处理复杂的多模态推理任务时。LLaVA-o1的发布标志着多模态视觉语言模型推理能力的突破,也为相关领域的研究和应用提供了新的思路和方法。
图5 LLaVA-o1和其他模型的性能对比
(图源:arXiv:2411.10440 [cs.CV])
简评:
@清华大学机械系2024级直博生 张佳悦
LLaVA-o1的出现,展示了多模态视觉语言模型在推理能力上的巨大潜力。它不仅能够像人类一样进行系统化的思考,还能够通过阶段级光束搜索方法进一步提升推理效率。LLaVA-o1的开源,将推动多模态视觉语言模型的研究和应用,推动未来智能信息技术的发展。
Rokid Glasses,开启AI+AR生活新体验
近日,Rokid于在杭州成功举办了Rokid Jungle 2024合作伙伴暨新品发布会。Rokid携手BOLON眼镜,共同推出了一款集尖端科技与时尚设计于一身的新一代AI+AR眼镜——Rokid Glasses,向公众展示了其丰富多彩的内容生态体系。Rokid Glasses作为一款集AR显示和AI能力于一身的智能眼镜,以其时尚的外观、轻便的机身和丰富的功能,开启了AI+AR生活新体验。该眼镜具备真人翻译、智能助手和相机、语音点咖啡、AR导航、拍照录像等功能。Rokid Glasses的发布标志着AI+AR技术应用的落地,也为智能眼镜行业的发展提供了新的范式。
图6 AR眼镜实时翻译效果展示
简评:
@清华大学机械系2024级直博生 张佳悦
Rokid Glasses的出现,将AI和AR技术带入了大众视野,让人们看到了未来智能生活的可能性。它不仅具有实用的功能,更以时尚的外观和亲民的价格,打破了人们对智能眼镜的刻板印象。相信随着技术的不断发展和应用场景的不断拓展,智能眼镜将收获越来越多消费者的青睐。
02
先进制造
用于可穿戴健康监测和弱光成像的
氰配位卤化锡钙钛矿探测器
近年来,随着可穿戴技术的快速发展,健康监测设备的需求不断增加,尤其是在弱光环境下能够进行有效监测的光电探测器显得尤为重要。传统的钙钛矿光电探测器多采用铅基材料,虽然其在灵敏度和响应速度上表现优异,但铅的毒性限制了其在生物医学和可穿戴设备中的应用。因此,开发低毒性且高性能的替代材料显得尤为迫切。
中科院大学孟祥悦教授联合苏州大学李亮教授、广东工业大学黄乐副教授在AM刊发了一种新型的氰基配位锡卤化物钙钛矿(FASnI3-CNI),通过引入2-氰基乙胺碘化物(CNI)来抑制Sn2+的氧化,从而显著改善了探测器的性能。
实验发现基于FASnI3-CNI的暗电流低至1.04 × 10−9 A cm−2,相较于未添加CNI的FASnI3薄膜,降低了约87%。此外,探测器在785 nm波长下的检测灵敏度高达2.2 × 10^13 Jones,响应速度为2.62 μs,显示出其在快速信号监测中的应用潜力。
图7 技术原理图
简评:
@清华大学机械系2024级硕士生 王禹
CNI的引入有效增加了热发射和载流子生成所需的激活能,从而降低了自供电模式下的暗电流。这一机制的有效性通过密度泛函理论(DFT)计算得以验证,CNI分子与Sn2+之间的强配位作用显著抑制了Sn2+的氧化。此外,基于FASnI3-CNI的柔性光电探测器在弱光条件下(170 nW cm−2)成功实现了实时成像,展现出其在实时健康监测中的巨大潜力。
超导魔角扭曲双层石墨烯
红外单光子探测最新进展
近年来,超导材料在现代量子计算、量子传感和量子计量应用中扮演着重要角色。超导材料的独特性质使其成为开发高灵敏度探测器的理想选择,尤其是在光子探测领域。传统的超导探测器,如过渡边缘传感器和超导纳米线探测器,已经在许多应用中展现了其优越的性能。然而,随着技术的发展,研究人员不断寻求新型超导材料,以实现更高的探测效率和更广泛的应用范围。
慕尼黑大学研究团队通过电压偏置MATBG器件,成功实现了对单个近红外光子的探测。研究人员使用1550 nm激光源对设备进行照射,并监测由光子吸收引起的光电压(Vph)。当光子被吸收时,MATBG的超导状态会被破坏,生成的准粒子引起电阻变化,从而可以检测到光子的存在。这一过程不仅验证了MATBG作为单光子探测器的可行性,还为进一步的量子设备开发提供了重要的实验依据。
研究团队在实验中详细分析了光电压随激光功率的变化,发现随着激光功率的增加,光电压尖峰的出现频率也显著增加。通过对光电响应的统计分析,研究小组确认了光电压尖峰与光子的关系,且这种响应符合泊松分布,证明了该探测器具有单光子灵敏度。此外,研究还探讨了不同偏置电压下的光子计数率(PCR)变化,发现当偏置电压接近超导相变点时,探测器的性能显著提高。
图8 超导 MATBG 作为 SPD 超灵敏材料的研究
简评:
@清华大学机械系2024级硕士生 王禹
MATBG的独特结构和性能使其在量子传感领域具有广阔的应用前景。研究者们相信,利用MATBG的超导特性,可以开发出新一代的量子探测器,这些探测器不仅在灵敏度上超越现有技术,还能在更广泛的波长范围内工作。随着对MATBG材料及其特性的深入研究,未来有望实现更高效的光子探测,推动量子通信、量子成像等领域的发展。
03
加入我们成为科技青年!
与一群志同道合的小伙伴一起
追逐前沿科技动态,紧跟时代发展潮流
用文字表达你的科技观点
科技热点投稿联系方式:
15211534315(同微信号)
或 mingxuan-li@foxmail.com
部分文字或图片来源于网络,侵权删
供稿 | 清华大学机械工程系研究生分会
主办 | 清华大学机械工程系研究生分会
文字丨机械系研会学术部
编辑丨李林殊
审核丨王健健、钱泓宇、李明暄