本周科技看点速递
(10.28-11.3)
1 AI助力移动设备自动化:西安交通大学提出VisionTasker方案
2 探索翅果的空气动力学性能边界:人工智能辅助设计翅果新形态a
3 无需人类教导的单目6D物体姿态估计算法
4 从3D点云中学习语意信息
5 温度促进镧系元素掺杂 3D 陶瓷微架构中的光致发光
6 无需依赖外部刺激即可实现复杂形状变化的新型形状记忆聚合物
7 波士顿动力人形机器人Atlas进厂自主作业,展现未来自动化潜力
8 新器件的开发,可降低2个数量级的碳排放
9 废气处理新方法
10 用于近零功耗人工仿生视网膜功能的可重构同质结光电晶体管
01
计算机科学
AI助力移动设备自动化:
西安交通大学提出VisionTasker方案
近日,西安交通大学智能网络与网络安全教育部重点实验室(MOE KLINNS Lab)的蔡忠闽教授和宋云鹏副教授团队推出了一项创新性研究——VisionTasker,这是一个基于视觉的移动设备任务自动化方案。该方案利用AI技术,通过视觉方法理解和执行用户界面上的任务,无需用户手动操作,大大简化了移动设备的使用过程。VisionTasker能够帮助视障人群、老年人等特殊需求群体更好地使用移动设备,同时也能在驾驶等特殊情境下提供便利。实验评估显示,VisionTasker在处理多样化任务时表现出色,甚至在一些不熟悉的任务中超越了人类的表现。该研究已发表于人机交互领域会议UIST。
图1 VisionTasker的工作流程
(图源:UIST '24)
简评:
@清华大学机械系2024级直博生 张佳悦
VisionTasker的推出,标志着移动设备自动化领域的重大突破,它不仅提升了普通用户的交互体验,也为特殊需求群体提供了极大的便利。这项研究展示了AI技术在简化人机交互方面的巨大潜力,有望推动移动设备操作向更加智能、便捷的方向发展。
探索翅果的空气动力学性能边界:
人工智能辅助设计翅果新形态a
为了繁衍生息,植物可谓费尽心思,有一些植物演化出了适宜飞翔的种子特殊构造,可以将果实带到离母树很远的地方。这类种子被称为翅果或翼果,在一颗小小的种子上方,由纤维组织构成的薄翼形成升力,在空气动力学的作用下可抵达几十公里,甚至上百公里的远方。世界上的翅果形态各异,包括单侧、蝶翅、圆翅、披针、棱翅、苞翅等。人类能否运用人工智能(AI)自动生成新形态的翅果?人造翅果的空气动力学性能是否可以超越自然翅果?人造翅果有哪些实际应用和探索方向?
若想借助AI自动设计种子的形态,核心挑战是如何让计算机理解种子的生成原理和路径。为解决这一问题,不仅需要高质量的数据集,更需要一套算法模型。研究组利用清华大学基础工业训练中心提供的手持式三维扫描仪对每一颗翅果进行了三维数字重建,经过处理后形成了包含55枚种子三维样本的数据集。这些种子横跨14个物种,保证形态的多样性。在构建算法方面,研究者借助对生物演化的观察,利用三维微分同胚群和测地坐标等数学工具对种子形状进行理解和生成。杜韬助理教授解读说:“收集到的翅果与圆片有同样的拓扑结构。从自然演化的角度,我们假想每个收集到的翅果都是由圆片演化而来,只是在演化过程中选择了不同的路径。受此启发,我们基于一些对演化路径的数学和生物假设,为每一种翅果解算了一条从圆片开始的光滑变换,随后在光滑变换中进行差值,融合出大量新的演化路径,探索出了许多全新的翅果形态。”
在仿真实验中,优化后的翅果转速提升了约29%。而在五次空气中的飞行测试中,优化后的翅果转速提升了27.6%到50%。下落速度和飞行距离同样影响翅果的传播效果,在两组特定场景的仿真实验中,人造翅果和天然翅果相比下落时间更长,飞行距离更远,潜在的传播范围更广。
相关论文发表在计算机图形学期刊 ACM Transactions on Graphics。
图2 转速优化飞行测试
(图源:ACM ToG)
简评:
@清华大学机械系2024级硕士生 王禹
该研究融合植物仿生学与计算机技术,充分借鉴植物演化智慧,成功研发出飞行性能优于自然界翅果的仿生飞行器模型。通过算法优化及人工智能设计,不仅提炼出植物翅果经漫长演化在空气动力学方面产生的独特优势,还基于此创造出在某些空气动力学参数上更优的仿生飞行器设计方案。
无需人类教导的
单目6D物体姿态估计算法
6D物体姿态估计(即相对于相机的3D平移和3D旋转)是计算机视觉中的一个基础但具有挑战性的问题。卷积神经网络(CNN)最近已被证明即使在单目设置下也能够预测可靠的6D姿态估计。尽管如此,CNN被识别为极度依赖数据,获取足够的注释通常非常耗时和劳动密集。
为了克服这个限制,清华大学季向阳提出了一种新颖的单目6D姿态估计方法,通过自监督学习,消除了对真实注释的需求。使用合成RGB数据完全监督训练的网络之后,利用当前趋势中的噪声学生训练和可微渲染进一步在这些无监督的真实RGB(-D)样本上自我监督模型,寻求视觉和几何上最优的对齐。此外,使用可见和amodal掩码信息,自监督变得对遮挡等具有挑战性的场景非常健壮。广泛的评估表明,该自监督方法在依赖合成数据或采用领域适应技术的所有其他方法上都表现更好。值得注意的是,改自监督方法在性能上持续优于其合成训练的基线,并且通常几乎接近其完全监督的对应物。
该文章《Occlusion-Aware Self-Supervised Monocular 6D Object Pose Estimation》已发表机器学习领域期刊IEEE Transactions on Pattern Analysis and Machine Intelligence。
图3 网络整体框架
(图源:IEEE TPAMI)
简评:
@清华大学机械系2022级硕士生 潘智辉
单目 6D 物体姿态估计一直是计算机视觉领域的难题,对机器人操作、增强现实和自动驾驶等应用意义重大。当前基于学习的方法虽有前景,但需大量数据且标注训练标签困难。现有解决方法存在不足,本文受相关趋势启发,提出自监督方法,包括两阶段训练和多种优化手段,无需真实 6D 标签,实验证明其性能优异,超越其他相关方法。该方法在机器人、自动驾驶领域有巨大潜力,为解决现实问题提供了新的可能。
从3D点云中学习语意信息
点云的上下文学习是一种在 3D 点云理解领域中应用的新学习范式,它源于自然语言处理(NLP)。在点云的上下文中,上下文学习可以帮助模型更好地理解点云数据中的语义信息,从而提高点云处理任务的性能。
所述研究工作主要围绕 3D 点云理解中的上下文学习展开。首先进行问题定义,探索在 3D 点云领域应用上下文学习这一新型学习范式的潜力。接着提出 Point - In - Context(PIC)框架用于 3D 点云上下文学习,处理多种任务。设计联合采样模块解决信息泄露和点云无序性问题。基于特定数据集定义四个 3D 点云任务并构建数据集。模型以标准 transformer 为骨干,采用编码器 - 解码器结构,针对重建任务设计特殊任务头部,使用ℓ2 Chamfer Distance 作为损失函数。创新点包括首次将上下文学习拓展至 3D 点云领域、提出 PIC 框架和联合采样模块、具备多任务处理能力、创建新基准测试、模型有泛化能力以及研究提示工程对模型性能的影响。
该文章《Explore In-Context Learning for 3D Point Cloud Understanding》发表于机器学习会议Advances in Neural Information Processing Systems (NeurIPS 2023)上。
图4 文章框架
(图源:NeurIPS 2023)
简评:
@清华大学机械系2022级硕士生 潘智辉
点云上下文是一个很有意思的话题,对于三维视觉来说结合了NLP的知识和CV的知识,是一个相对较新的领域。改文章很好的展示了点云上下文的潜力,提出的框架也很好的解决了信息泄露等信息问题,是值得follow的工作。
02
先进制造
温度促进镧系元素掺杂
3D 陶瓷微架构中的光致发光
双光子光刻(Two-Photon Absorption Lithography,TPL),是一种先进的微纳米结构制造技术,具有超高分辨率的特性,能够在空间上实现三维结构的精细制作。其原理基于双光子共振效应。在特定材料上,使用高能激光束同时照射两个光子,这两个光子被材料中的电子同时吸收,产生足够的耦合效应,使得电子能量上升至可以引发离子效应的高能量状态。这一过程突破了传统光刻技术的衍射极限,实现了亚微米级甚至纳米级的分辨率。
这项技术尤其适用于处理具有高折射率的材料,如氧化锆(ZrO2),为先进光学技术的实现开辟了新的道路。然而,在实际应用中,通过TPL技术从定制的光树脂中制备出的预陶瓷复制品的结晶度往往未能达到预期,这直接影响了在ZrO2微结构中镧系(Ln)掺杂剂的光发射效率。具体而言,如果结晶度不足,Ln掺杂剂的发光性能可能会大打折扣。
尽管如此,科研人员发现了一种有效的解决方案:通过退火处理来增强材料的结晶度,从而显著提升Ln掺杂剂的发光效率,使得这些陶瓷微光学元件能够顺利集成到低温制造工艺中。在此基础上,该研究工作提出了一种新型光敏树脂配方,该配方专用于TPL技术,并包含了专为这一目的而量身定制的金属有机单体。利用这种新型树脂,成功制造出了掺杂有镧元素的四方相氧化锆(t-ZrO2)微结构。
对三价Ln离子(Ln3+)即Yb3+掺杂的微体系结构的发射特性进行了研究,结果表明,在600℃退火时,微体系结构不存在Ln发射。研究了在(2.5 mol%)、Er3+(0.35 mol%)和Tm3+ (0.35 mol%)下的退火。结果表明,750°C激活了Ln3+的发射,包括2F5/2-2F7/2(红外)、4S3/2-4I15/2(绿色)和3h4 - 3f6(近红外)跃迁,对应于Yb、Er和Tm。透射电子显微镜(TEM)证实,在750℃时,t-ZrO2结晶度变得更加突出,表明热处理促进了Ln的发射,并强调了晶体在TPL微光学陶瓷中的作用。
图5 光敏树脂配置及TPL技术原理图
简评:
@清华大学机械系2024级硕士生 李林殊
该实验进一步证实750℃退火后的t-ZrO2微结构具有更为突出的结晶度。这一发现不仅强调了热处理在促进Ln发射中的关键作用,也深刻揭示了晶体结构在TPL微光学陶瓷性能优化中的不可或缺性。综上所述,本研究不仅为TPL技术在高性能光学元件制造中的应用提供了宝贵的实验依据,也为未来光学材料的设计与开发开辟了新的研究方向。
无需依赖外部刺激即可实现
复杂形状变化的新型形状记忆聚合物
目前,形状记忆聚合物在生物医学设备和软机器人领域均展现出了广阔的应用潜力。这类材料的变形大多依赖于热刺激触发,但由于聚合物导热系数较低,响应速度受到一定制约。为了提高响应速度,研究者们采取了电热或光热触发变形的方法。然而,在医学植入器件的应用中,由于传播途径的限制或生物组织的热敏感性,施加刺激仍然面临挑战。
针对这一难题,浙江大学赵骞教授团队创新性地提出了一种“自主恢复行为”概念,旨在设计和开发无需外部刺激即可实现复杂形状变化的形状记忆聚合物材料。他们利用区域化光照策略,精确控制材料不同部分的变形回复起始时间,从而在恒定环境下自主、有序地完成各个部位的形状回复。更进一步,他们利用光衰减效应在材料内部构建回复起始时间的梯度分布,通过简单的拉伸编程即可实现自主弯曲变形,并结合有限元模拟指导光照图案化设计,赋予材料复杂的自主多形状变形路径。
这类形状记忆聚合物材料的变形原理主要基于内部水分扩散驱动的可逆相分离-相融合过程。材料的基础成分为醋酸钙配位交联的聚丙烯酸水凝胶,加热时会发生显著的微相分离,导致模量大幅变化。在形状恢复过程中,水分子逐渐扩散至聚合物富集相,模量缓慢下降。在模量下降初期,材料形状保持不变,直至模量下降到一定程度,形状才开始变化,形成延迟变形现象
此外,材料中的硝基肉桂酸酯基团可在紫外光控制下引发耦合反应,改变相分离行为,从而通过光照调控材料各区域形状回复的起始时间。由于形状记忆聚合物的热诱导相分离过程具有良好的可逆性,且水凝胶网络结构在形状记忆过程中保持不变,因此该材料可重复使用。同时,在合理条件下长期保存后,该材料仍能稳定地实现形状记忆功能,展现出优异的储存与使用稳定性。
图6 (a)新型记忆聚合物成分;
(b)实验流程图;(c)不同时间下变形结
简评:
@清华大学机械系2024级硕士生 李林殊
显然,刺激响应变形现象,如形状记忆效应,展现出了材料的一种有趣的特性,这种特性超越了传统的密度、模量和强度等性能范畴,构成了材料的一种非典型物理属性。尽管它已经在生物医学、航空航天等特定领域内实现了实际应用,但其潜在的巨大价值尚未被充分挖掘。期待来自更多不同学科领域的研究者能够关注到这类材料,并通过跨学科的合作与交流,共同推动科学技术的进一步飞跃。
波士顿动力人形机器人Atlas
进厂自主作业,展现未来自动化潜力
近日,波士顿动力的人形机器人Atlas在无远程遥控的情况下,成功实现工厂环境中的全自动作业,吸引了50万网友在线观看。Atlas通过接收位置坐标指令,独立完成物件的搬运和分装任务。在演示中,Atlas展现了其头部、上半身和髋关节的360°旋转能力,以及对复杂环境的适应能力,如直接下蹲取物和即时纠错。此次演示是Atlas自改用电驱动以来为数不多的公开露面之一,其使用的机器学习视觉模型和专门的抓取策略,使其能够高效完成任务。此外,Atlas的能力也得到了同行的认可,被视为自动化控制领域的领先者
图7 神经网络控制器HOVER
简评:
@清华大学机械系2024级直博生 张佳悦
波士顿动力Atlas的自主作业演示,不仅展现了其在机器人技术上的领先地位,也为未来自动化工厂提供了新的视角。尽管目前成本和技术挑战仍然存在,但Atlas的能力无疑为工业自动化和机器人普及化开辟了新的可能性。此外,这一进展也引发了关于人形机器人在商业化和消费市场应用的广泛讨论。
新器件的开发,
可降低2个数量级的碳排放
田博之教授是美国芝加哥大学的科研人员,他领导的团队开发了一种环保的电子器件制造技术,这项技术能够显著降低碳排放量,减少对环境的影响。该技术的设计灵感来源于生物启发的界面微纳结构,特别是壁虎爪子表面的微纳结构,这种结构使得壁虎能够在光滑的墙面上快速移动。田博之教授和合作者利用可再生的生物聚合物基质(包括纸和纳米纤维素材料)进行激光图案化,并以水作为绿色驱动剂,显著降低了对化学品和电力的消耗。此外,他们还结合卷对卷制造工艺,成功开发了一套卷对卷生产工艺,实现了纸基电子器件的大规模生产和转移。这项研究的相关论文发表在Nature Sustainability期刊。
图8 研究概况
(图源:Nature Sustainability)
简评:
@清华大学机械系2024级硕士生 苟镇韬
这项技术在降低碳排放量方面取得了显著成果,受到了学术界和工业界的高度评价。它不仅在电子制造产业中的碳材料分离速度比传统方法快近3个数量级,而且在碳排放上可降低2个数量级以上。此外,该技术在化学品使用和后端二氧化碳排放上也具有显著优势,显示了其在环境保护和可持续发展方面的巨大潜力。通过使用可再生的生物聚合物基质和水作为绿色驱动剂,这项技术大大减少了对化学品和电力的消耗,同时实现了电子器件的绿色制造。卷对卷生产工艺的应用进一步推动了该技术的大规模制造和应用,展现了其在实际生产中的可行性和效率。总体而言,这项技术因其创新性、先进性以及对环境的积极影响而受到了广泛认可。
废气处理新方法
江南大学焦星辰教授团队与中国科学技术大学谢毅院士团队联合开发了一种新型复合催化剂,该技术能够在水和阳光的条件下将二氧化碳转化为甲醇和一氧化碳。这项技术利用特定的光催化材料提高反应效率,实验中成功展示了催化剂在水分解及二氧化碳还原反应中的高效性能。该复合催化剂的设计灵感来源于自然界的光合作用,标志着环保技术向前迈出了重要一步。这种催化剂不仅能够减少温室气体排放,还为清洁能源的开发提供了新的可能性。在实验中,CoNi2S4-In2O3纳米片复合材料能生成甲醇,而单独的CoNi2S4纳米片和单独的In2O3纳米片只能产生一氧化碳。这项技术在废气处理领域具有潜在的应用前景,尤其是在处理二氧化碳浓度较高的烟道气方面。
图9 实验结果
(图源:JACS)
简评:
@清华大学机械系2024级硕士生 苟镇韬
这项技术通过设计具有范德华接触的纳米片复合材料,实现了在温和条件下将二氧化碳转化为甲醇和一氧化碳,展示了在光催化领域的重大突破。 该技术不仅提高了太阳能的利用效率,还为二氧化碳的转化提供了一种环保且高效的新途径。 通过催化剂的微观设计,增强了材料的催化活性,有效利用了太阳光中中低能量光子,尤其是红外光,这是太阳光谱中占比高达53%的低能光子,而传统半导体光催化技术往往无法有效利用这一部分光能。 这项成果不仅在科学上具有创新性,而且在实际应用中具有广阔的前景,尤其是在废气处理领域,有望成为减少温室气体排放和实现碳中和目标的重要技术之一。
用于近零功耗人工仿生视网膜功能的
可重构同质结光电晶体管
想象一下,我们的眼睛是如何工作的。当我们看到一个物体时,眼睛不仅仅是拍下一张照片,而是立即开始处理这个信息。我们的大脑能快速识别物体的形状、颜色,甚至判断它是否在移动。而传统的计算机视觉系统就像是把相机和电脑分开了。相机拍照,然后把照片发送给电脑处理。这种方式虽然可行,但速度慢,耗电多,而且不够灵活。为了解决这些问题,研究人员提出了人工仿生视网膜系统的概念,旨在实现高性能的图像感知和处理。
人工仿生视网膜系统通过模仿人类视网膜中不同神经元的分层生物结构,实现了图像感知和视觉信息预处理的同步进行。通过模拟人类视觉系统中的感受野,可以提取检测对象的特征边缘参数,并丢弃冗余的视觉数据,从而进一步加快后续处理器的数据信息处理速度。因此,人工神经视网膜芯片成为解决传统图像感知处理芯片面临挑战的有效方案。
西安电子科技大学王黎明团队开发了一种基于二硒化钨(WSe2)的可重构光电晶体管,替代栅极电压来调节通道电荷。更重要的是,光电流与临时编程栅极电压呈线性关系,这为高质量图像信息的获取和处理奠定了基础。
文献链接:https://pubs.acs.org/doi/10.1021/acsnano.4c10619?ref=PD
图10 人工仿生视网膜系统
简评:
@清华大学机械系2024级硕士生 王禹
这项研究的突破性进展,标志着人工神经视网膜芯片向成为解决传统图像感知处理芯片面临挑战的有效方案再次前进了一大步。这种设计不仅实现了光感受器和双极细胞功能的集成,还大大降低了能耗,为未来低功耗、高集成度的人工视觉神经网络的发展铺平了道路。
03
加入我们成为科技青年!
与一群志同道合的小伙伴一起
追逐前沿科技动态,紧跟时代发展潮流
用文字表达你的科技观点
科技热点投稿联系方式:
15211534315(同微信号)
或 mingxuan-li@foxmail.com
部分文字或图片来源于网络,侵权删
供稿 | 清华大学机械工程系研究生分会
主办 | 清华大学机械工程系研究生分会
文字丨机械系研会学术部
编辑丨李明暄
审核丨王健健、钱泓宇