2024年CCF-联想蓝海科研基金-下一代计算设备和交互创新第二批课题即将于2024年10月18日 24:00(北京时间)截止申报,欢迎CCF会员积极申报。
2024年度CCF-联想蓝海科研基金 “下一代计算设备与交互创新专项” (第二批)启动于2024年9月18日,共发布6个科研课题,每个课题资助规模30万/项,本文将详细介绍每个课题:
课题1:基于裸眼3D与情感交互技术的老年认知康复训练系统
研究背景:
近年来裸眼3D技术快速发展,在儿童自闭、青少年抑郁、老年AD等情感认知领域展示了广阔的应用前景,裸眼3D与情感交互技术结合,能够为老年认知障碍提供重要的康复训练手段。然而,目前还缺乏针对性的人机交互场景设计与技术开发,缺乏交互过程中实时生理行为学信号监测与反馈,认知康复训练效果欠佳。
研究内容:
本课题研究如何利用人机交互场景设计与技术开发,在交互过程运用实时生理行为学信号监测与反馈,提升老年人认知康复训练效果。包括:
①认知康复训练中情感识别与情感调控:研究穿戴式舒适无感生理信号监测方法,将脑电、心电、呼吸、脉搏等生理监测嵌入到裸眼3D场景开发,形成实时监测反馈;研究融合生理和行为(面部表情、语音)多模态信号的情感识别方法,准确识别训练过程中患者情感特征与情绪表达;研究特定人员(如患者家属)头像和语音信号高保真生成方法,搭建融合心理动力学和情绪唤醒度元素的虚拟现实认知交互场景,根据患者情感状态反馈调整认知训练任务内容和难度,提高任务参与的主动性和依从性。
②裸眼3D认知训练的多感官协同刺激方法:研究设计裸眼3D人机交互任务,重点是情感交互任务;研究视听触多感官协同刺激方法,研究多感官协同刺激下老年人认知功能改变的生理和行为学参数响应规律,探寻与认知功能改变高度相关的特异性数字生物标志物组合;研究老年人认知康复训练过程中认知负荷评估方法,研究如何根据老年人情感状态和认知负荷状态自适应匹配训练任务和难度,准确评估视听触等情感交互方法对于认知康复的作用效果,实现训练全过程认知负荷优化与认知训练任务智能调控。
研究目标:
基于研究内容进行系统集成与验证:实现生理行为多模态信号采集模块与裸眼3D场景构造模块的高度融合与系统集成,验证系统稳定性和可靠性;采用多模态数据时钟同步技术,实现毫秒级多模态数据源的实时整合与分析;研究老年人认知功能数据画像建构技术,实现对患者的精准个体化病程跟踪;结合适老化人机交互原则,对裸眼3D认知康复训练系统进行人因工效学验证;采集一定量数据验证系统的有效性。
产出及交付物:
①开发基于裸眼3D与情感交互技术的老年认知康复训练系统1套,构建老年人认知功能评测方案1项、认知康复训练方案1项
②老年认知障碍患者采集不少于200例,认知功能评测维度不少于5个
③实现脑电、心电、呼吸、视觉、语音等生理行为学信号采集不少于5种
④包含视、听、触等感官刺激不少于3种,实现虚拟现实刺激任务不少于10个
⑤发表CCF-A类或JCR一区论文2篇,申请发明专利2项
课题2:基于用户认知和交互的裸眼3D显示器3D空间界面设计研究
研究背景:
裸眼3D显示技术无需佩戴任何辅助设备即可呈现具有深度感的立体图像,显著提升了用户的视觉体验和交互感知。然而,当前在裸眼3D的3D空间界面设计上仍面临诸多挑战:
①界面和体验的舒适性:如何通过界面设计降低用户的认知负荷,提升操作的自然性和直观性,并确保长时间使用的舒适性?鉴于裸眼3D显示器的视场角(FOV)相对有限(通常在33度左右),需要研究如何在有限的FOV内设计出高效且用户友好的3D空间界面。
②空间设计的沉浸感和新奇体验:传统的2D界面设计方法无法充分利用裸眼3D显示技术的优势。单纯的2D界面或2D与3D结合的界面在视觉效果和交互方式上存在诸多限制。需要探讨如何通过界面设计营造出令人惊叹的空间感,从而提升用户的体验感受;并且利用先进的交互技术,如手势识别、眼动追踪和语音控制等,打造更加智能和便捷的交互方式。
研究内容及目标:
①用户空间认知模型与适应性设计:研究用户在3D空间中的认知模型,包括深度感知和注意力焦点等方面;评估深度感知的准确性和用户的主观满意度。探索如何降低用户在3D空间中的认知负荷,确保界面操作的自然和直观;通过主观问卷或生理指标测量用户对空间界面的认知负荷,目标是NASA-TLX评分低于50,或其他同等指标。
②用户体验和新颖的设计分析:强调界面的互动性和沉浸感,提出创新的交互方式和用户体验;分析用户在3D空间中的行为模式,为界面设计提供数据支持。研究3D界面元素的新颖设计,如光标等的呈现方式;确保在不同视角范围内,界面的文字和图形保持清晰度。评估界面的新颖和惊奇体验,通过皮肤电导率增加0.05-0.5微西门子(µS)或心率增加10-20次/分钟等指标证明惊奇体验的存在。
产出及交付物:
①论文:发表联想认可的CCF-A类会议、期刊论文1-2篇
②报告:提交“裸眼3D显示器上界面设计的最佳实践”、“裸眼3D空间界面设计指导原则等报告1-2篇
③专利:提交专利2项
课题3:基于认知负荷检测的主动服务触发机制研究
研究背景:
随着大模型和智能体的技术发展,智能设备厂商将技术研发重点聚焦主动触发人机交互体验,例如,当前智能助手交互的趋势是从用户自主发起的交互向系统主动发起的方向进化,然而,主动交互涉及到交互时机和内容的选择,不恰当的服务时机和内容反而可能成为信息干扰源,从而降低用户体验。当前通过感知用户情绪、认知负荷等用于个性化定义场景,以人为中心的多通道融合的主动交互触发机制的研发对于主动交互模式由重大意义。传统的认知负荷测评的主要方式包括用户报告及生理信号测评。近年来,随着人工智能技术的发展,研究者开始关注结合计算机视觉、生理信号等多模态信息的综合认知负荷测评方式,并利用深度学习网络等技术,提升认知负荷测评效率及准确度。在智能交互域领,受限于用户使用习惯和舒适性要求,不适宜部署大量传感器进行监测,因此如何在有限的模态下提升认知负荷监测的效率和准确度,是面向实际场景时面临的关键技术问题。
研究内容:
为了解决智能体在提供主动服务时可能导致的信息干扰问题,本研究旨在构建一个用户认知负荷状态的感知与评估机制:
①在人与设备交互过程中,利用视觉、语音、界面触控操作上报等数据采集设备,研究实时的多模态认知负荷监测数据构建技术及负荷评估算法。
②研究多通道人机协同用户界面,基于多通道信息呈现与用户认知特性匹配机理,建立多通道用户界面模型和界面描述语言,并通过认知负荷度量方法与调控策略对界面内容进行组态,实现易理解人机界面信息的自适应分配。
研究目标:
针对智能体交互的典型场景,聚焦智能主动交互服务任务,在人机协同任务过程中对用户的认知负荷进行信息建模与处理。实现认知负荷秒级实时测评,与基准数据对比准确率不低于80%。构建多通道智能人机协同交互框架原型,验证可用交互通道数量不少于5种,包括但不限于视觉、语音、文本、手势、物理按键。建立多通道用户界面模型和界面描述语言,在典型场景下,被试人员体验评价优秀占比不低于75%。整体达成业界领先的主动交互触发范式。
产出及交付物:
①算法原型:完成多通道负荷测评算法研发,交付智能人机协同交互原型系统及源代
②论文:发表具身智能/人工智能领域顶级期刊会议高质量学术论文1篇
③报告:完成多通道认知负荷测评方向报告1篇
④专利:提交发明专利2项
课题4:通过目标人唇动信息辅助进行实时语音降噪
研究背景:
随着这些年远程办公的普及,网络通话的使用频率也越来越高,而语音降噪是改善网络通话质量中最重要的一环。随着近些年AI技术的加持,越来越多的语音降噪方案通过AI模型的方式在性能上得到了极大的提升。但对人声噪音的降噪一直是个业界的难点。
研究内容:
在消除人声噪音方面,现有方案有通过声纹技术和讲话人唇动捕捉方案,即通过摄像头捕捉目标人唇动信息获取目标人是否正在讲话,1)讲话时,进行常规的本地语音降噪处理;2)未讲话时,滤除所有本地麦克风输入信号。现有唇动捕捉方案只通过唇动信息判断出目标人是否在讲话的信息,只能比较好的处理目标人不讲话时的人声噪音场景,但不能处理目标人讲话时,与目标人重叠的人声噪音。希望能通过目标人唇动信息获取“唇语”信息,即判断出目标人唇动所产生的语音信号信息,与麦克风收到的所有信号进行比照,这样就能从麦克风拾取的信号中有效的分理出目标人的语音信息,从而辅助进行语音降噪。
研究目标:
①目标人唇语转化为语音信号的正确率大于60%,处理延迟小于120ms,整体方案的非目标人声噪音降噪效果大于30dB(在目标与非目标人声SNR=0情况下);
②模型基于OpenVINO,适配Intel 平台,与MSFT APO架构整合,适配与常用腾讯会议,Teams,Zoom等VoIP 应用。唇语识别正确率大于60%,处理延迟小于120ms,整体非目标人声噪音降噪效果大于30dB(在目标与非目标人声SNR=0情况下)。
产出及交付物:
①算法原型:完成唇动信息辅助进行实时语音降噪算法设计,交付一套唇动信息辅助进行实时语音降噪系统及其源代码
②论文 :发表联想认可的CCF-A类会议、期刊论文1-2篇
③报告:完成唇语识别方向、语音降噪方向报告2篇
④专利:提交专利2项
课题5:机器人的智能跟随运动控制算法
研究背景:`
随着AI技术的发展,机器人与人的情感陪伴和沉浸式认知教育方面应用前景非常广泛。结合人脸识别和人形跟踪技术,以及精确的运动控制,让人和机器人的交互更显亦师亦友的伙伴。然而,针对人机交互运动控制的特殊场景,缺乏必要的智能跟随运动控制功能。在家庭的复杂环境中,机器人跟随小孩的运动面临很多复杂的挑战:
①在跟随过程中,孩子的运动随机性大。可能会突然加速跑动,突然改变方向,机器人的视觉无法快速侦测识别;
②机器人的视觉系统预测到孩子的运动轨迹,但是无法预测孩子的运动速度。跟随时间越久,机器人就会跟不上小孩;
③孩子突然停止跑动,机器人无法突然停止运动。设置安全距离确保孩子安全。
研究内容:
本课题期待通过对这些关键技术的突破,实现人机之间的人性化的互动跟随功能。包括:
①camera要实现人脸识别功能,同时要根据人脸特征计算出机器人和人之间的距离和角度;
②将跟随目标点的极坐标转换成世界坐标系的目标点;
③根据地图上目标点进行动态路径规划,然后导航到目标点,运动过程中要实现自动避障功能。
建议研究方向:
①可以参考人脸识别,人形跟随识别算法模型;
②动态的路径规划算法,避障算法;
③跟踪消失的目标点,能够自动的对目标进行搜索;
④该算法能够基于不同场景提供适合的配置参数,比如机器人的外形轮廓尺寸、重量、房间的大小等对算法进行适配;
⑤采用机器人的硬件平台和软件算法相结合的方案,以满足人的快速运动,机器人的快速跟随动作;
⑥摄像头可以根据需求选择视角范围广的鱼眼摄像头。
研究目标:
①目标:最小有效跟踪像素80*160,离机器人5米距离;最大有效跟踪像素360*720,离机器人1米距离;camera前方0.1~5.0m;有效侦测范围<=180°角;响应运动时1s; 匀速速度2~3 m/s; 变速速度0~4m/s;同一个空间内,5秒之内能够搜索到跟随目标。
②评估:运动轨迹符合人的习惯;算法能够解决实际的人机交互的跟随特殊应用场景。
产出及交付物:
①算法原型:完成基于人机交互实现跟随算法,交付一套人机交互跟随算法的软硬件系统及其源代码。
②论文:发表联想认可期刊论文1-2篇
③报告:完成基于ROS2系统相关技术实现智能跟随方向的报告2篇
④专利:提交发明专利2项
关于CCF BC