(本文阅读时间:15分钟)
随着人工智能技术的不断进步,多模态和跨模态学习已成为AI领域的重要发展方向之一。在第三期 NeurIPS 2024 精选论文解读中,大家将了解到微软亚洲研究院的研究员们如何通过开发创新框架,加强不同信息模态间的协同作用,从而提升 AI 系统的有效性。同时,为了满足特定行业的精准需求,研究员们也开始定制领域特定的基础模型,以更好地捕捉行业知识,提高 AI 在各领域的精确度,为实现更精准、更个性化的解决方案提供了可能。
通过符号等价和语义一致性,自动形式化数学陈述
EEG2Video:基于脑电信号解码动态视觉感知
ElasTST:弹性时间序列Transformer实现稳健的多预测范围建模
人类感知视觉语言导航:具有动态人机交互的导航任务(Spotlight)
神经符号数据生成在数学推理中的应用
Voila-A:将视觉语言模型与用户视线对齐(Spotlight)
通过符号等价和语义一致性,自动形式化数学陈述
论文链接:
https://arxiv.org/abs/2410.20936
微软亚洲研究院的研究员们提出了一个创新框架,旨在解决大语言模型(LLMs)将自然语言数学问题自动转化为形式语言时的准确性问题。研究员们观察到,即使在先进的大模型中,如 GPT-4,也存在从 pass@1 到 pass@k 准确度的显著差异,这表明单一生成的答案与多个生成答案中至少有一个正确答案之间的性能差距较大。
为了弥合这一性能差距,研究员们开发了一种基于符号等价和语义一致性的评分与选择机制。符号等价是利用自动定理证明器来识别不同自动形式化候选之间的逻辑一致性,而语义一致性则通过比较原始文本和非形式化回译本之间的嵌入相似度来进行评估。这一方法不仅提高了自动形式化的准确性,还减少了人工验证或标记形式化结果的工作量。
图1:自动形式化框架
通过在 MATH 和 miniF2F 数据集上的广泛实验,研究结果表明,该框架能够显著提升自动形式化的准确度,相对改进达到了0.22-1.35倍。此外,该方法在不同大小的大模型上均显示出一致的有效性,表明该框架可以大大减少在纠正和验证输出中所需的人工干预,提高了自动形式化的效率。本篇论文还探讨了当前大模型和自动定理证明器在自动形式化任务中的局限性,并为未来的优化方向提供了见解。
EEG2Video:基于脑电信号解码动态视觉感知
论文链接:
https://bcmi.sjtu.edu.cn/home/eeg2video
近年来,脑机接口(BCI)技术飞速发展,然而如何从高时间分辨率的脑电信号(EEG)中解码复杂的动态视觉感知仍是一个尚未被充分探索的领域。动态视觉感知是人类日常生活体验的核心,其研究对揭示大脑视觉处理机制及提升脑机接口性能具有重要意义。传统研究大多聚焦于静态视觉刺激,缺乏对动态场景中快速变化视觉信息的数据集支持,神经科学发现及模型设计成为限制研究进展的关键瓶颈。
为填补这一空白,研究员们首先收集了全新数据集 SEED-DV,这是一个专为动态视觉解码设计的EEG-视频配对数据集。该数据集包含20名受试者的1400段视频 EEG 信号,涵盖40个概念的视频内容,同时详细标注了颜色、动态性、人物及场景等多种元信息。这一数据集为研究 EEG 解码动态视觉感知提供了坚实的基础,并提出了两个重要的基准测试——EEG 视觉感知分类基准和视频重建基准,系统评估从 EEG 信号中解码视觉信息的能力和重建动态视频的性能。
图2:SEED-DV 数据集。(A)视频类别、颜色、动态等信息(B)采集环境(C、D)数据采集范式。
为了验证动态视觉重建的可行性,研究员们首先在多种任务中探寻了可从脑电中解码的信息。结果表明,EEG 信号中包含了对于颜色、动态性及类别的解码能力。基于这些发现,研究员们提出了创新性解码框架 EEG2Video,首次实现了从 EEG 信号解码并重建动态视频的目标。EEG2Video 框架基于 Seq2Seq 架构,充分利用 EEG 信号的高时间分辨率,通过滑动窗口提取 EEG 嵌入,将视觉信息对齐至视频帧。同时,该框架还引入了动态感知噪声添加(DANA)模块,可根据解码的动态信息调整视频生成过程,使视频在物体动态的重建中也能保持一致性。
图3:EEG2Video 模型设计框架
作为从 EEG 生成动态视觉感知的第一个工作,EEG2Video 生成的视频在结构相似性指数(SSIM)上达到了较高水平,并显著减少了解码步骤,解码效率远超传统方法。此外,基准测试结果显示,EEG 信号中的关键视觉信息,如颜色和动态性,可被成功解码,而人物数量和人脸识别等任务仍具有挑战性。
图4:生成视频样例(左:视觉刺激,右:重构样例)
ElasTST:弹性时间序列Transformer实现稳健的多预测范围建模
论文链接:
https://arxiv.org/abs/2411.01842
项目链接:
https://github.com/microsoft/ProbTS/tree/elastst
时间序列预测在各行各业中起着至关重要的作用。这些实际应用场景往往都需要针对不同时间跨度提供预测,以同时满足短期、中期和长期的规划需求。例如,按小时、周或月预测电力需求,优化电力系统管理。
然而,随着预测范围需求的多样性日益增加,目前大多数时间序列模型仍需针对特定的预测范围分别训练和优化,难以实现单一模型对不同预测长度的鲁棒建模。尽管通用时间序列模型在支持多预测范围方面取得了一定进展,但这些方法主要聚焦于从预训练数据集到零样本场景的迁移能力,尚未考虑跨不同预测范围的鲁棒性问题。
为此,研究员们提出了一种弹性时间序列 Transformer 模型 ElasTST,旨在通过一次训练实现跨多预测范围的一致性和准确性。
图5:ElasTST 模型架构
ElasTST 的设计包括三个核心创新:(a) 结构化自注意力掩码机制,从源头上确保模型在不同预测范围中对重合部分的预测结果始终保持一致,实现“预测范围不变性”;(b) 可调旋转位置编码,适配时间序列数据的周期特性,增强对多预测范围的适应能力;(c) 多尺度切片设计,结合细粒度与粗粒度信息,兼顾短期动态与长期趋势,使模型获得更全面的特征表达能力。此外,研究员们还设计了一种重加权策略,使单一固定范围的训练能够模拟多预测范围的效果,从而减少额外的数据采样需求,并提升训练的稳定性。
实验结果表明,ElasTST 无需针对每个预测范围单独调优,一次训练即可实现对任意长度的鲁棒预测。在各种数据集的长短期预测任务中,ElasTST 均表现出卓越的准确性与鲁棒性,尤其在未见过的长预测范围上展现了出色的外推能力。不仅如此,与预训练的通用时间序列模型相比,ElasTST 通过一次有监督训练,就在下游数据集上展现出了显著优于零样本预测的性能,同时在不同预测范围内也表现出了更稳定的性能优势。
ElasTST 为时间序列预训练基础模型和专用模型的发展开辟了新的方向。例如,针对某一领域的数据特定训练一个小规模的 ElasTST模型,不仅可以显著提升在该领域内未来数据上的泛化性能,还能充分利用其适应多预测范围的“弹性”,从而避免传统时序模型中为每个预测长度单独调优和部署的繁琐流程。
人类感知视觉语言导航:具有动态人机交互的导航任务
论文链接:
https://arxiv.org/abs/2406.19236
项目链接:
https://lpercc.github.io/HA3D_simulator/
视觉-语言导航(VLN)是具身智能的一个重要前沿领域,其中代理(agent)可根据自然语言指令在物理空间中进行导航。虽然现有的 VLN 系统在模拟环境中展现出不错的结果,但由于一些关键的限制,它们在现实世界应用中往往表现不佳。传统的 VLN 框架通常依赖于静态环境、全景视图和专家指导等,而这些操作在现实场景中很少成立。模拟与现实之间的差距一直是该任务上的一个挑战。
为了缩短这种差距,研究员们提出了一种非静态的导航任务,即把人类放置于场景,因为人的活动可能会影响到 agent 的表现。首先,研究员们通过创建结合动态人类活动和 Matterport3D 环境的人类感知 3D(HA3D)模拟器来开发框架,并建立了包含145个人类活动描述和435个三维人体动作模型的数据集,以此扩展 Room-to-Room(R2R)数据,建立人类感知的 R2R 数据集。此外,针对该动态导航任务,研究员们还设计了两个新的导航 agent:专家监督的跨模态 agent VLN-CM 和非专家监督的决策 agent VLN-DT,并在真实世界中使用四足机器人对其进行了综合评估和测试。
图6:HA3D 模拟器中的场景
最终,研究员们成功地将动态人类活动集成到了 VLN 系统中,通过 HA3D 模拟器创建了更真实的模拟环境,以此开发了一个包含21,567个指令的综合数据集 HA-R2R。实验结果表明,VLN-DT 在仅使用随机轨迹进行训练的情况下,实现了与专家监督方法相当的性能。这项工作填补了类似真实世界导航研究的缺失,进一步推进了具身智能的现实应用。未来,研究员们将专注于增强导航系统在不可预测的现实世界场景中的鲁棒性。
神经符号数据生成在数学推理中的应用
论文链接:
https://openreview.net/pdf?id=CIcMZGLyZW
尽管大语言模型在多个领域取得了显著进展,但它们在数学推理方面的表现仍然不尽人意。这一问题引发了一个关键疑问:大模型在数学推理上的不足是因为其固有的缺陷,还是仅仅因为缺乏高质量的数学数据?
为了探究这个问题,研究员们提出了一个自动化方法,旨在生成高质量的、有监督的数学数据集。该方法将现有的数学问题变异生成新的数据,同时确保新问题的多样性和有效性。通过结合大模型的直观非形式化优势和数学求解器的精确符号推理能力,以及在高度不规则的符号空间中进行投影马尔可夫链蒙特卡洛采样,研究员们实现了这一过程。
同时,研究员们还提出了一个新颖的神经符号数据生成框架,该框架可自动生成高质量、有监督的数学数据。这一方法的核心在于利用神经和符号的双重优势:在符号空间中生成数学问题,通过系统抽样实现多样性,并利用符号求解器确保问题的有效性;然后,将符号空间的问题翻译回自然语言空间,由大模型提供支持,确保新生成的正式问题与相应的自然语言版本之间的一致性。这一框架不仅提高了数据的多样性,还通过符号求解器保证了数据的有效性,为提升大模型的数学推理能力提供了新的可能。
图7:神经符号数据生成框架
通过在 GSM8K 和 MATH 数据集上的实证评估,研究员们证明了所提出方法的有效性。特别是,使用该框架生成的620K数学数据集进行监督微调后,基于 LLaMA-2 和 Mistral-7B 的模型在多个数据集上显著优于现有的开源模型。此外,随着训练数据规模的增加,模型性能持续提升,表明该方法在进一步提升大模型的数学能力方面具有潜力。
Voila-A:将视觉语言模型与用户视线对齐
论文链接:
https://arxiv.org/abs/2401.09454
近年来,视觉与语言多模态学习在人工智能领域取得了极大进展,尤其是基于视觉语言模型(Vision-Language Models, VLMs)的发展。然而实际应用环境往往包含着复杂场景和多目标物体,对现有的视觉语言模型提出了巨大挑战。如何将多样化的人类注意力机制有效引入到多模态学习中成为本文的研究重点。
受人类用户与环境交互行为的启发,视线(gaze)能够精准捕捉人类的注意力焦点。为此,本文提出了一种新颖的方法 Voila-A,通过视线对齐(gaze alignment)来增强视觉语言模型在实际应用中的可解释性与有效性。
图8:Voila-A 模型框架
研究员们先利用现有的局部叙事(localized narratives)数据集,模拟了人类的视线模式,并收集了数百分钟的视线数据,生成了用于训练和测试的 VOILA-COCO 数据集。借助配备具有眼动追踪功能的增强现实(AR)智能设备,研究员们人工采集了 VOILA-GAZE 测试数据集,该数据集涵盖了通过注视跟踪设备捕获的现实生活场景。
针对如何有效建模视线信息并与场景中的具体物体对齐的问题,本文创新性地提出了 Voila 感知模块(Voila Perceiver Blocks)。研究员们通过引入隐式查询向量(latent query),将视线信息融入了图像特征中,并保留了模型的预训练知识。
最后,研究员们使用保留的 VOILA-COCO 验证集以及人工采集的 VOILA-GAZE 测试集对 Voila-A 进行了全面评估。实验结果表明,Voila-A 在多个基线模型上取得了显著优势。通过将模型的注意力与人类的注视模式对齐,Voila-A 为开发更加直观且以用户为中心的视觉语言模型奠定了重要基础,同时也促进了多种实际应用中更加自然的人机交互体验。
欲了解微软研究院在本届 NeurIPS 的更多内容,请访问:
https://www.microsoft.com/en-us/research/story/microsoft-at-neurips-2024-advancing-ai-research-across-domains/