NeurIPS上新 | 加强多模态协同，提高行业基础模型精度

科技 2024-12-23 15:05 浙江

（本文阅读时间：15分钟）

编者按：欢迎阅读“科研上新”栏目！“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里，你可以快速浏览研究院的亮点资讯，保持对前沿领域的敏锐嗅觉，同时也能找到先进实用的开源工具。

12月10日至12月15日，全球最负盛名的人工智能盛会之一 NeurIPS 大会在加拿大温哥华举办。因此，我们通过三期“科研上新”为大家带来多篇微软亚洲研究院入选 NeurIPS 2024 的精选论文解读，涉及内容涵盖大模型优化、生成式人工智能、社会责任人工智能、跨模态学习、特定领域基础模型等。

欲了解微软研究院在本届 NeurIPS 的更多内容，请访问：

https://www.microsoft.com/en-us/research/story/microsoft-at-neurips-2024-advancing-ai-research-across-domains/

如果你已经注册了大会，不要错过微软亚洲研究院院长周礼栋博士的主旨演讲：

随着人工智能技术的不断进步，多模态和跨模态学习已成为AI领域的重要发展方向之一。在第三期 NeurIPS 2024 精选论文解读中，大家将了解到微软亚洲研究院的研究员们如何通过开发创新框架，加强不同信息模态间的协同作用，从而提升 AI 系统的有效性。同时，为了满足特定行业的精准需求，研究员们也开始定制领域特定的基础模型，以更好地捕捉行业知识，提高 AI 在各领域的精确度，为实现更精准、更个性化的解决方案提供了可能。

「本期内容速览」

通过符号等价和语义一致性，自动形式化数学陈述

EEG2Video：基于脑电信号解码动态视觉感知

ElasTST：弹性时间序列Transformer实现稳健的多预测范围建模

人类感知视觉语言导航：具有动态人机交互的导航任务（Spotlight）

神经符号数据生成在数学推理中的应用

Voila-A：将视觉语言模型与用户视线对齐（Spotlight）

通过符号等价和语义一致性，自动形式化数学陈述

论文链接：

https://arxiv.org/abs/2410.20936

微软亚洲研究院的研究员们提出了一个创新框架，旨在解决大语言模型（LLMs）将自然语言数学问题自动转化为形式语言时的准确性问题。研究员们观察到，即使在先进的大模型中，如 GPT-4，也存在从 pass@1 到 pass@k 准确度的显著差异，这表明单一生成的答案与多个生成答案中至少有一个正确答案之间的性能差距较大。

为了弥合这一性能差距，研究员们开发了一种基于符号等价和语义一致性的评分与选择机制。符号等价是利用自动定理证明器来识别不同自动形式化候选之间的逻辑一致性，而语义一致性则通过比较原始文本和非形式化回译本之间的嵌入相似度来进行评估。这一方法不仅提高了自动形式化的准确性，还减少了人工验证或标记形式化结果的工作量。

图1：自动形式化框架

通过在 MATH 和 miniF2F 数据集上的广泛实验，研究结果表明，该框架能够显著提升自动形式化的准确度，相对改进达到了0.22-1.35倍。此外，该方法在不同大小的大模型上均显示出一致的有效性，表明该框架可以大大减少在纠正和验证输出中所需的人工干预，提高了自动形式化的效率。本篇论文还探讨了当前大模型和自动定理证明器在自动形式化任务中的局限性，并为未来的优化方向提供了见解。

EEG2Video：基于脑电信号解码动态视觉感知

论文链接：

https://bcmi.sjtu.edu.cn/home/eeg2video

近年来，脑机接口（BCI）技术飞速发展，然而如何从高时间分辨率的脑电信号（EEG）中解码复杂的动态视觉感知仍是一个尚未被充分探索的领域。动态视觉感知是人类日常生活体验的核心，其研究对揭示大脑视觉处理机制及提升脑机接口性能具有重要意义。传统研究大多聚焦于静态视觉刺激，缺乏对动态场景中快速变化视觉信息的数据集支持，神经科学发现及模型设计成为限制研究进展的关键瓶颈。

为填补这一空白，研究员们首先收集了全新数据集 SEED-DV，这是一个专为动态视觉解码设计的EEG-视频配对数据集。该数据集包含20名受试者的1400段视频 EEG 信号，涵盖40个概念的视频内容，同时详细标注了颜色、动态性、人物及场景等多种元信息。这一数据集为研究 EEG 解码动态视觉感知提供了坚实的基础，并提出了两个重要的基准测试——EEG 视觉感知分类基准和视频重建基准，系统评估从 EEG 信号中解码视觉信息的能力和重建动态视频的性能。

图2：SEED-DV 数据集。（A）视频类别、颜色、动态等信息（B）采集环境（C、D）数据采集范式。

为了验证动态视觉重建的可行性，研究员们首先在多种任务中探寻了可从脑电中解码的信息。结果表明，EEG 信号中包含了对于颜色、动态性及类别的解码能力。基于这些发现，研究员们提出了创新性解码框架 EEG2Video，首次实现了从 EEG 信号解码并重建动态视频的目标。EEG2Video 框架基于 Seq2Seq 架构，充分利用 EEG 信号的高时间分辨率，通过滑动窗口提取 EEG 嵌入，将视觉信息对齐至视频帧。同时，该框架还引入了动态感知噪声添加（DANA）模块，可根据解码的动态信息调整视频生成过程，使视频在物体动态的重建中也能保持一致性。

图3：EEG2Video 模型设计框架

作为从 EEG 生成动态视觉感知的第一个工作，EEG2Video 生成的视频在结构相似性指数（SSIM）上达到了较高水平，并显著减少了解码步骤，解码效率远超传统方法。此外，基准测试结果显示，EEG 信号中的关键视觉信息，如颜色和动态性，可被成功解码，而人物数量和人脸识别等任务仍具有挑战性。

图4：生成视频样例（左：视觉刺激，右：重构样例）

ElasTST：弹性时间序列Transformer实现稳健的多预测范围建模

论文链接：

https://arxiv.org/abs/2411.01842

项目链接：

https://github.com/microsoft/ProbTS/tree/elastst

时间序列预测在各行各业中起着至关重要的作用。这些实际应用场景往往都需要针对不同时间跨度提供预测，以同时满足短期、中期和长期的规划需求。例如，按小时、周或月预测电力需求，优化电力系统管理。

然而，随着预测范围需求的多样性日益增加，目前大多数时间序列模型仍需针对特定的预测范围分别训练和优化，难以实现单一模型对不同预测长度的鲁棒建模。尽管通用时间序列模型在支持多预测范围方面取得了一定进展，但这些方法主要聚焦于从预训练数据集到零样本场景的迁移能力，尚未考虑跨不同预测范围的鲁棒性问题。

为此，研究员们提出了一种弹性时间序列 Transformer 模型 ElasTST，旨在通过一次训练实现跨多预测范围的一致性和准确性。

图5：ElasTST 模型架构

ElasTST 的设计包括三个核心创新：(a) 结构化自注意力掩码机制，从源头上确保模型在不同预测范围中对重合部分的预测结果始终保持一致，实现“预测范围不变性”；(b) 可调旋转位置编码，适配时间序列数据的周期特性，增强对多预测范围的适应能力；(c) 多尺度切片设计，结合细粒度与粗粒度信息，兼顾短期动态与长期趋势，使模型获得更全面的特征表达能力。此外，研究员们还设计了一种重加权策略，使单一固定范围的训练能够模拟多预测范围的效果，从而减少额外的数据采样需求，并提升训练的稳定性。

实验结果表明，ElasTST 无需针对每个预测范围单独调优，一次训练即可实现对任意长度的鲁棒预测。在各种数据集的长短期预测任务中，ElasTST 均表现出卓越的准确性与鲁棒性，尤其在未见过的长预测范围上展现了出色的外推能力。不仅如此，与预训练的通用时间序列模型相比，ElasTST 通过一次有监督训练，就在下游数据集上展现出了显著优于零样本预测的性能，同时在不同预测范围内也表现出了更稳定的性能优势。

ElasTST 为时间序列预训练基础模型和专用模型的发展开辟了新的方向。例如，针对某一领域的数据特定训练一个小规模的 ElasTST模型，不仅可以显著提升在该领域内未来数据上的泛化性能，还能充分利用其适应多预测范围的“弹性”，从而避免传统时序模型中为每个预测长度单独调优和部署的繁琐流程。

人类感知视觉语言导航：具有动态人机交互的导航任务

论文链接：

https://arxiv.org/abs/2406.19236

项目链接：

https://lpercc.github.io/HA3D_simulator/

视觉-语言导航（VLN）是具身智能的一个重要前沿领域，其中代理（agent）可根据自然语言指令在物理空间中进行导航。虽然现有的 VLN 系统在模拟环境中展现出不错的结果，但由于一些关键的限制，它们在现实世界应用中往往表现不佳。传统的 VLN 框架通常依赖于静态环境、全景视图和专家指导等，而这些操作在现实场景中很少成立。模拟与现实之间的差距一直是该任务上的一个挑战。

为了缩短这种差距，研究员们提出了一种非静态的导航任务，即把人类放置于场景，因为人的活动可能会影响到 agent 的表现。首先，研究员们通过创建结合动态人类活动和 Matterport3D 环境的人类感知 3D（HA3D）模拟器来开发框架，并建立了包含145个人类活动描述和435个三维人体动作模型的数据集，以此扩展 Room-to-Room（R2R）数据，建立人类感知的 R2R 数据集。此外，针对该动态导航任务，研究员们还设计了两个新的导航 agent：专家监督的跨模态 agent VLN-CM 和非专家监督的决策 agent VLN-DT，并在真实世界中使用四足机器人对其进行了综合评估和测试。

图6：HA3D 模拟器中的场景

最终，研究员们成功地将动态人类活动集成到了 VLN 系统中，通过 HA3D 模拟器创建了更真实的模拟环境，以此开发了一个包含21,567个指令的综合数据集 HA-R2R。实验结果表明，VLN-DT 在仅使用随机轨迹进行训练的情况下，实现了与专家监督方法相当的性能。这项工作填补了类似真实世界导航研究的缺失，进一步推进了具身智能的现实应用。未来，研究员们将专注于增强导航系统在不可预测的现实世界场景中的鲁棒性。

神经符号数据生成在数学推理中的应用

论文链接：

https://openreview.net/pdf?id=CIcMZGLyZW

尽管大语言模型在多个领域取得了显著进展，但它们在数学推理方面的表现仍然不尽人意。这一问题引发了一个关键疑问：大模型在数学推理上的不足是因为其固有的缺陷，还是仅仅因为缺乏高质量的数学数据？

为了探究这个问题，研究员们提出了一个自动化方法，旨在生成高质量的、有监督的数学数据集。该方法将现有的数学问题变异生成新的数据，同时确保新问题的多样性和有效性。通过结合大模型的直观非形式化优势和数学求解器的精确符号推理能力，以及在高度不规则的符号空间中进行投影马尔可夫链蒙特卡洛采样，研究员们实现了这一过程。

同时，研究员们还提出了一个新颖的神经符号数据生成框架，该框架可自动生成高质量、有监督的数学数据。这一方法的核心在于利用神经和符号的双重优势：在符号空间中生成数学问题，通过系统抽样实现多样性，并利用符号求解器确保问题的有效性；然后，将符号空间的问题翻译回自然语言空间，由大模型提供支持，确保新生成的正式问题与相应的自然语言版本之间的一致性。这一框架不仅提高了数据的多样性，还通过符号求解器保证了数据的有效性，为提升大模型的数学推理能力提供了新的可能。

图7：神经符号数据生成框架

通过在 GSM8K 和 MATH 数据集上的实证评估，研究员们证明了所提出方法的有效性。特别是，使用该框架生成的620K数学数据集进行监督微调后，基于 LLaMA-2 和 Mistral-7B 的模型在多个数据集上显著优于现有的开源模型。此外，随着训练数据规模的增加，模型性能持续提升，表明该方法在进一步提升大模型的数学能力方面具有潜力。

Voila-A：将视觉语言模型与用户视线对齐

论文链接：

https://arxiv.org/abs/2401.09454

近年来，视觉与语言多模态学习在人工智能领域取得了极大进展，尤其是基于视觉语言模型（Vision-Language Models, VLMs）的发展。然而实际应用环境往往包含着复杂场景和多目标物体，对现有的视觉语言模型提出了巨大挑战。如何将多样化的人类注意力机制有效引入到多模态学习中成为本文的研究重点。

受人类用户与环境交互行为的启发，视线（gaze）能够精准捕捉人类的注意力焦点。为此，本文提出了一种新颖的方法 Voila-A，通过视线对齐（gaze alignment）来增强视觉语言模型在实际应用中的可解释性与有效性。

图8：Voila-A 模型框架

研究员们先利用现有的局部叙事（localized narratives）数据集，模拟了人类的视线模式，并收集了数百分钟的视线数据，生成了用于训练和测试的 VOILA-COCO 数据集。借助配备具有眼动追踪功能的增强现实（AR）智能设备，研究员们人工采集了 VOILA-GAZE 测试数据集，该数据集涵盖了通过注视跟踪设备捕获的现实生活场景。

针对如何有效建模视线信息并与场景中的具体物体对齐的问题，本文创新性地提出了 Voila 感知模块（Voila Perceiver Blocks）。研究员们通过引入隐式查询向量（latent query），将视线信息融入了图像特征中，并保留了模型的预训练知识。

最后，研究员们使用保留的 VOILA-COCO 验证集以及人工采集的 VOILA-GAZE 测试集对 Voila-A 进行了全面评估。实验结果表明，Voila-A 在多个基线模型上取得了显著优势。通过将模型的注意力与人类的注视模式对齐，Voila-A 为开发更加直观且以用户为中心的视觉语言模型奠定了重要基础，同时也促进了多种实际应用中更加自然的人机交互体验。

欲了解微软研究院在本届 NeurIPS 的更多内容，请访问：

https://www.microsoft.com/en-us/research/story/microsoft-at-neurips-2024-advancing-ai-research-across-domains/

arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。

最新文章

arXiv每日学术速递2024.12.25

我发现了找顶会创新点的最强公式，真的不需要脑子

了解世界还是预测未来？一场关于自动驾驶世界模型的祛魅（清华最新综述）！

小乐数学科普：陶哲轩长文阐述机器辅助证明——译自美国数学会通讯AMS Notice 202501

唤醒企业沉睡的知识，元脑企智EPAI三步高效创建大模型RAG

arXiv每日学术速递2024.12.24

专题解读 | 图增强大语言模型研究进展

MSRA | 2025年六大AI趋势展望

EMNLP顶会最佳论文解读！

arXiv每日学术速递2024.12.23

机器人是如何实现自由运动的？ROS自主导航了解一下

CLIP-SR：用于超分辨率的协同语言和图像处理

NeurIPS上新 | 加强多模态协同，提高行业基础模型精度

全球首个AI圣彼得大教堂上线，40万照片毫米级3D还原文艺复兴巅峰！

CLIP 走向 3D：利用快速调整实现基于语言的3D 识别

A轮3笔融资近2亿这家通用软体机器人技术公司将如何抢滩5000亿低空经济市场？

CVPR今年这情况，很严重，大家做好准备吧

arXiv每日学术速递2024.12.20

小红书MySQL数据一致性校验能力探索与实践

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

arXiv每日学术速递2024.12.19

论文一起读 | Aerial Lifting: 基于航拍图像的城市语义与建筑实例提取

北航&清华联合发力！Stag-1：视频生成模型实现超逼真的4D驾驶场景算法！

245个目标检测开源项目合集，建议收藏！

arXiv每日学术速递2024.12.18

图像标注神器 X-AnyLabeling v2.5.0 重磅发布 | 通用视觉任务全新升级，交互式视觉-文本提示功能全面上线！

头发和脂肪只能二选一？西湖大学最新Cell：长期轻断食，小心发量！

arXiv每日学术速递2024.12.17

SIGGRAPH Asia 2024 | 建筑群细节层次联合生成

预测2025顶会多模态大模型热门research！

arXiv每日学术速递2024.12.16

Gaussian的含金量还在提升！清华&鉴智强强联合GaussianFormer-2：拿下OCC新SOTA~

AWQ：适合端侧的 4-bit 大语言模型权重量化｜大模型轻量化系列解读 (二)

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

跨模态微调：先对齐后细化

Rho-1：基于选择token建模的预训练方法

你不要错过的EI会议大盘点，赶紧来看看！

arXiv每日学术速递2024.12.13

一周发明GAN！时间检验奖得主分享背后故事：每件发明都不是最后的发明

专题解读 | EDA中逻辑综合的算子序列优化问题

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

arXiv每日学术速递2024.12.12

NeurIPS 2024 | CRAYM: 基于相机射线匹配的神经场优化

没创新点！照样中顶会！

arXiv每日学术速递2024.12.11

久等了！希望这篇万字长文能帮助入门的朋友彻底搞懂车道线检测（中科院最新综述）

专题解读 | 大语言模型辅助代码文档生成

Idea也能自动生成？| 浙大阿里联合提出科研Ideas自动生成工具SciPIP

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉