【阿姆斯特丹博士论文】在视觉挑战条件下的多模态学习

学术   2024-11-25 17:03   北京  
来源:专知

本文约1000字,建议阅读5分钟

本论文旨在研究在视觉挑战条件下的多模态学习


尽管许多多模态机器学习方法相较于单一感知的单模态方法在准确性上取得了优越的表现,但它们隐含地假设视觉模态总是清晰的。然而,这一假设在实际应用中容易被证伪,因为在日常环境中,视觉条件不佳的情况十分常见。我们发现,当视觉条件具有挑战性时,现有的机器学习方法往往无法有效地利用其他模态的信息。因此,它们过度依赖视觉模态,因为在训练数据中,视觉模态通常是可靠且信息丰富的。结果,当视觉条件变差并开始包含误导性信息时,这些方法无法适应。此外,传统的多模态模型从未学会在视觉挑战场景中找到跨模态的对应关系。本论文旨在研究在视觉挑战条件下的多模态学习。我们将在各个章节中分别探讨每种变化,并提出我们的解决方案,以实现更有效的多模态表示学习。最后,在论文的最后一章,我们将提供一个简要的结论。我们希望我们的研究能激发更多关于视觉挑战条件下多模态学习的研究。
https://hdl.handle.net/11245.1/bf8162ca-b205-40d2-b214-5c2a1ed17a19



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


数据派THU
清华大数据研究中心官方平台,发布团队科研、教学等最新动态及大数据领域的相关信息~
 最新文章