2024-11-7 论文分享 | 多模态大模型最新进展

文摘   2024-11-07 10:14   安徽  

点击蓝字 关注我们


论文分享 | 多模态大模型相关研究进展

  1. Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback
  2. INQUIRE: A Natural World Text-to-Image Retrieval Benchmark
  3. Interaction2Code: How Far Are We From Automatic Interactive Webpage Generation?
  4. One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering
  5. TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models

1.Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback

Authors: Guan-Ting Lin, Prashanth Gurunath Shivakumar, Aditya Gourav, Yile Gu, Ankur Gandhe, Hung-yi Lee, Ivan Bulyko

https://arxiv.org/abs/2411.01834

论文摘要

尽管无文本口语语言模型(SLMs)在端到端的语音到语音建模中显示出潜力,但在语义连贯性和相关性方面仍落后于基于文本的大型语言模型(LLMs)。本研究介绍了Align-SLM框架,利用受到人工智能反馈强化学习(RLAIF)启发的偏好优化来增强SLMs的语义理解。我们的方法从给定的提示生成多种语音继续,并使用语义度量创建用于直接偏好优化(DPO)的偏好数据。我们使用ZeroSpeech 2021基准测试对框架进行评估,涉及词汇和句法建模,使用口语版StoryCloze数据集评估语义连贯性,以及包括GPT4-o分数和人类评估在内的其他语音生成指标。实验结果表明,我们的方法在大多数基准测试中实现了SLMs的最新性能,突出了偏好优化在改善SLMs语义方面的重要性。

论文简评

这篇关于Align-SLM的论文是一个令人振奋的研究成果,探索了如何通过强化学习与人工智能反馈优化语言模型(如语音生成器)中的语义偏好。该方法能够生成多种连续文本,并利用语义指标直接优化偏好。研究者声称,他们的方法在多个基准上取得了最先进的性能表现,表明在语言建模中考虑语义偏好的重要性。这一突破为未来的语音生成技术提供了新的视角,有助于提高语音识别和理解的质量。总的来说,Align-SLM是当前语音生成领域的强有力竞争者,其创新性的方法有望在未来得到更广泛的应用和发展。

2.INQUIRE: A Natural World Text-to-Image Retrieval Benchmark

Authors: Edward Vendrow, Omiros Pantazis, Alexander Shepard, Gabriel Brostow, Kate E. Jones, Oisin Mac Aodha, Sara Beery, Grant Van Horn

https://arxiv.org/abs/2411.02537

论文摘要

我们介绍了INQUIRE,这是一个旨在挑战多模态视觉-语言模型的文本到图像检索基准。INQUIRE包含了iiNaturalist 2024(iNat24)这一新的数据集,其中包含五百万张自然界图像和250个专家级检索查询。这些查询与 iNat24 中全面标记的所有相关图像配对,共计33,000个匹配。

这些查询覆盖了物种识别、上下文、行为和外观等多个类别,强调了对细致图像理解与领域专业知识的需求。我们的基准评估了两个核心检索任务:(1)Inquire-Fullrank,一个完整数据集排名任务,以及(2)Inquire-Rerank,一个用于细化前100个检索结果的重排序任务。对一系列最新多模态模型的详细评估表明,INQUIRE提出了重大挑战,最佳模型的mAP@50仍未超过50%。

此外,我们展示了使用更高级的多模态模型进行重排序可以提高检索性能,但仍有显著的改进空间。通过聚焦于科学驱动的生态挑战,INQUIRE旨在缩小人工智能能力与现实世界科学探究需求之间的差距,鼓励开发可以加速生态和生物多样性研究的检索系统。

论文简评

INQUIRE是一项针对生态与生物多样性领域的文本到图像检索基准,旨在为专家级查询提供一个新的数据集,包含五百万张自然界图片及其对应的二百五十个问题。这项研究挑战了当前多模态模型面临的难题,这些模型在处理该数据集时表现不佳。通过提出这一挑战,INQUIRE旨在推动图像检索领域的发展,鼓励开发更强大的系统以支持科学研究。该研究强调了现有基准中的空白,并提出了促进多模态检索系统进步的新目标,以便更好地服务于生态和生物多样性研究。总的来说,INQUIRE是一个对生态科学有重要影响的研究项目,它有望解决当前多模态检索技术面临的问题,并进一步推动相关领域的研究与发展。

3.Interaction2Code: How Far Are We From Automatic Interactive Webpage Generation?

Authors: Jingyu Xiao, Yuxuan Wan, Yintong Huo, Zhiyao Xu, Michael R. Lyu

https://arxiv.org/abs/2411.03292

论文摘要

将网页设计转换为功能性用户界面代码是构建网站的关键步骤,这一过程往往劳动密集且耗时。为了自动化这种设计到代码的转化过程,已经提出了多种使用基于学习的网络和多模态大型语言模型(MLLMs)的自动化方法。然而,这些研究仅在狭窄范围的静态网页上进行了评估,忽视了动态交互元素,使其在现实世界网站部署中实用性下降。

为了填补这一空白,我们首次对MLLMs在生成交互网页方面进行了系统研究。具体而言,我们首先定义了任务,并构建了包含97个独特网页和213种不同交互的基准,该基准涵盖了15种网页类型和30种交互类别。随后,我们对三种最先进的MLLM进行了全面实验,采用自动指标和人工评估,归纳出六个研究发现。我们的实验结果突显了MLLMs在生成细粒度交互特性和管理复杂转换及细微视觉修改的互动方面的局限性。我们进一步分析了失败案例及其潜在原因,识别出10种常见的失败类型并评估其严重性。此外,我们的研究发现了三种关键影响因素,即提示、视觉显著性和文本描述,这些因素可以提高MLLMs的交互生成性能。基于这些发现,我们为研究人员和开发者提供了启示,为该领域未来的进展奠定了基础。数据集和源代码可在https://github.com/WebPAI/Interaction2Code获取。

论文简评

这篇关于多模态大型语言模型(Multi-modal Large Language Models, MLLMs)在生成交互式网页中的应用的研究论文,主要聚焦于自动构建交互式网页这一实践问题。该研究提出了一种名为Interaction2Code的新框架,并通过建立一个包含各种网页及其交互类型的基准集来展示其价值。此外,还对三种最先进的MLLM进行系统性的性能评估,以识别这些模型在生成互动特征方面的局限性以及影响性能的关键因素。研究结果表明,尽管MLLM在某些方面表现良好,但在处理细粒度交互特征时遇到挑战,并明确指出了提高自动化前端开发工具性能的关键领域。总之,这篇论文为改善基于MLLM的自动前端开发提供了有价值的信息与启示,具有重要的理论意义和实际应用价值。

4.One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering

Authors: Deepayan Das, Davide Talon, Massimiliano Mancini, Yiming Wang, Elisa Ricci

https://arxiv.org/abs/2411.02210

论文摘要

视觉语言模型(VLMs)在视觉问答(VQA)任务中显示出显著的潜力,利用了规模庞大的多模态数据集。然而,这些模型在适应新任务时常常面临持续学习的挑战,因为在新任务上学习时容易发生灾难性遗忘。作为一种有效的补救措施,复习策略在学习新任务时使用以前任务的数据。然而,该策略需要存储历史数据,这在硬件限制或隐私问题下可能不可行。在本研究中,我们提出了首个无数据方法,利用VLM的语言生成能力,而不是依赖外部模型,生成伪复习数据以应对持续的VQA。我们将该方法命名为GaB,通过对新任务数据提问以生成伪复习数据。尽管该方法有效,但由于训练数据有限且特定于任务,生成的问题分布偏向于最常被提出的问题。为了缓解这一问题,我们引入了一个伪复习平衡模块,该模块使用问题的元统计信息或无监督聚类方法,使生成的数据与真实数据分布对齐。我们在两个最新基准上评估了我们提出的方法,即VQACL-VQAv2和CLOVE-function基准。GaB在保持跨演变任务的VQA性能方面,显著优于所有无数据基线,并在性能上与能够使用历史数据的方法持平。代码将很快公开。

论文简评

在这篇关于视觉问题解答(Visual Question Answering, VQA)的论文中,作者提出了一种名为GaB的新方法,解决持续学习中的问题——在任务从一种模型切换到另一种时,可能导致的记忆丢失现象。该方法利用当前任务图像生成与过去任务相关联的问题答案对,从而避免了遗忘现象的发生。

此外,论文还引入了一个平衡模块以减轻生成问题的答案分布不均的问题。通过实验验证,GaB的方法在VQACL-VQAv2和CLOVE功能基准测试上表现出了显著的优势,优于现有的数据无输入方法。

总的来说,这篇论文提出了一种创新的无数据输入方法,旨在克服VQA领域中的一个重要挑战——记忆丢失。通过采用VLM作为数据来源,并引入平衡机制,GaB有效地解决了这一问题,展示了其强大的适应性与泛化能力。这些结果表明,GaB是一个有潜力的有效解决方案,可以改进现有技术。

5.TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models

Authors: Georgia Gabriela Sampaio, Ruixiang Zhang, Shuangfei Zhai, Jiatao Gu, Josh Susskind, Navdeep Jaitly, Yizhe Zhang

https://arxiv.org/abs/2411.02437

论文摘要

尽管文本到图像生成模型在整体性能方面取得了显著进展,但对其评估仍然是一项挑战。现有的指标如clipscore适用于粗略评估,但在模型性能迅速提升时,缺乏敏感性,无法区分更微妙的差异。在这项工作中,我们专注于这些模型的文本渲染,提供了评估生成模型的细粒度指令遵循能力的新视角。为此,我们提出了一个新的评估框架,称为TypeScore,旨在敏感地评估模型根据精确指令生成嵌入高保真文本的图像的能力。我们认为,这种文本生成能力可以作为图像合成中一般指令遵循能力的代理。我们的TypeScore使用额外的图像描述模型,并通过原始文本和提取文本之间的集成相似度度量来评估文本的保真度。我们提出的指标显示出比clipscore更高的分辨率,可以在多种指令和不同文本风格中区分流行的图像生成模型。我们的研究还评估了这些视觉语言模型(VLMs)遵循风格指令的能力,将风格评估与嵌入文本的保真度区分开来。通过人类评估研究,我们定量地对该指标的有效性进行了元评估。同时,我们进行了全面分析,探讨了文本长度、字幕模型以及在此任务上实现人类平价的当前进展等因素。该框架提供了对图像生成中嵌入文本指令遵循的剩余差距的洞察。

论文简评

在这篇关于图像生成模型中文本嵌入评估的论文中,作者提出了一种新的指标——TypeScore,旨在评估文本生成图像时所嵌入文本的准确度。该研究批判了现有的评估标准,如CLIPScore,因为它们无法精确反映不同文本渲染差异对性能的影响。通过引入一个包含多样化文本指令数据集(TYPEINST)的新框架,研究表明TypeScore可以更好地与人类判断匹配,相比于CLIPScore更具敏感性。

论文的亮点在于其提出的新型评分机制及其如何利用新的训练数据增强评估框架的鲁棒性。此外,一项基于不同类型指令的人类评估研究补充了论文的结论,进一步增强了结论的可信度。总之,这篇论文提供了一个全面、深入的视角,以解决当前图像生成模型中文本嵌入评估的问题,并为未来的研究提供了有价值的参考。

我们欢迎您在评论区中留下宝贵的建议!包括但不限于:

  • 可以提出推文中论文简评的不足!
  • 可以分享最近更值得推荐的论文并给出理由!


END

推荐阅读

2024-11-6 论文分享 | 智能体最新进展

2024-11-5 论文分享 | 多模态大模型最新进展

2024-11-4 论文分享 | 智能体相关研究进展

2024-11-1 论文分享| 大语言模型相关研究进展

智荐阁
介绍生成式大模型与推荐系统领域的前沿进展,包括但不限于:大语言模型、推荐系统、智能体学习、强化学习、生成式推荐、引导式推荐、推荐智能体、智能体推荐
 最新文章