1.29-4|iFormer,结合CNN和ViTs轻量化特征提取网络;VLMs视觉偏见,人类与模型感知对齐;免引导的视觉生成推理

文摘   2025-01-29 21:56   河南  

计算机视觉与生成模型:iFormer,结合CNN和ViTs轻量化特征提取网络;VLMs视觉偏见,人类与模型感知对齐;免引导的视觉生成推理

iFormer: Integrating ConvNet and Transformer for Mobile Application

2025-01-26|SJTU|ICLR 2025|🔺9

http://arxiv.org/abs/2501.15369v1
https://huggingface.co/papers/2501.15369
https://github.com/ChuanyangZheng/iFormer

研究背景与意义

在移动应用日益普及的背景下,轻量化神经网络的构建变得尤为重要。这不仅有助于实时分析智能手机等设备拍摄的图像和视频,还能提升用户隐私保护和安全性,因其能在本地进行数据处理。尽管卷积神经网络(CNNs)在资源有限的移动设备上取得了显著进展,但其局限性也日益显现,包括对局部滑动窗口机制的依赖,限制了建模灵活性。近年来,视觉变换器(ViTs)因其自注意力机制在多种计算机视觉任务中展现出优越性能,但其在移动设备上的应用受到计算复杂度和内存使用的制约。因此,结合CNN和ViTs的优点,设计出既高效又轻量的混合网络成为了研究的热点。

研究方法与创新

本文提出了一种新型的混合视觉网络iFormer,旨在优化移动应用中的延迟和准确性。iFormer通过整合卷积网络和自注意力机制的优点,采用了四阶段的分层架构。在高分辨率的早期阶段,使用快速卷积提取局部特征;而在后续的低分辨率阶段,结合了单头调制自注意力(SHMA),以增强模型对长距离上下文的建模能力。SHMA的引入显著降低了内存开销,同时保持了强大的表现力。通过与现有轻量化网络的对比,iFormer在多个视觉识别任务上表现出色,尤其是在图像分类、目标检测和语义分割任务中,展现出优于MobileNetV4等主流模型的性能。

实验设计与结果分析

在ImageNet-1K数据集上,iFormer-M模型在仅1.10毫秒的延迟下达到了80.4%的Top-1准确率,超越了同类轻量化网络。实验中采用的训练策略确保了与现有模型的公平比较,结果显示iFormer在延迟和准确性之间实现了优良的平衡。此外,在下游任务如COCO目标检测和ADE20K语义分割中,iFormer也展现出显著的性能提升,验证了其在高分辨率输入场景中的有效性和可扩展性。

结论与展望

iFormer作为一种新型的轻量化混合网络,成功地在延迟和准确性之间达成了最佳平衡,展示了其在移动应用中的广泛应用潜力。未来的研究可以进一步探索iFormer在不同硬件环境下的优化策略,以及在更复杂任务中的适应性和扩展性。通过不断改进网络结构和训练方法,iFormer有望在移动计算领域开辟新的应用前景。

Are Vision Language Models Texture or Shape Biased and Can We Steer Them?

2024-03-14|IMLA, US, MPII, Google DeepMind, ICG, U Mannheim|🔺8

http://arxiv.org/abs/2403.09193v1
https://huggingface.co/papers/2403.09193

研究背景与意义

在计算机视觉领域,视觉语言模型(VLMs)近年来迅速崛起,开启了多种新应用,如Zero-shot图像分类、图像描述和视觉问答等。与传统的纯视觉模型不同,VLMs通过语言提示为用户提供了更直观的访问视觉内容的方式。这种模型的广泛适用性引发了一个重要问题:这些模型是否能够准确地反映人类视觉的特性,尤其是在视觉偏见方面。本文关注的一个关键视觉偏见是纹理与形状偏见,即局部信息与全局信息的主导地位。研究发现,VLMs往往比其视觉编码器更倾向于形状偏见,这表明文本在多模态模型中对视觉偏见的调节作用。通过大量实验,作者验证了这种偏见的可操控性,展现了语言提示在改变视觉偏见方面的潜力。

研究方法与创新

本研究采用了一系列系统的实验方法来测量和分析VLMs中的纹理与形状偏见。研究者们首先构建了一个包含1280个样本的纹理-形状线索冲突分类问题,旨在测量模型在处理具有冲突线索的图像时的表现。通过将VLMs与基准视觉模型进行比较,研究者发现VLMs在形状偏见方面表现出更高的灵活性。此外,研究还探索了如何通过视觉处理和语言提示来操控这种偏见。实验结果表明,VLMs不仅能够理解形状和纹理的视觉概念,还能够通过简单的提示修改来引导模型的预测。这一发现不仅丰富了对VLMs的理解,也为未来的多模态模型设计提供了新的思路。

实验设计与结果分析

在实验设计中,研究者对VLMs在视觉问答(VQA)和图像描述任务中的表现进行了系统评估。通过对比不同模型在这些任务中的形状偏见,结果显示,VLMs在处理图像时更倾向于基于形状做出决策。尽管VLMs在形状偏见方面仍低于人类(96%),但在大多数情况下,它们的表现优于传统的视觉模型。这一发现强调了VLMs在理解和处理视觉信息方面的潜力。此外,通过对模型的置信度进行分析,研究者发现VLMs在做出决策时表现出高度的置信度,尤其是在形状相关的预测中。这表明,VLMs不仅能够有效处理视觉信息,还能够在一定程度上控制其偏见。

结论与展望

本研究的贡献在于揭示了VLMs在纹理与形状偏见方面的表现及其可操控性。研究表明,VLMs并非简单地继承视觉编码器的偏见,而是能够通过语言和视觉信息的结合来调节其决策过程。这一发现为理解多模态模型的内部机制提供了新的视角,并为未来的研究指明了方向。尽管本研究在多个VLMs上进行了广泛的实验,但仍需进一步探索不同架构和训练方法对视觉偏见的影响。未来的研究可以集中在如何优化提示和模型设计,以实现更好的视觉偏见控制,从而提升多模态模型的性能和实用性。

Visual Generation Without Guidance

2025-01-26|THU, ShengShu|🔺5

http://arxiv.org/abs/2501.15420v1
https://huggingface.co/papers/2501.15420
https://github.com/thu-ml/GFT

研究背景与意义

在视觉生成模型领域,低温采样是一种关键技术,旨在通过专注于模型的高似然区域来提高生成质量。当前广泛应用的Classifier-Free Guidance (CFG) 方法在训练过程中需要同时优化条件和无条件模型,这导致了推理时的计算成本加倍。随着视觉生成需求的不断增加,如何降低计算成本并提高生成效率成为了一个重要的研究方向。因此,本文提出的Guidance-Free Training (GFT) 方法应运而生,其目的是在不依赖引导采样的情况下,构建高效的视觉生成模型。

GFT不仅降低了推理过程中的计算复杂性,还简化了模型的训练流程,相较于传统的CFG方法,GFT在保证生成质量的同时,减少了50%的计算成本。这一创新为视觉生成模型的高效训练提供了新的思路,尤其是在资源有限的环境中,具有重要的实际意义。

研究方法与创新

GFT的核心思想在于通过构建隐式网络来直接优化基础采样模型,而不是依赖于传统的CFG方法中所需的额外无条件模型。具体而言,GFT通过调整引导温度参数,灵活地控制图像生成的保真度和多样性。这种方法在训练时只需进行少量的代码修改,便可以与现有的代码库无缝集成。

在实验中,GFT在多个视觉模型上进行了广泛的测试,包括扩散模型、自动回归模型和掩蔽预测模型。结果表明,GFT在生成质量上与CFG方法相当,甚至在某些情况下表现出更好的效果。此外,GFT还展示了从零开始训练引导无模型的能力,这一特性在现有的基于蒸馏的方法中是不可实现的。

实验设计与结果分析

在实验设计上,研究团队选择了五种不同类型的视觉模型进行评估,涵盖了扩散模型、自动回归模型和掩蔽模型等。实验结果显示,GFT在生成质量(FID分数)上与CFG方法相当,同时在训练和推理过程中显著降低了计算成本。具体而言,在相同的训练周期内,GFT模型通常能够匹配甚至超越CFG模型的性能,这一发现强调了GFT在视觉生成领域的广泛适用性和有效性。

通过对比不同模型的性能,GFT在生成多样性和保真度方面的灵活性得到了证实,尤其是在调整温度参数时,模型能够自如地在生成质量和多样性之间进行权衡。这一特性使得GFT在实际应用中具有更大的适应性,能够满足不同场景下的生成需求。

结论与展望

本文提出的GFT方法为视觉生成模型的训练提供了一种新的思路,显著降低了计算成本,同时保持了高质量的生成效果。未来的研究可以进一步探讨GFT在其他生成任务中的应用潜力,并优化其在大规模数据集上的训练效率。此外,随着生成模型的广泛应用,如何在保持生成质量的同时兼顾计算效率,将是一个值得深入探索的研究方向。GFT的提出不仅为学术界提供了新的研究工具,也为工业界的实际应用提供了重要的支持。


AI研究前瞻
欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南! 我们致力于为您提供最新、最前沿的AI研究论文解读和分析,并以通俗易懂的方式呈现其核心思想和潜在影响。 一起探索AI的无限可能,共同见证人工智能改变世界的每一步!
 最新文章