计算机视觉与图像生成:连续值自回归图像生成,推测解码扩展到连续空间;增强Clip语义分割;感兴趣区域无参考图像质量评估
Continuous Speculative Decoding for Autoregressive Image Generation
2024-11-18|UCAS, CAS IA, China Tower Corporation Limited|🔺13
http://arxiv.org/abs/2411.11925v1
https://huggingface.co/papers/2411.11925
https://github.com/MarkXCloud/CSpD
研究背景与意义
在图像生成领域,连续值自回归(AR)模型相较于离散标记模型展现出显著的重建质量和生成保真度。然而,AR模型的推理开销大,尤其是在训练和推理过程中,离散标记的量化操作会导致不稳定性。当前的挑战在于如何有效地将推理速度与生成质量结合起来。本
文提出了一种新的连续推测解码方法,通过对推测解码算法进行改进,推动了连续值视觉自回归模型的应用,为图像生成任务提供了新的思路。
研究方法与创新
本文的核心创新在于将推测解码扩展至连续空间,并建立了适用于连续概率密度函数(PDF)的接受标准。具体而言,研究者提出了一种接受-拒绝采样方法,旨在解决连续空间中缺乏解析形式的问题。通过分析输出分布的内在特性,研究者引入了去噪轨迹对齐和标记预填充的策略,以提高生成图像的质量。此外,实验结果表明,提出的方法在保持生成质量的同时,推理速度提升达2.33倍。
接受标准的建立:通过对连续PDF的计算,确保生成的样本符合目标模型的输出分布。 去噪轨迹对齐:对去噪过程中的输出进行对齐,以减少生成分布的差异,提高接受率。 标记预填充:在自回归生成过程中,预填充部分目标模型的标记,以改善初期的接受率。
实验设计与结果分析
在实验中,研究者使用了开源的连续值视觉自回归模型MAR,在ImageNet数据集上进行256×256的图像生成。通过对比不同模型配置下的FID和Inception Score(IS),结果显示提出的连续推测解码方法在多种场景下均表现出优越的生成能力和显著的速度提升。
速度提升:在不同的批量大小和草稿数量下,推测解码方法实现了最高2.33倍的速度提升。 生成质量:通过对比生成图像的FID和IS指标,验证了提出方法在保持生成质量方面的有效性。
结论与展望
本文提出的连续推测解码方法为自回归图像生成提供了一种高效的解决方案。通过对推测解码算法的扩展和改进,研究者不仅提高了推理速度,同时保持了生成图像的高质量。
未来的研究可以进一步探讨该方法在其他领域的应用潜力,如视频生成和多模态生成任务。希望本研究能够为连续值自回归模型的推理加速提供更多的思考和启示。
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements
2024-11-18|Bilkent U, RWTH Aachen U, TUM, ITU|🔺10
http://arxiv.org/abs/2411.12044v1
https://huggingface.co/papers/2411.12044
https://github.com/m-arda-aydn/ITACLIP
研究背景与意义
在计算机视觉领域,基础的视觉语言模型(VLMs)的快速进展引发了评估范式的变革。尤其是CLIP模型的出现,使得计算机视觉开放世界任务的研究加速。然而,尽管初步结果令人鼓舞,VLMs在密集预测能力方面仍需进一步提升。
本研究旨在通过引入新的模块和修改,增强CLIP的语义分割性能。具体而言,研究的目标是通过改进模型架构、图像增强和利用大型语言模型(LLMs)生成类名的定义和同义词,以提升模型的开放词汇能力。
研究方法与创新
本研究提出了一种新的训练无关的语义分割方法ITACLIP。该方法通过以下几方面的创新来提升性能:
架构修改:在ViT的最后一层中进行架构改动,并结合中间层的注意力图与最后一层的注意力图,以增强模型对图像特征的捕捉能力。
图像工程:应用数据增强技术丰富输入图像的表示,从而提升模型对不同场景的适应性。
大型语言模型辅助文本生成:利用LLMs生成每个类名的定义和同义词,从而增强CLIP的开放词汇能力。
这些创新使得ITACLIP在多个分割基准上超越了现有的最先进方法,展示了其在开放词汇语义分割任务中的强大潜力。
实验设计与结果分析
实验部分通过对比ITACLIP与当前最先进的方法(如SCLIP和NACLIP)在COCO-Stuff、COCO-Object、Pascal Context和Pascal VOC等数据集上的表现,验证了所提方法的有效性。实验结果表明,ITACLIP在各个数据集上均表现出色,尤其是在COCO-Stuff和Pascal Context数据集上,显著提升了分割精度。这表明,ITACLIP不仅在开放环境中具有较强的适应性,而且在多个场景下均能保持高效的性能。
结论与展望
本研究提出的ITACLIP方法通过结合图像、文本和架构增强,成功地提升了语义分割的准确性。尽管如此,仍需探索更复杂的图像增强技术和更强大的语言模型,以进一步提升模型的表现。
未来的研究可以集中在如何将ITACLIP的框架扩展到其他计算机视觉任务中,以及如何优化模型的推理效率,以适应更广泛的应用场景。
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning
2024-11-15|CASIA, UCAS, BJTU, BUU, CUP, People AI Inc., Shanghai Tech University|🔺4
http://arxiv.org/abs/2411.10161v1
https://huggingface.co/papers/2411.10161
https://github.com/chencn2020/Seagull
研究背景与意义
在真实世界的应用中,缺乏参考图像使得图像质量评估(IQA)面临重大挑战。现有的IQA方法在整体图像质量分析方面取得了显著成功,但针对感兴趣区域(ROIs)的质量分析却鲜有研究。ROIs的质量分析能够为图像质量的改进提供更细致的指导,尤其在关注区域级质量的场景中显得尤为重要。
因此,本文提出了一种新颖的网络架构——SEAGULL,旨在通过大型视觉-语言模型的指导,实现对ROIs质量的精确评估。SEAGULL结合了由Segment Anything Model(SAM)生成的掩膜来指定ROIs,以及精心设计的基于掩膜的特征提取器(MFE),以提取全球和局部的标记,从而实现对ROIs的准确细粒度IQA。
研究方法与创新
本文提出的SEAGULL网络具有以下创新点:
网络架构:SEAGULL网络利用SAM提取掩膜ROIs,并结合视觉-语言模型以实现对ROIs的有效理解和质量评估。这种设计使得网络能够在细粒度的质量评估中取得优异表现。
数据集构建:为支持ROI-based IQA的训练和评估,本文构建了两个新的数据集:SEAGULL-100w和SEAGULL-3k。前者包含约100万的合成失真图像,后者则包含约3000个真实失真ROIs,提供了更为细致的标签信息,以便于网络的训练和验证。
实验设计:通过在SEAGULL-100w上进行预训练,并在SEAGULL-3k上进行微调,SEAGULL展现出在ROIs质量评估上的卓越能力。实验证明,SEAGULL的表现优于现有的先进IQA模型。
实验设计与结果分析
在实验中,SEAGULL的性能通过多个指标进行评估,包括ROI质量分数、重要性分数、失真严重度及失真类型的识别。实验结果显示,SEAGULL在这些任务中均表现出色,尤其是在ROI质量评估和失真类型识别上,均超过了现有的多种模型。此外,SEAGULL在多种失真类型的识别中表现出色,展现了其在细粒度质量分析中的优势。
结论与展望
本文提出的SEAGULL网络在无参考的图像质量评估中展现了强大的能力,尤其是在对ROIs的细粒度分析方面。通过结合视觉-语言模型与掩膜技术,SEAGULL不仅提高了模型的质量感知能力,还为未来的研究提供了新的思路。
未来的工作可集中在进一步优化网络架构、扩展数据集及提升模型在真实场景中的适应性上,以期在更广泛的应用中实现更好的表现。