11.21-2|连续值自回归图像生成，推测解码扩展到连续空间；增强Clip语义分割；感兴趣区域无参考图像质量评估

文摘 2024-11-21 07:43 浙江

计算机视觉与图像生成：连续值自回归图像生成，推测解码扩展到连续空间；增强Clip语义分割；感兴趣区域无参考图像质量评估

Continuous Speculative Decoding for Autoregressive Image Generation

2024-11-18｜UCAS, CAS IA, China Tower Corporation Limited|🔺13

http://arxiv.org/abs/2411.11925v1
https://huggingface.co/papers/2411.11925
https://github.com/MarkXCloud/CSpD

研究背景与意义

在图像生成领域，连续值自回归（AR）模型相较于离散标记模型展现出显著的重建质量和生成保真度。然而，AR模型的推理开销大，尤其是在训练和推理过程中，离散标记的量化操作会导致不稳定性。当前的挑战在于如何有效地将推理速度与生成质量结合起来。本

文提出了一种新的连续推测解码方法，通过对推测解码算法进行改进，推动了连续值视觉自回归模型的应用，为图像生成任务提供了新的思路。

研究方法与创新

本文的核心创新在于将推测解码扩展至连续空间，并建立了适用于连续概率密度函数（PDF）的接受标准。具体而言，研究者提出了一种接受-拒绝采样方法，旨在解决连续空间中缺乏解析形式的问题。通过分析输出分布的内在特性，研究者引入了去噪轨迹对齐和标记预填充的策略，以提高生成图像的质量。此外，实验结果表明，提出的方法在保持生成质量的同时，推理速度提升达2.33倍。

接受标准的建立：通过对连续PDF的计算，确保生成的样本符合目标模型的输出分布。
去噪轨迹对齐：对去噪过程中的输出进行对齐，以减少生成分布的差异，提高接受率。
标记预填充：在自回归生成过程中，预填充部分目标模型的标记，以改善初期的接受率。

实验设计与结果分析

在实验中，研究者使用了开源的连续值视觉自回归模型MAR，在ImageNet数据集上进行256×256的图像生成。通过对比不同模型配置下的FID和Inception Score（IS），结果显示提出的连续推测解码方法在多种场景下均表现出优越的生成能力和显著的速度提升。

速度提升：在不同的批量大小和草稿数量下，推测解码方法实现了最高2.33倍的速度提升。
生成质量：通过对比生成图像的FID和IS指标，验证了提出方法在保持生成质量方面的有效性。

结论与展望

本文提出的连续推测解码方法为自回归图像生成提供了一种高效的解决方案。通过对推测解码算法的扩展和改进，研究者不仅提高了推理速度，同时保持了生成图像的高质量。

未来的研究可以进一步探讨该方法在其他领域的应用潜力，如视频生成和多模态生成任务。希望本研究能够为连续值自回归模型的推理加速提供更多的思考和启示。

ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements

2024-11-18｜Bilkent U, RWTH Aachen U, TUM, ITU|🔺10

http://arxiv.org/abs/2411.12044v1
https://huggingface.co/papers/2411.12044
https://github.com/m-arda-aydn/ITACLIP

研究背景与意义

在计算机视觉领域，基础的视觉语言模型（VLMs）的快速进展引发了评估范式的变革。尤其是CLIP模型的出现，使得计算机视觉开放世界任务的研究加速。然而，尽管初步结果令人鼓舞，VLMs在密集预测能力方面仍需进一步提升。

本研究旨在通过引入新的模块和修改，增强CLIP的语义分割性能。具体而言，研究的目标是通过改进模型架构、图像增强和利用大型语言模型（LLMs）生成类名的定义和同义词，以提升模型的开放词汇能力。

研究方法与创新

本研究提出了一种新的训练无关的语义分割方法ITACLIP。该方法通过以下几方面的创新来提升性能：

架构修改：在ViT的最后一层中进行架构改动，并结合中间层的注意力图与最后一层的注意力图，以增强模型对图像特征的捕捉能力。
图像工程：应用数据增强技术丰富输入图像的表示，从而提升模型对不同场景的适应性。
大型语言模型辅助文本生成：利用LLMs生成每个类名的定义和同义词，从而增强CLIP的开放词汇能力。

这些创新使得ITACLIP在多个分割基准上超越了现有的最先进方法，展示了其在开放词汇语义分割任务中的强大潜力。

实验设计与结果分析

实验部分通过对比ITACLIP与当前最先进的方法（如SCLIP和NACLIP）在COCO-Stuff、COCO-Object、Pascal Context和Pascal VOC等数据集上的表现，验证了所提方法的有效性。实验结果表明，ITACLIP在各个数据集上均表现出色，尤其是在COCO-Stuff和Pascal Context数据集上，显著提升了分割精度。这表明，ITACLIP不仅在开放环境中具有较强的适应性，而且在多个场景下均能保持高效的性能。

结论与展望

本研究提出的ITACLIP方法通过结合图像、文本和架构增强，成功地提升了语义分割的准确性。尽管如此，仍需探索更复杂的图像增强技术和更强大的语言模型，以进一步提升模型的表现。

未来的研究可以集中在如何将ITACLIP的框架扩展到其他计算机视觉任务中，以及如何优化模型的推理效率，以适应更广泛的应用场景。

SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning

2024-11-15｜CASIA, UCAS, BJTU, BUU, CUP, People AI Inc., Shanghai Tech University|🔺4

http://arxiv.org/abs/2411.10161v1
https://huggingface.co/papers/2411.10161
https://github.com/chencn2020/Seagull

研究背景与意义

在真实世界的应用中，缺乏参考图像使得图像质量评估（IQA）面临重大挑战。现有的IQA方法在整体图像质量分析方面取得了显著成功，但针对感兴趣区域（ROIs）的质量分析却鲜有研究。ROIs的质量分析能够为图像质量的改进提供更细致的指导，尤其在关注区域级质量的场景中显得尤为重要。

因此，本文提出了一种新颖的网络架构——SEAGULL，旨在通过大型视觉-语言模型的指导，实现对ROIs质量的精确评估。SEAGULL结合了由Segment Anything Model（SAM）生成的掩膜来指定ROIs，以及精心设计的基于掩膜的特征提取器（MFE），以提取全球和局部的标记，从而实现对ROIs的准确细粒度IQA。

研究方法与创新

本文提出的SEAGULL网络具有以下创新点：

网络架构：SEAGULL网络利用SAM提取掩膜ROIs，并结合视觉-语言模型以实现对ROIs的有效理解和质量评估。这种设计使得网络能够在细粒度的质量评估中取得优异表现。
数据集构建：为支持ROI-based IQA的训练和评估，本文构建了两个新的数据集：SEAGULL-100w和SEAGULL-3k。前者包含约100万的合成失真图像，后者则包含约3000个真实失真ROIs，提供了更为细致的标签信息，以便于网络的训练和验证。
实验设计：通过在SEAGULL-100w上进行预训练，并在SEAGULL-3k上进行微调，SEAGULL展现出在ROIs质量评估上的卓越能力。实验证明，SEAGULL的表现优于现有的先进IQA模型。

实验设计与结果分析

在实验中，SEAGULL的性能通过多个指标进行评估，包括ROI质量分数、重要性分数、失真严重度及失真类型的识别。实验结果显示，SEAGULL在这些任务中均表现出色，尤其是在ROI质量评估和失真类型识别上，均超过了现有的多种模型。此外，SEAGULL在多种失真类型的识别中表现出色，展现了其在细粒度质量分析中的优势。

结论与展望

本文提出的SEAGULL网络在无参考的图像质量评估中展现了强大的能力，尤其是在对ROIs的细粒度分析方面。通过结合视觉-语言模型与掩膜技术，SEAGULL不仅提高了模型的质量感知能力，还为未来的研究提供了新的思路。

未来的工作可集中在进一步优化网络架构、扩展数据集及提升模型在真实场景中的适应性上，以期在更广泛的应用中实现更好的表现。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

11.30-2|自动T2I，prompt生成，模型自动选择，参数自动生成

11.30-3|VTOFF，虚拟试穿，高保真重建

11.30-4|长文本多领域关键词提取；大规模泛非洲英语多专业医学问答数据集

11.30-5|无位姿信息的3DGS重建，自监督

11.29-1|ROICtrl，多实例生成，区域控制；

11.29-2|单目视频生成4D场景；不同视觉层次的高保真文本-3D数据集；3D凸点云，3D表示；3D角色绑定、蒙皮

11.29-3|交错文本-图像生成评估，场景图结构，一致性评估

11.29-4|大模型GUI自动化、GUI智能体综述，人机交互

11.29-5|无需微调的个性化图像生成；VAR解码加速；身份一致性保留视频生成；自动驾驶生成式扩散决策；T2I图像细节层次控制

11.28-1|GUI视觉智能体，操作自动化；草图绘画过程模拟；图像区域感知，区域密集描述

11.28-2|长序列高效推理注意力；免训练多模态无效 token 剔除

11.28-3|UV空间的3D纹理生成；自监督点云表示学习；3D对象生成与理解

11.28-4|多模态大语言模型评估综述；视觉-语言生成奖励模型评估

11.28-5|使用视频生成完成图像编辑；图片对象插入，身份保持，在插入时进行编辑

11.27-1|材质，纹理生成，自由光照高保真渲染；3DGS生成与编辑

11.27-2|T2I零样本ID保持；视觉token因式量化

11.27-3|LLM作为评估者综述；跨模态知识迁移；多头MOE；从GPT-O1中提取长推理链

11.27-4|医疗多模态模型；多模态推荐系统

11.27-5|RAG参与故事视频生成，高一致性；扩散模型ID保持，图像编辑

11.26-1|TÜLU 3，开放后训练全过程；LLM越狱，数据无关的守卫

11.26-2|SNR采样器，T2I风格控制；DiT 图像生成控制；高质量VQA数据集构建框架；降低长视频token数量

11.26-3|SAE解构LLM多义神经元；用游戏评估VLLM复杂推理，空间理解与规划；基于SVD的新视角合成

11.26-4|面部年龄变换，面部衰老合成；机器人真实环境模仿学习与规划；云层分割

11.24-1|多模态混合偏好优化；长链多模态推理数据合成

11.24-2|自回归预训练，生成模型达到判别模型性能；Transformer和SSM头融合的小型语言模型；自动化文献检索和问答

11.24-3|DIT的不同层功能识别与图像编辑；基于DIT的复杂街景数据生成，自动驾驶

11.24-4|大规模、超稀疏内存层，推理加速；SAE实体识别，自我认知与幻觉和拒绝回答

11.24-5|Marco-o1，o1思路实验，蒙特卡罗树搜索，推理树微调；自然语言强化学习

11.24-6|低资源语言与Common Crawl数据集，自动抓取，适配器方法

11.22-1|SageAttention2，4-bit量化，硬件加速；注意力加速

11.22-2|人类感知的视频生成质量评估；文本与视频生成不一致的幻觉，错误分析与纠正

11.22-3|开放式视频分析竞技场，ELO评分；LLM智能体策略树预测

11.22-4|SAM2用于运动追踪；base64风格编码；RGBA图像生成，多层生成策略

11.22-5|BF16对RoPE负面影响，数值稳定性；不同数据分布的scaling laws

11.22-6|器官区域信息驱动的放射报告生成，多模态融合；

11.21-1|LLaMA训练数据集，高质量数据

11.21-2|连续值自回归图像生成，推测解码扩展到连续空间；增强Clip语义分割；感兴趣区域无参考图像质量评估

11.21-3|文本引导的草图动画；软体机器人转笔，自监督学习，手部模拟

11.21-4|AI安全测试，AI透明度；SUTRA分词器，印度语言分词器性能评估

11.15-1|长上下文推理自我改进，最小贝叶斯风险；特征级约束偏好优化，高效偏好优化

11.15-2|大规模第一人称视频数据集；可控动作的T2V生成

11.15-3|新版法语CamemBERT，更新知识；稀疏自编码器解释激活引导向量，大模型控制与调整

11.15-4|长结构，富有表现力符号音乐生成，多尺度注意机制

11.20-1|移动设备多模态大模型，vivo，BlueLM-V-3B；移动设备推理能力测试；MOE缓解多任务混合冲突

11.20-2|生成式世界探索，信念更新；参考视角视频生成；top-nσ采样策略，平衡准确多样；DiT缓存推理加速；视频高斯表示

11.20-3|：验证器工程，后训练范式，监督信号；从零训练的德语1B语言模型

11.20-4|Reranker模型的局限性；医学RAG评估框架

11.14-1|指令微调模型，更大模型悖论，兼容性调整奖励；校正流与自回归结果，多模态理解与生成；高质量图像文本描述数据集

11.14-2|SAMPart3D，分割3D物体不同结构；基于小波的紧凑 latent 编码方法，高压缩倍率表示

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉