11.26-3|SAE解构LLM多义神经元；用游戏评估VLLM复杂推理，空间理解与规划；基于SVD的新视角合成

文摘 2024-11-26 05:57 浙江

多模态与视角生成：SAE解构LLM多义神经元；用游戏评估VLLM复杂推理，空间理解与规划；基于SVD的新视角合成

Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

2024-11-22｜NTU|🔺11

http://arxiv.org/abs/2411.14982v1
https://huggingface.co/papers/2411.14982
https://github.com/EvolvingLMMs-Lab/multimodal-sae

研究背景与意义

近年来，大型多模态模型（LMMs）在计算机视觉和自然语言处理领域取得了显著进展。这些模型的成功使得它们在个人助理、医疗诊断等多个应用中得到了广泛应用。然而，LMMs的内部机制仍然不够透明，导致其在某些任务中表现出意外行为，如幻觉现象（hallucination）。因此，理解LMMs的神经表示变得至关重要。本论文旨在通过提出一种新颖的框架，识别和解释LMMs中的语义特征，从而为理解其内部工作机制提供基础。

研究意义：通过对LMMs内部表示的解析，可以帮助开发更可靠的模型，提升它们在实际应用中的表现。
研究目标：构建一个自动化的解释框架，以便更好地理解和控制LMMs的行为。

研究方法与创新

本研究采用稀疏自编码器（SAE）作为主要工具，旨在解构LMMs中的多义神经元，将其转化为人类可理解的特征。具体方法包括：

特征解耦：利用SAE的架构，将神经元的多义性解耦为单一的、易于理解的特征。
自动化解释框架：结合SAE和大型LMMs，创建一个自动化的解释管道，能够识别和解释特征。
行为引导：通过操控特征的激活值，调整模型的输出行为，以解决特定问题或引导模型产生期望的结果。

这些创新点不仅提高了对LMMs内部机制的理解，还为未来的模型改进提供了新的思路。

实验设计与结果分析

本研究通过一系列实验验证了所提出方法的有效性。实验设计包括：

数据集与模型设置：使用LLaVA-NeXT和LLaVA-OV模型进行训练和测试，确保模型在多种场景下的表现。
基准对比：将实验结果与现有方法进行对比，评估SAE在特征解耦和自动化解释中的优势。
统计显著性：通过统计分析，验证所提方法在不同场景下的有效性，确保结果的可靠性。

实验结果表明，所提出的方法在理解和引导LMMs行为方面具有显著优势，能够有效减少模型的幻觉现象，并提升其在特定任务中的表现。

结论与展望

本研究深入探讨了LMMs的内部结构，提出了一种自动化的特征解释管道，并展示了如何通过特征操控来引导模型行为。研究表明，理解LMMs的神经表示对于提升模型的可解释性和可靠性至关重要。

贡献总结：本研究为理解LMMs提供了新的视角，提出的框架为未来研究奠定了基础。
研究局限：当前方法仍需在更大规模的实际应用中进行验证，以进一步提升其适用性。
未来展望：希望未来的研究能够在更复杂的多模态任务中应用该框架，并探索更多的特征引导策略，以提升LMMs的智能化水平。

BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

2024-11-20｜AI Centre, UCL, IDEAS NCBR, Oxford, NYU, Anthropic|🔺10

http://arxiv.org/abs/2411.13543v1
https://huggingface.co/papers/2411.13543
https://balrogai.com

研究背景与意义

在当今快速发展的人工智能领域，尤其是在大型语言模型（LLMs）和视觉语言模型（VLMs）的应用中，对其在复杂动态环境中的表现进行评估显得尤为重要。现有的评估方法往往无法全面衡量这些模型的能力，尤其是在需要复杂交互、空间推理和长期规划的任务中。

为了解决这一问题，研究团队提出了BALROG基准测试，旨在通过一系列具有挑战性的游戏来评估LLMs和VLMs的代理能力。该基准不仅填补了现有评估方法的空白，还为未来的研究提供了一个开放且用户友好的平台。

研究方法与创新

BALROG基准的创新之处在于其设计的多样性和复杂性。研究团队整合了多种现有的强化学习环境，涵盖从简单到极具挑战性的任务。通过引入细致的性能测量指标，研究人员能够对多种流行的LLMs和VLMs进行全面评估。尤其值得注意的是，BALROG不仅关注模型在简单任务上的表现，更强调在高难度任务中的能力，揭示了当前模型在视觉决策和长期规划方面的严重不足。

方法创新详解

多种游戏环境的整合：BALROG整合了BabyAI、Crafter、TextWorld等多种游戏环境，每种环境都具有不同的复杂性和技能要求。这种多样性使得研究人员能够全面评估模型的多种能力。
细致的性能评估指标：使用细粒度的评分系统，能够准确捕捉模型在完成任务时的表现，帮助研究人员深入理解模型的能力和局限。
开放的基准测试框架：BALROG的代码和评估工具是开放的，便于研究人员在此基础上进行进一步的实验和改进。

实验设计与结果分析

研究团队对多种流行的LLMs和VLMs进行了基线评估，结果显示，尽管这些模型在简单任务中表现尚可，但在更复杂的任务中却显得力不从心。特别是在NetHack等极具挑战性的环境中，模型的表现几乎没有进展，显示出其在空间推理、长期规划和环境动态理解等方面的不足。

空间推理的局限性：模型在处理复杂空间任务时表现不佳，无法有效进行导航和物体放置。
探索能力的不足：在需要系统性探索的任务中，模型往往无法有效地跟踪已访问区域，导致重复探索和遗漏重要区域。
长期规划能力的缺失：在需要精细规划的任务中，模型几乎没有成功的轨迹，表明其在执行多步骤策略时的能力极为有限。

结论与展望

BALROG基准的提出为评估LLMs和VLMs的代理能力提供了一个新的视角。通过对现有模型的深入分析，研究团队揭示了其在视觉决策和长期规划等方面的显著不足。这些发现不仅为未来的研究提供了方向，也强调了在动态环境中开发更强大模型的必要性。未来，研究者们可以利用BALROG基准继续探索和改进模型的能力，以实现更高水平的自主智能体。

Novel View Extrapolation with Video Diffusion Priors

2024-11-21｜NTU, UCAS|🔺5

http://arxiv.org/abs/2411.14208v1
https://huggingface.co/papers/2411.14208
https://kunhao-liu.github.io/ViewExtrapolator/

研究背景与意义

在当前的计算机视觉领域，新视角合成（Novel View Synthesis）技术取得了显著进展，主要得益于光照场（Radiance Fields）方法的发展。然而，多数光照场技术在新视角插值（Novel View Interpolation）方面表现优异，但在新视角外推（Novel View Extrapolation）时却面临诸多挑战。新视角外推的关键在于生成的视角超出训练视角的范围，这在许多应用场景中至关重要，如虚拟现实和增强现实等。因此，针对这一问题的研究具有重要的理论与实际意义。

本研究提出了一种名为ViewExtrapolator的新方法，利用稳定视频扩散（Stable Video Diffusion, SVD）的生成先验，旨在提高新视角外推的质量。此方法的创新在于其无需针对特定模型进行微调，从而实现了数据和计算效率的提升。研究表明，ViewExtrapolator在新视角外推方面的表现优于现有技术，具有广泛的适用性。

研究方法与创新

本研究的核心在于设计了ViewExtrapolator，一个训练无关的管道，利用SVD的生成先验进行新视角外推。其主要创新点包括：

训练无关的外推管道：ViewExtrapolator能够在不进行微调的情况下，直接应用于不同的三维渲染方法，展现出良好的通用性。
引导退化与重采样退化：通过设计引导退化和重采样退化机制，消除生成过程中的伪影，提升渲染质量。这两个机制有效地在未观测区域进行高质量的填充，增强了视觉效果。
广泛的实验验证：通过与多种3D渲染方法的广泛实验对比，展示了ViewExtrapolator在新视角外推中的优越性，包括在点云和光照场渲染中的应用。

这些创新不仅解决了新视角外推中的伪影问题，还提升了合成视图的真实感和清晰度，为未来的研究提供了新的思路。

实验设计与结果分析

在实验设计中，研究者们采用了多种3D渲染方法进行比较，包括3D高斯点云和光照场渲染。实验结果显示，ViewExtrapolator在新视角外推的质量上显著优于传统方法，具体体现在以下几个方面：

视觉质量：通过定量评估指标（如SSIM、PSNR、LPIPS），ViewExtrapolator在多种场景下均表现出更高的视觉质量，尤其在生成远离训练视角的视图时，伪影更少，细节更丰富。
多场景表现：在不同场景下的实验中，ViewExtrapolator展现了良好的泛化能力，能够适应多种类型的3D渲染输入。
统计显著性：通过统计分析，结果表明ViewExtrapolator在新视角外推任务中具有显著的优势，尤其是在生成质量和处理效率上。

结论与展望

本研究提出的ViewExtrapolator为新视角外推提供了一种有效的解决方案，其主要贡献在于引入了训练无关的生成先验，并通过创新的引导机制显著提升了渲染质量。然而，当前方法仍存在一定的局限性，如在极端视角下的表现可能不够理想。未来的研究可以考虑结合更多的深度信息和场景理解机制，以进一步提高生成效果和应用范围。同时，探索如何将该方法应用于实时渲染和交互式场景生成中，将是一个值得关注的方向。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

11.30-2|自动T2I，prompt生成，模型自动选择，参数自动生成

11.30-3|VTOFF，虚拟试穿，高保真重建

11.30-4|长文本多领域关键词提取；大规模泛非洲英语多专业医学问答数据集

11.30-5|无位姿信息的3DGS重建，自监督

11.29-1|ROICtrl，多实例生成，区域控制；

11.29-2|单目视频生成4D场景；不同视觉层次的高保真文本-3D数据集；3D凸点云，3D表示；3D角色绑定、蒙皮

11.29-3|交错文本-图像生成评估，场景图结构，一致性评估

11.29-4|大模型GUI自动化、GUI智能体综述，人机交互

11.29-5|无需微调的个性化图像生成；VAR解码加速；身份一致性保留视频生成；自动驾驶生成式扩散决策；T2I图像细节层次控制

11.28-1|GUI视觉智能体，操作自动化；草图绘画过程模拟；图像区域感知，区域密集描述

11.28-2|长序列高效推理注意力；免训练多模态无效 token 剔除

11.28-3|UV空间的3D纹理生成；自监督点云表示学习；3D对象生成与理解

11.28-4|多模态大语言模型评估综述；视觉-语言生成奖励模型评估

11.28-5|使用视频生成完成图像编辑；图片对象插入，身份保持，在插入时进行编辑

11.27-1|材质，纹理生成，自由光照高保真渲染；3DGS生成与编辑

11.27-2|T2I零样本ID保持；视觉token因式量化

11.27-3|LLM作为评估者综述；跨模态知识迁移；多头MOE；从GPT-O1中提取长推理链

11.27-4|医疗多模态模型；多模态推荐系统

11.27-5|RAG参与故事视频生成，高一致性；扩散模型ID保持，图像编辑

11.26-1|TÜLU 3，开放后训练全过程；LLM越狱，数据无关的守卫

11.26-2|SNR采样器，T2I风格控制；DiT 图像生成控制；高质量VQA数据集构建框架；降低长视频token数量

11.26-3|SAE解构LLM多义神经元；用游戏评估VLLM复杂推理，空间理解与规划；基于SVD的新视角合成

11.26-4|面部年龄变换，面部衰老合成；机器人真实环境模仿学习与规划；云层分割

11.24-1|多模态混合偏好优化；长链多模态推理数据合成

11.24-2|自回归预训练，生成模型达到判别模型性能；Transformer和SSM头融合的小型语言模型；自动化文献检索和问答

11.24-3|DIT的不同层功能识别与图像编辑；基于DIT的复杂街景数据生成，自动驾驶

11.24-4|大规模、超稀疏内存层，推理加速；SAE实体识别，自我认知与幻觉和拒绝回答

11.24-5|Marco-o1，o1思路实验，蒙特卡罗树搜索，推理树微调；自然语言强化学习

11.24-6|低资源语言与Common Crawl数据集，自动抓取，适配器方法

11.22-1|SageAttention2，4-bit量化，硬件加速；注意力加速

11.22-2|人类感知的视频生成质量评估；文本与视频生成不一致的幻觉，错误分析与纠正

11.22-3|开放式视频分析竞技场，ELO评分；LLM智能体策略树预测

11.22-4|SAM2用于运动追踪；base64风格编码；RGBA图像生成，多层生成策略

11.22-5|BF16对RoPE负面影响，数值稳定性；不同数据分布的scaling laws

11.22-6|器官区域信息驱动的放射报告生成，多模态融合；

11.21-1|LLaMA训练数据集，高质量数据

11.21-2|连续值自回归图像生成，推测解码扩展到连续空间；增强Clip语义分割；感兴趣区域无参考图像质量评估

11.21-3|文本引导的草图动画；软体机器人转笔，自监督学习，手部模拟

11.21-4|AI安全测试，AI透明度；SUTRA分词器，印度语言分词器性能评估

11.15-1|长上下文推理自我改进，最小贝叶斯风险；特征级约束偏好优化，高效偏好优化

11.15-2|大规模第一人称视频数据集；可控动作的T2V生成

11.15-3|新版法语CamemBERT，更新知识；稀疏自编码器解释激活引导向量，大模型控制与调整

11.15-4|长结构，富有表现力符号音乐生成，多尺度注意机制

11.20-1|移动设备多模态大模型，vivo，BlueLM-V-3B；移动设备推理能力测试；MOE缓解多任务混合冲突

11.20-2|生成式世界探索，信念更新；参考视角视频生成；top-nσ采样策略，平衡准确多样；DiT缓存推理加速；视频高斯表示

11.20-3|：验证器工程，后训练范式，监督信号；从零训练的德语1B语言模型

11.20-4|Reranker模型的局限性；医学RAG评估框架

11.14-1|指令微调模型，更大模型悖论，兼容性调整奖励；校正流与自回归结果，多模态理解与生成；高质量图像文本描述数据集

11.14-2|SAMPart3D，分割3D物体不同结构；基于小波的紧凑 latent 编码方法，高压缩倍率表示

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉