10.24-4|日文多模态基准；视频token压缩；结直肠癌多模态诊断

文摘 2024-10-24 09:51 西藏

多模态与跨文化评估：日文多模态基准；视频token压缩；结直肠癌多模态诊断

JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

2024-10-22｜UTokyo, CMU|🔺7

http://arxiv.org/abs/2410.17250v1
https://huggingface.co/papers/2410.17250
https://mmmu-japanese-benchmark.github.io/JMMMU/

研究背景与意义

在近年来，随着大语言模型（LLMs）和大型多模态模型（LMMs）的快速发展，非英语语言的研究也逐渐受到重视。本文提出的JMMMU（Japanese Massive Multi-discipline Multimodal Understanding）基准，旨在填补现有多模态评估中对日本文化背景的不足，尤其是在评估LMMs在日本文化特定任务上的表现。当前的基准大多集中于英语，缺乏对其他语言的深入分析。因此，构建一个全面的、文化意识强的评估标准，对促进多语言LMM的发展具有重要意义。

JMMMU的设计不仅考虑了文化中立的学科（如数学），还特别增加了文化特定的学科，以便更好地反映日本的文化背景。这种双重评估方式使得研究者能够识别出LMMs在不同文化背景下的表现差异，从而推动模型的改进和发展。

研究方法与创新

JMMMU基准的核心创新在于其双子集的设计：文化中立（CA）子集和文化特定（CS）子集。CA子集通过对现有MMMU基准的翻译，确保了与英语基准的一对一比较，而CS子集则通过精心设计的问题，反映了日本文化的独特性。该基准的构建过程涉及了对文化依赖性的深入分析，确保了问题的适用性和相关性。

在实验中，研究者对15个开源LMM和3个先进的专有LMM进行了评估，结果表明，尽管在CA子集上表现良好，但在CS子集上，大多数模型的表现却显著下降，这揭示了当前模型在日本文化理解方面的局限性。此外，研究还强调了在多语言模型开发中，评估工具的多样性和文化适应性的重要性。

实验设计与结果分析

在实验设计方面，JMMMU基准包含了1320个问题和1118幅图片，覆盖了多种学科。通过对模型在CA和CS子集上的表现进行对比，研究者发现，尽管一些模型在CA子集上表现良好，但在CS子集上却遭遇了显著的性能下降。例如，开源模型的整体表现仅为40.5%，而专有模型的表现则高达58.6%，显示出两者之间的显著差距。

实验结果还表明，基于翻译的评估可能导致性能的偏差，特别是在非英语语言的任务中。通过对不同模型的表现进行细致分析，研究者发现，许多模型在处理文化特定问题时，缺乏必要的背景知识和文化理解，导致了较低的准确率。

结论与展望

本研究提出的JMMMU基准为评估LMMs在日本文化特定任务上的能力提供了新的视角。研究结果不仅揭示了当前模型在多语言和文化理解方面的不足，也强调了在未来的模型开发中，构建高标准、多样化的评估工具的重要性。通过推动对文化特定任务的深入研究，研究者希望能够激励更多的社区参与到多语言模型的发展中，从而促进更具包容性和实用性的LMMs的创建。未来的工作将集中在扩展评估范围、提高模型的指令遵循能力以及探索其他文化背景下的评估标准。

xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

2024-10-21｜Salesforce AI Research|🔺6

http://arxiv.org/abs/2410.16267v1
https://huggingface.co/papers/2410.16267
https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html

研究背景与意义

在当今计算机视觉领域，视频的理解和处理正逐渐成为一个重要的研究方向。随着多模态学习的快速发展，传统的视觉语言模型（VLM）在图像处理上取得了显著进展，但在视频处理方面仍面临诸多挑战。现有模型往往需要处理大量的视觉token，例如，某些模型需要4608个token来表示视频，这不仅增加了计算复杂度，还导致了效率低下。因此，针对视频的高效表示和处理方法的研究显得尤为重要。

BLIP-3-Video（xGen-MM-Vid）作为一种新型的多模态语言模型，旨在通过引入显式的时间编码器，显著减少所需的视觉token数量，从而提高视频理解的效率和准确性。

研究方法与创新

BLIP-3-Video的核心创新在于其引入的时间编码器。该模型通过将多个帧的token映射为一个紧凑的视觉token集合，显著降低了所需的视觉token数量（例如，从4608个减少到32个）。

具体而言，BLIP-3-Video采用了可学习的时空池化和序列模型作为时间编码器，能够有效地提取视频的时序特征。通过实验验证，该模型在开放式问题回答和视频描述任务中，使用少量token（如16到32个）仍能保持与更大规模模型（如34B参数模型）相当的性能。这种方法不仅提高了模型的计算效率，还为视频理解提供了一种新的思路。

实验设计与结果分析

在实验设计中，BLIP-3-Video经过了三阶段的课程学习：图像标题预训练、视频标题预训练和视频指令调优。通过在多个公开数据集上进行评估，BLIP-3-Video在视频问答准确率上表现优异，尤其是在MSVD-QA、MSRVTT-QA和TGIF-QA等数据集上，显示出其在开放式问题回答任务中的竞争力。此外，实验结果表明，BLIP-3-Video在使用较少token的情况下，能够有效地捕捉视频中的重要信息，且其在处理速度上也具备明显优势。

结论与展望

BLIP-3-Video的研究成果展示了在视频理解领域的巨大潜力。通过引入高效的时间编码器，该模型不仅在性能上与传统大型模型相媲美，同时在计算效率上也显著提升。

未来的研究可以进一步探索如何优化时间编码器的结构和功能，以便在更复杂的视频理解任务中保持高效的表现。此外，结合更多的多模态数据源，提升模型的泛化能力，将是后续研究的重要方向。

Frontiers in Intelligent Colonoscopy

2024-10-22｜NIAR, Nankai University, ANU, Keio, Tsinghua, MBZUAI|🔺1

http://arxiv.org/abs/2410.17241v1
https://huggingface.co/papers/2410.17241
https://github.com/ai4colonoscopy/IntelliScope

研究背景与意义

随着发达国家结直肠癌（CRC）发病率的下降，CRC依然是全球第三大癌症，尤其在发展中国家发病率仍在上升。结肠镜检查作为一种有效的CRC筛查方法，其灵敏度高，能够通过灵活的相机设备直接观察结肠内的病变。然而，传统的结肠镜检查存在一定的局限性，包括漏检率和操作复杂性。近年来，人工智能（AI）技术的应用已显著降低了结直肠肿瘤的漏检率，提升了诊断的准确性。

本研究旨在探讨智能结肠镜技术的前沿及其在多模态医疗应用中的潜在影响。通过对结肠镜场景感知的四个任务（分类、检测、分割和视觉语言理解）的评估，揭示了该领域的挑战与机遇，特别是在多模态研究方面的潜力。

研究方法与创新

本研究通过建立三个基础性举措来推动智能结肠镜技术的发展：首先，创建了一个大规模的多模态指令调优数据集ColonINST，包含303,001张结肠镜图像，涵盖62个子类别，反映了结肠镜检查中的多样化场景；其次，开发了一个专为结肠镜设计的多模态语言模型ColonGPT，以便通过交互式对话帮助内镜医师；最后，建立了一个多模态基准测试，提供了对当前技术的性能评估。研究中采用的多模态适配器设计，通过选择性采样视觉标记，显著降低了计算成本，同时保持了模型的性能。

实验设计与结果分析

在实验部分，研究者通过对比现有模型和新提出的ColonGPT，评估了其在分类、检测和分割任务上的表现。实验结果表明，ColonGPT在分类任务上的准确率为94.02%，在未见样本的局部化任务中IoU达到了83.42%，显示出良好的泛化能力。此外，ColonGPT在视觉特征与语言指令的结合上表现出色，能够有效地识别结肠镜图像中的病变，并生成详细的医学描述。

结论与展望

本研究不仅揭示了智能结肠镜技术在多模态医疗中的应用前景，还提出了针对当前技术瓶颈的解决方案。

未来，随着数据规模的扩大和多模态技术的进步，智能结肠镜技术有望在提高结直肠癌筛查效率和准确性方面发挥更大的作用。此外，研究还强调了数据稀缺问题的应对策略，包括利用合成数据和增强学习技术，以推动结肠镜领域的持续创新。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

12.18-2|检索生成一体的LLM；小模型生成多样化复杂指令；自我对弈和树搜索提高指令跟随；压缩特定分隔符提高LLMs推理效率

12.18-3|单视图三维场景重建；基于扩散模型的高保真换脸，遮挡和动态变化鲁棒性

12.18-4|使用 Patches 代替 token；自回归模型和扩散模型融合，双因子化框架；任意视图和光照的逆渲染

12.17-1|探究视频理解多模态模型的设计，视频理解关键因素分析；实例感知结构化视频描述框架，高保真文生视频

12.17-2|图像理解与生成模型结构设计；基于检索增强和显示控制的多模态音乐生成；无需训练的流匹配图像编辑

12.17-3|生物医学专家LLM，阿拉伯语英语双语

12.17-4|单图生成三维环境；大型动作模型，自主动作规划执行

12.17-5|高分辨率图像生成，无需调参的推理范式；物体插入和主题驱动生成任务的数据集；图片快速逆向到潜在空间，图片语义编辑

12.17-6|长上下文测试基准，KV Cache分析框架

12.16-1|感知、记忆和推理，长期多模态交互系统；评估MLLM几何准确感知能力；多模态扩散自回归结合；长语音多模态交互

12.16-2|多模态模型增强多参考图像生成；高效T2I，移动设备高分辨率图像生成

12.16-3|评估LLM排序能力；大规模带标签的Vllm真实用户交互数据集

12.16-4|多光源逆渲染，物理信息材质估计；物理信息高斯，偏微分方程求解

12.16-5|phi-4技术报告，训练过程及后训练过程公开；从网络教程中学习操作的GUI智能体

12.13-1|多机位视频生成，多视角同步，动态一致性

12.13-2|大规模场景图标注数据集；视频风格迁移；无反向流过程的文本指令图片编辑；平衡内容与风格的图片风格迁移

12.13-3|开放世界高性能VLLM；流式视频大模型交互；基于知识感知奇异值适配的PEFT

12.13-4|3DGS自适应致密化策略，高保真广义3D重建；3D空间推理基准数据集；高质量实时长序列人类动作生成

12.13-5|特定角色图像生成，姿势与外观控制，流场学习，虚拟穿衣

12.12-1|统一T2V和TI2V的视频生成；手机上生成视频；手机上通过Diffusion编辑视频；文DIT运动状态迁移

12.12-2|代码生成，人类偏好对齐，代码大语言模型

12.12-3|多角色互动的漫画生成；T2I细粒度属性控制

12.12-4|鲁棒的不失真的图像水印；RAG风险检测模型

12.12-5|通过学习真实世界动态性统一图片编辑与生成；文档内容提取基准；多实体视频生成三维运动控制

12.11-4|视觉运动策略，由粗到细的多尺度策略预测

12.11-5|线性 Transformer，门控Delta网络，提升MAmba2表现

12.11-6|文本水印，隐写术，语义保持

12.11-1|强化学习智能体记忆，分类与评估，长期记忆，短期记忆，程序性记忆，陈述性记忆，记忆标准化

12.11-2|数学推理错误识别能力评估；潜在空间推理，连续思维

12.11-3|基于视觉的全球定位；视频 Token表示；多粒度图片标注；无标注视频中3D重建；地理空间视觉嵌入；稀疏视图重建

12.10-1|InternVL 2.5，超越闭源模型的开源MLLM；多步复杂推理的多模态指令调优数据集；多智能体T2V框架

12.10-2|使用人类反馈改善T2V对齐；文本引导的实时图片编辑；生成连贯和动态的多事件视频

12.10-3| 机器人操控，从视频数据中学习动作，动作 token

12.10-4|面向实际应用场景的大语言模型；提高优化器内存效率；对话元素建模，对话能力增强

12.10-5|动量高斯自蒸馏，提高3DGS大规模场景隐式重建性能； 2DGS-Room，高质量室内场景重建

12.7-1|压缩VLLM视觉 token 数量，保持性能；VLLM不同细粒度多层次视觉特征融合

12.7-2|VLLM代码生成，机器人开放世界时空约束故障检测；跨平台纯视觉GUI智能体

12.7-3|无引导噪声空间扩散；使用Adapter让模型有多视角生成能力；高分辨率自回归图像生成；多服装虚拟穿衣

12.7-4|无需训练的对抗性引导，负提示词合并；结构化3D潜在空间表示

12.7-5|合成数据生成能力评估；LLMs容量密度评估

12.6-1|多模态模型大小，分辨率与迁移学习能力；多模态理解与生成的统一Tokenizer；韩语VLLM前沿

12.6-2|随机尺度CFG+负提示词引导的增强单步扩散模型；动态对抗训练框架的动态扩散模型

12.6-3|DF Models蒸馏，3D LiDAR场景补全；Video-3D LLM，3D场景理解；单图多实例3D重建

12.6-4|单镜头视频生成360°全景视频；未对齐的稀疏视角增强新视角合成

12.6-5|LLM大学数学能力评估基准；从单张图片构建全身可动的数字化身

12.5-2|关键 token的识别与优化，推理能力提升；过程奖励模型；多智能体通信与协助框架

12.5-3|多模态模型拟人化听觉能力基准；3D场景理解，识别、缩放任务相关区域

12.5-4|LLM端到端的事实准确性评估；OCR噪声对RAG影响的评估

12.5-5|图像Tokenizer，分组球面量化；自然语言描述的图像分割数据增强；混合CPU推理性能优化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉