直播预告 | NeurIPS 2024 评测基准论文专场

文摘   2025-01-15 22:12   浙江  


评测集社区 CompassHub 作为司南 OpenCompass 大模型评测体系的重要组成部分,旨在打造创新性的基准测试资源专区,致力于简化并加快研究人员和行业人士搜索和使用评测集的过程。评测集社区 CompassHub 目前已收录了学科、推理、知识、代码等 14 个子维度的评测集,欢迎大家探索。


为了将评测集社区 CompassHub 收录的优秀评测集更好的展现给大家,OpenCompass 联合 OpenMMLab、 ModelScope MLNLP、机器之心、开源中国、Datawhale 共同发起 AI Spot 学术分享会之 NeurIPS 2024 评测基准论文专场直播!


本次分享聚焦于第 38 届神经信息处理系统年度会议(NeurIPS 2024)的优秀论文,将于 1 月 16 日晚 19:00 至 21:00 进行直播。届时,入选人工智能领域顶级会议 NeurIPS 2024 的 ConvBench、GTA、MMDU、MMLongBench-Doc 四个评测基准的作者们将倾情分享,欢迎大家点击下方按钮预约观看。


No.

 精彩议题抢先看

  • ConvBench:多轮视觉对话评测基准与能力解耦评测方式

  • GTA:大模型复杂任务工具调用能力评测

  • MMDU:高质量多图多轮对话数据集

  • MMLongBench-Doc:使用可视化对长上下文文档理解进行基准测试

No.

分享嘉宾及主题介绍

司南 OpenCompass

张凯鹏


上海人工智能实验室青年科学家,博士毕业于日本东京大学。研究方向包括多模态理解与生成、多模态评测、Efficient AI等。在 TPAMI, IJCV, ICML, CVPR, NeurIPS 等国际顶级会议与期刊上发表 30 余篇论文,谷歌学术累计引用 13000 余次。


分享主题

ConvBench:多轮视觉对话评测基准与能力解耦评测方式


简要概述

多轮视觉对话是 AI 所需的重要能力,为此,我们提出了 ConvBench,一个针对视觉大语言模型(Large Vision-Language Models,LVLMs)的多轮对话评测基准。ConvBench 涵盖 215 项开放性回答任务,并附有每轮对话准确的人类参考答案,在多轮对话中逐步评测感知、推理和创造能力,同时基于参考答案能够在评测中解耦这些能力的评测,从而实现可靠的错误归因。


此外,我们引入了一种基于裁判模型的高效且可靠的自动评估框架。实验结果表明,ConvBench 对当前 LVLMs 具有非常大的挑战性,并且 LVLMs 较弱的感知能力显著限制了其在推理和创造中的真正优势。我们相信这种分层能力设计、能力解耦评测有助于性能瓶颈的挖掘,模型迭代的指导和能力边界的探索。


论文链接

https://arxiv.org/abs/2403.20194

代码链接

https://github.com/shirlyliu64/ConvBench

评测集社区 CompassHub

https://hub.opencompass.org.cn/dataset-detail/ConvBench

王骥泽


上海交通大学电子信息与电气工程学院在读博士,研究方向包含大模型智能体、自然语言处理。


分享主题

GTA:大模型复杂任务工具调用能力评测


简要概述

利用语言模型调用工具,是实现通用目标智能体(general-purpose agents)的重要途径,对语言模型的工具调用能力提出了挑战。然而,现有的工具评测和真实世界场景存在很大差距:评估问题通常是 AI 生成的,逻辑链简单,输入模态单一,没有部署可执行的工具。为了突破这些局限,本次分享主要介绍一个用于评估通用工具智能体的全新基准 GTA(a benchmark for General Tool Agents),通过设计真实世界场景的用户问题、真实部署的工具和多模态输入,建立了一个全面、细粒度的评估框架,能够有效评估大语言模型在复杂真实场景下的工具使用能力。


论文链接

https://arxiv.org/abs/2407.08713

代码链接

https://github.com/open-compass/GTA

评测集社区 CompassHub

https://hub.opencompass.org.cn/dataset-detail/GTA

刘子煜


上海交通大学在读博士,目前在上海人工智能实验室实习,研究方向为多模态大模型,RLHF。


分享主题

MMDU:高质量多图多轮对话数据集


简要概述

当前的开源LVLM模型在简化场景下表现出色,但在真实对话场景中,如长上下文历史、多轮次和多图像输入时,仍存在不足。MMDU 基准突破了传统的评测方式,在长文本+多图像的情境下评估模型处理复杂上下文的能力,并通过开放性、多轮次的输出评估模型的表现,从而更真实地模拟人机互动。MMDU-45k 数据集通过更真实的对话情境,帮助提升模型在实际应用中的指令跟随能力和推理能力。


论文链接

https://arxiv.org/abs/2406.11833

代码链接

https://github.com/Liuziyu77/MMDU

评测集社区 CompassHub

https://hub.opencompass.org.cn/dataset-detail/MMDU

马聿伯


南洋理工大学计算机科学与工程学院在读博士,导师为孙爱新教授和曹一新教授。于 2020 年获得清华大学电子工程学士学位。研究方向包括多模态文档理解、工具增强大型语言模型和以事件为中心的信息提取。


分享主题

MMLongBench-Doc:使用可视化对长上下文文档理解进行基准测试


简要概述

理解具有丰富布局和多模态组件的文档是一项长期而实际的任务。最近的大型视觉语言模型 (LVLM) 在各种任务中取得了显著进步,特别是在单页文档理解 (DU) 方面。然而,它们在长上下文 DU 上的能力仍待考察。我们提出了 MMLongBench-Doc,一个长上下文多模态基准,包含 1,062 个专家注释问题。与已有数据集不同,它基于 130 个较长的 PDF 格式文档构建,平均有 49.4 页和 20,971 个文本标记。


为了进行全面评估,这些问题的答案依赖于来自 (1) 不同来源(文本、图像、图表、表格和布局结构)和 (2) 不同位置(即页码)的证据。此外,33.2% 的问题是跨页问题,需要跨多页的证据。22.8% 的问题被设计为无法回答以检测潜在的幻觉。在 14 个 LVLM 上进行的实验表明,长上下文 DU 对当前模型提出了巨大挑战。值得注意的是,表现最佳的模型 GPT-4o 的 F1 得分仅为 42.7%,而排名第二的 GPT-4V 得分为 31.4%。此外,12 个 LVLM(除 GPT-4o 和 GPT-4V 外)甚至比使用有损解析 OCR 文档的 LLM 同类模型表现更差。这些结果证实了未来研究更强大的长上下文 LVLM 的必要性。


论文链接

https://arxiv.org/abs/2407.01523

代码链接

https://github.com/mayubo2333/MMLongBench-Doc

评测集社区 CompassHub

https://hub.opencompass.org.cn/dataset-detail/MMLongBench-Doc


No.

参与方式                                     

观看直播



参与讨论


扫描二维码加入主题交流群,近距离接触更多 AI 小伙伴,还有机会加入直播间与嘉宾当面交流。


更多精彩内容尽在 1 月 16 日晚的 AI Spot NeurIPS 专场直播~






👇点击关注ModelScope公众号获取
更多技术信息~


魔搭ModelScope社区
模型开源社区魔搭社区ModelScope官方账号
 最新文章