12.16-3|评估LLM排序能力；大规模带标签的Vllm真实用户交互数据集

文摘 2024-12-16 02:02 西藏

人工智能系统评估与数据集：评估LLM排序能力；大规模带标签的Vllm真实用户交互数据集

JuStRank: Benchmarking LLM Judges for System Ranking

2024-12-12｜IBM Research|🔺15

http://arxiv.org/abs/2412.09569v1
https://huggingface.co/papers/2412.09569

研究背景与意义

在生成式人工智能快速发展的背景下，如何系统地比较和选择众多模型和配置成为了一个亟待解决的问题。当前的评估方法多依赖于人类评审员，但随着大规模语言模型（LLMs）的崛起，利用LLMs进行自动化评估逐渐成为一种有效的解决方案。然而，现有研究主要集中在个体响应的评估上，忽视了系统层面的表现，这导致了对模型整体性能的判断存在一定的盲点。因此，本论文的目标是填补这一空白，通过引入JuStRank这一新基准，系统性地评估LLM在系统排名中的表现。

研究方法与创新

本研究提出了一种新的评估框架JuStRank，旨在从系统层面评估LLM的判断能力。该框架通过以下几个创新点实现其目标：

引入系统级评估：不同于以往的实例级评估，JuStRank关注LLM在多个系统输出上的表现，通过对比生成的系统评分与人类评分，来评估其整体判断能力。
多样化的判断模型：研究中使用了多种LLM和奖励模型，包括ArmoRM-Llama3、Eurus-RM等，探讨其在系统排名中的表现，分析不同模型的优势和局限性。
细致的行为分析：除了整体性能评估，论文还深入分析了评审者的决策特征，如偏见和果断性，揭示了这些特征与判断能力之间的关系。

通过这些创新，JuStRank不仅为研究者提供了一种新的评估工具，也为选择合适的模型提供了更为科学的依据。

实验设计与结果分析

在实验设计方面，本研究利用Arena Hard v0.1数据集，包含500个具有挑战性的指令和63个系统的响应，共计约32,000个响应对。研究通过以下步骤进行：

生成判断分数：对每个系统的响应进行评估，生成判断分数矩阵。
聚合方法：采用多种聚合方法（如均值聚合、胜率聚合等）来生成系统级评分，并与人类评分进行对比。
性能评估：通过Kendall's Tau相关性分析，评估不同模型在系统级排名中的表现。

结果显示，尽管某些实例级表现优秀的模型在系统级排名中表现不佳，但一些专门设计的奖励模型在系统评估中表现优异，揭示了实例级和系统级评估之间的差异。

结论与展望

本研究的主要贡献在于引入了JuStRank这一新基准，系统评估了LLM在模型选择中的有效性。研究结果表明，LLM的判断能力不仅与其规模相关，更与其设计和实现细节密切相关。此外，研究中揭示的偏见和果断性等评审者行为特征，为未来的研究提供了重要的方向。

展望未来，研究者可以进一步探索系统级评估的其他维度，如多语言和跨领域的应用，以便更全面地理解LLM在不同场景下的表现。同时，针对不同任务的专门评审模型的开发也将是一个重要的研究方向。

VisionArena: 230K Real World User-VLM Conversations with Preference Labels

2024-12-11｜STAN, UC Berkeley|🔺10

http://arxiv.org/abs/2412.08687v1
https://huggingface.co/papers/2412.08687

研究背景与意义

在视觉语言模型（VLMs）不断发展的背景下，研究者们急需真实用户与VLM之间互动的数据集，以便更好地评估和提升模型的性能。当前的VLM基准大多集中于静态的单轮任务，缺乏对多轮对话和动态用户意图的捕捉。为此，VisionArena应运而生，提供了230K个真实用户与VLM之间的对话，涵盖了73K个独特用户、45种VLM和138种语言。这一数据集的创建不仅能够帮助研究者理解用户如何与VLM进行交互，而且为开发更符合人类期望的模型奠定了基础。

研究方法与创新

VisionArena的创新之处在于其数据收集和分析方法。研究团队通过Chatbot Arena平台收集对话数据，涵盖了VisionArena-Chat、VisionArena-Battle和VisionArena-Bench三个子集。特别是，VisionArena-Chat包含了20万条单轮和多轮对话，涉及多种任务类型，能够反映用户在真实场景中的需求和偏好。此外，VisionArena-Battle则通过比较两个匿名VLM的用户偏好，提供了30K条对话数据，这为模型之间的性能比较提供了新的视角。

在数据分析方面，研究者们采用了多种统计方法，如Bradley-Terry模型，来估计不同模型的相对强度，并通过用户投票构建了一个动态的排行榜。这种方法不仅提高了模型评估的准确性，也为后续的模型改进提供了实用的反馈机制。

实验设计与结果分析

VisionArena的实验设计聚焦于多轮对话和开放式任务的评估。研究者们对收集的数据进行了详细的分类和分析，发现用户在与VLM交互时，最常见的任务包括数学问题解决、图像描述和代码调试等。通过对实验结果的统计分析，研究团队能够识别出当前VLM在特定任务上的优势和劣势，例如在空间推理和规划任务上，现有模型的表现仍显不足。

此外，研究者们还探讨了VLM的响应风格对用户偏好的影响，发现开放式问题，如幽默和创意写作，往往受到响应格式和长度的显著影响。这一发现为未来VLM的优化提供了重要的参考。

结论与展望

VisionArena不仅为VLM的评估和改进提供了丰富的数据支持，也为研究者们提供了深入理解用户需求的机会。尽管当前的数据集在多个领域表现出色，但仍存在一些不足之处，例如在地理空间应用和医疗领域的样本不足。未来，研究团队计划继续扩展数据集的多样性，增加更多语言和任务类型，以更全面地捕捉用户与VLM的互动。

总的来说，VisionArena为视觉语言模型的开发和评估提供了一个重要的基础，未来的研究将进一步推动这一领域的进步。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

12.18-2|检索生成一体的LLM；小模型生成多样化复杂指令；自我对弈和树搜索提高指令跟随；压缩特定分隔符提高LLMs推理效率

12.18-3|单视图三维场景重建；基于扩散模型的高保真换脸，遮挡和动态变化鲁棒性

12.18-4|使用 Patches 代替 token；自回归模型和扩散模型融合，双因子化框架；任意视图和光照的逆渲染

12.17-1|探究视频理解多模态模型的设计，视频理解关键因素分析；实例感知结构化视频描述框架，高保真文生视频

12.17-2|图像理解与生成模型结构设计；基于检索增强和显示控制的多模态音乐生成；无需训练的流匹配图像编辑

12.17-3|生物医学专家LLM，阿拉伯语英语双语

12.17-4|单图生成三维环境；大型动作模型，自主动作规划执行

12.17-5|高分辨率图像生成，无需调参的推理范式；物体插入和主题驱动生成任务的数据集；图片快速逆向到潜在空间，图片语义编辑

12.17-6|长上下文测试基准，KV Cache分析框架

12.16-1|感知、记忆和推理，长期多模态交互系统；评估MLLM几何准确感知能力；多模态扩散自回归结合；长语音多模态交互

12.16-2|多模态模型增强多参考图像生成；高效T2I，移动设备高分辨率图像生成

12.16-3|评估LLM排序能力；大规模带标签的Vllm真实用户交互数据集

12.16-4|多光源逆渲染，物理信息材质估计；物理信息高斯，偏微分方程求解

12.16-5|phi-4技术报告，训练过程及后训练过程公开；从网络教程中学习操作的GUI智能体

12.13-1|多机位视频生成，多视角同步，动态一致性

12.13-2|大规模场景图标注数据集；视频风格迁移；无反向流过程的文本指令图片编辑；平衡内容与风格的图片风格迁移

12.13-3|开放世界高性能VLLM；流式视频大模型交互；基于知识感知奇异值适配的PEFT

12.13-4|3DGS自适应致密化策略，高保真广义3D重建；3D空间推理基准数据集；高质量实时长序列人类动作生成

12.13-5|特定角色图像生成，姿势与外观控制，流场学习，虚拟穿衣

12.12-1|统一T2V和TI2V的视频生成；手机上生成视频；手机上通过Diffusion编辑视频；文DIT运动状态迁移

12.12-2|代码生成，人类偏好对齐，代码大语言模型

12.12-3|多角色互动的漫画生成；T2I细粒度属性控制

12.12-4|鲁棒的不失真的图像水印；RAG风险检测模型

12.12-5|通过学习真实世界动态性统一图片编辑与生成；文档内容提取基准；多实体视频生成三维运动控制

12.11-4|视觉运动策略，由粗到细的多尺度策略预测

12.11-5|线性 Transformer，门控Delta网络，提升MAmba2表现

12.11-6|文本水印，隐写术，语义保持

12.11-1|强化学习智能体记忆，分类与评估，长期记忆，短期记忆，程序性记忆，陈述性记忆，记忆标准化

12.11-2|数学推理错误识别能力评估；潜在空间推理，连续思维

12.11-3|基于视觉的全球定位；视频 Token表示；多粒度图片标注；无标注视频中3D重建；地理空间视觉嵌入；稀疏视图重建

12.10-1|InternVL 2.5，超越闭源模型的开源MLLM；多步复杂推理的多模态指令调优数据集；多智能体T2V框架

12.10-2|使用人类反馈改善T2V对齐；文本引导的实时图片编辑；生成连贯和动态的多事件视频

12.10-3| 机器人操控，从视频数据中学习动作，动作 token

12.10-4|面向实际应用场景的大语言模型；提高优化器内存效率；对话元素建模，对话能力增强

12.10-5|动量高斯自蒸馏，提高3DGS大规模场景隐式重建性能； 2DGS-Room，高质量室内场景重建

12.7-1|压缩VLLM视觉 token 数量，保持性能；VLLM不同细粒度多层次视觉特征融合

12.7-2|VLLM代码生成，机器人开放世界时空约束故障检测；跨平台纯视觉GUI智能体

12.7-3|无引导噪声空间扩散；使用Adapter让模型有多视角生成能力；高分辨率自回归图像生成；多服装虚拟穿衣

12.7-4|无需训练的对抗性引导，负提示词合并；结构化3D潜在空间表示

12.7-5|合成数据生成能力评估；LLMs容量密度评估

12.6-1|多模态模型大小，分辨率与迁移学习能力；多模态理解与生成的统一Tokenizer；韩语VLLM前沿

12.6-2|随机尺度CFG+负提示词引导的增强单步扩散模型；动态对抗训练框架的动态扩散模型

12.6-3|DF Models蒸馏，3D LiDAR场景补全；Video-3D LLM，3D场景理解；单图多实例3D重建

12.6-4|单镜头视频生成360°全景视频；未对齐的稀疏视角增强新视角合成

12.6-5|LLM大学数学能力评估基准；从单张图片构建全身可动的数字化身

12.5-2|关键 token的识别与优化，推理能力提升；过程奖励模型；多智能体通信与协助框架

12.5-3|多模态模型拟人化听觉能力基准；3D场景理解，识别、缩放任务相关区域

12.5-4|LLM端到端的事实准确性评估；OCR噪声对RAG影响的评估

12.5-5|图像Tokenizer，分组球面量化；自然语言描述的图像分割数据增强；混合CPU推理性能优化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉