Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。
QVQ-72B-Preview在多项基准测试中均取得了优异表现。在多模态大规模多任务理解 (MMMU) 基准测试中,其得分高达 70.3%,展现了 QVQ 在多学科理解和推理方面的强大能力。此外,在 MathVision 上的显著改进凸显了该模型在数学推理任务上的进步。OlympiadBench 也展示了该模型在解决挑战性问题方面的能力增强。
相关链接
试用:face.co/spaces/Qwen/QVQ-72B-preview 模型:https://huggingface.co/Qwen/QVQ-72B-Preview
结果展示
物理题
回答:
化学题
数学题
视觉问答
局限性
虽然QVQ-72B-Preview表现出超出预期的良好性能,但也存在几个局限性:
语言混合和代码转换:模型可能偶尔会混合不同的语言或在它们之间意外切换,这可能会影响其响应的清晰度。 递归推理循环: 模型可能陷入递归推理循环,导致冗长的响应甚至无法得出最终答案。 安全和道德考虑:需要采取强有力的安全措施来确保可靠和安全的性能。用户在部署此模型时应谨慎行事。 性能和基准测试限制:尽管视觉推理有所改进,但 QVQ 并不能完全取代 Qwen2-VL-72B 的功能。在多步视觉推理过程中,模型可能会逐渐失去对图像内容的关注,从而导致幻觉。此外,在识别人、动物或植物等基本识别任务中,QVQ 并没有显示出比 Qwen2-VL-72B 有显著的改进。
注:目前模型仅支持单轮对话和图片输出,暂不支持视频输入。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~