阿里开源了视觉推理模型QVQ:增强了视觉理解和复杂问题解决能力

科技   2024-12-25 20:01   浙江  

阿里开源了视觉推理模型:QVQ,增强了视觉理解和复杂问题解决能力,MMMU上得分70.3。一张图像和一条指令,它就会开始思考、反思及持续推理。QVQ基于Qwen2-VL-72B构建。

参考文献:
[1] 博客:https://qwenlm.github.io/zh/blog/qvq-72b-preview/
[2] 模型:https://huggingface.co/Qwen/QVQ-72B-Preview



欢迎大家支持我的知识星球(NLP工程化):Dify源码剖析及答疑,Dify对话系统源码,电子书籍报告下载,公众号所有付费资料。如果微信群二维码过期,可加个人微信(buxingtianxia21)进群。

NLP工程化知识星球

NLP工程化分享群

NLP工程化
专注于对话系统领域的技术分享,重点写《Dify应用操作和源码剖析》专栏。
 最新文章