首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

阿里开源了视觉推理模型QVQ：增强了视觉理解和复杂问题解决能力

科技 2024-12-25 20:01 浙江

阿里开源了视觉推理模型：QVQ，增强了视觉理解和复杂问题解决能力，MMMU上得分70.3。一张图像和一条指令，它就会开始思考、反思及持续推理。QVQ基于Qwen2-VL-72B构建。

参考文献：
[1] 博客：https://qwenlm.github.io/zh/blog/qvq-72b-preview/
[2] 模型：https://huggingface.co/Qwen/QVQ-72B-Preview

欢迎大家支持我的知识星球（NLP工程化）：Dify源码剖析及答疑，Dify对话系统源码，电子书籍报告下载，公众号所有付费资料。如果微信群二维码过期，可加个人微信（buxingtianxia21）进群。

NLP工程化知识星球

NLP工程化分享群

专注于对话系统领域的技术分享，重点写《Dify应用操作和源码剖析》专栏。

最新文章

推荐 GitHub 上一个自托管的书签管理 AI 工具：hoarder

如何在 C 语言中实现一个简单的垃圾回收器

让 AI 智能体自动化操作浏览器的开源工具：Browser Use

开源视频翻译配音工具pyvideotrans

awesome-generative-ai-guide：一站式生成式AI信息集合

Meta 昨晚的重磅论文，提出了 LCM 大概念模型

电子书《Open Data Structures》

阿里开源了视觉推理模型QVQ：增强了视觉理解和复杂问题解决能力

让翻译工作彻底自动化：Languine CLI给开发者带来了全新的国际化解决方案

指南提供了领先的Agentic IDE的全面比较

A Survey of Query Optimization in LLM

一个简单的描述即可生成一个应用，geminiCoder

WebChat - 让网页充满趣味互动

SQLite索引可视化

Presenterm：通过该工具能够在终端上演示一份由 Markdown 创建的精美 PPT

《改造Dify工作流执行引擎，实现大模型应用执行提速》

Gemini多模态直播+WebRTC一体化：一个简单的语音AI应用，集成了多模态交互和实时通讯技术

OpenFactCheck：一个开源的事实核查演示，专为大型语言模型（LLMs）设计

Tiny LLM zh：从零开始的小参数量中文大语言模型

MixedVoices ：为语音助手打造的分析平台

Postgres 作为 VectorDB GUI

Vast.ai CLI：让用户能够轻松管理和使用Vast.ai平台的AI算力资源

Drogon Sandbox：一个多租户的网络服务沙箱，能够安全地共享服务器给多个用户

AIOpsLab：一个全面的框架，用于设计、开发和评估自主AIOps agent

DTrOCR：一个基于PyTorch的光学字符识别工

Unsloth Zoo：提供用于 Unsloth 的实用工具库，支持免费微调和加速大型语言模型

视频质量评估大全：一个全面的视频质量评估资源库

中文版《Large Language Model in Action》

Jupyter Agent：Agent 可以加载数据，生成代码，执行代码，绘制图表

Prompt-friendly codebase：在Gitingest主页输入GitHub链接

一篇介绍o1技术的文章，作者提出了关于 o1 工作原理的四种假设

Cloudberry：开源的大规模并行处理（MPP）数据库

南大程龚主讲《图论与算法》(GTA)-课程介绍

推荐大家一款能够即时调整人物表情的 AI 绘画工具：Reshot AI

Github上一份循序渐进的视频技术的介绍

分享一个李继刚老师的让Claude成为矢量艺术家的prompt

kijai 大佬新开发的插件，Framer：可控首尾帧视频生成

推荐 GitHub 上一款开源的 AI Logo 生成器：LogoCreator

File Converter，一个开源的文件格式转换工具

GUI Agent研究论文列表

用于 ComfyUI 的 In-Context LoRA（局部重要性适应）工具集

Bamba-9B：基于 Mamba-2 架构的decoder-only语言模型

Picotron：最小化的分布式训练框架

FastVideo：视频扩散模型加速框架

OpenEMMA：开源的自动驾驶多模态模型

Brisk：一个现代跨平台的C++20图形用户界面框架

Base UI：一个开源的React UI组件库，提供无样式、易于访问的用户界面组件

泄露的v0 by Vercel系统提示

一个法律agent项目：AI Legal Agent Team，它用多个agent模拟一个法律团队

机器学习&深度学习网站资源汇总

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉