今日开源(2024-08-30):阿里Qwen2-VL,含2B、7B参数版本,支持长视频理解与多分辨率图像处理

文摘   2024-08-30 18:31   北京  


🏆 基座模型

①项目:Qwen2-VL

★Qwen2-VL 是由阿里云 Qwen 团队新推出的多模态大语言模型系列,包括2B、7B参数版本,即将开源72B。该项目在图像和视频理解方面表现出色,支持多种语言,并能够与移动设备和机器人等设备集成,实现自动操作。Qwen2-VL 可以基于高质量视频的问答、对话、内容创作等方式,理解 20 分钟以上的视频。此外,与以前不同,Qwen2-VL 可以处理任意图像分辨率,提供更像人类的视觉处理体验。

☆一键收藏:

https://sota.jiqizhixin.com/project/qwen2-vl


②项目:xLAM - 7B

★Salesforce 发布 xLAM - 7B、8x7B、8x22B,上下文长度高达 64K,适用于 AI Agents用例。xLAM 是由 Salesforce 开发的大型语言模型系列,专注于函数调用功能,此前开源 1b 和 7b 两种参数规模,支持 16K 上下文长度。该模型旨在增强决策能力,将用户意图转化为可执行的操作,适用于各种领域的自动化工作流程,能自主规划和执行任务。模型经过优化,可以在个人设备上高效部署,支持离线功能和增强隐私。

☆一键收藏:

https://sota.jiqizhixin.com/project/xlam


🛠️框架平台、必备工具

①项目:ChatLearn

★ChatLearn 是一个灵活且高效的大规模对齐训练框架。它提供了用户友好的编程接口,支持多种分布式加速引擎和并行策略,能够显著提升训练性能。ChatLearn 适用于需要大规模对齐训练的研究人员和从业者,支持 RLHF、DPO、OnlineDPO 和 GRPO 等多种对齐训练方法,并允许用户自定义模型的执行流。

☆一键收藏:

https://sota.jiqizhixin.com/project/chatlearn


②项目:NanoFlow

★NanoFlow是一个面向吞吐量的高性能大语言模型(LLM)服务框架。通过采用设备内并行、异步CPU调度和SSD卸载等关键技术,NanoFlow在吞吐量方面显著优于vLLM、Deepspeed-FastGen和TensorRT-LLM。综合评估显示,NanoFlow在多种模型和硬件配置下的吞吐量提升可达1.91倍。

☆一键收藏:

https://sota.jiqizhixin.com/project/nanoflow


③项目:IPA

★Interactive PDF Analysis (IPA)  是一个用于深入分析PDF文件的图形化工具允许研究人员探索PDF文件的内部细节,提取和分析元数据以识别 PDF 文件的创建者、创建日期、修改历史记录和其他重要详细信息

☆一键收藏:

https://sota.jiqizhixin.com/project/ipa


📚数据指令

④项目:Docmatix

★Docmatix是一个用于视觉问答的开源数据集,包含图像和文本数据。该数据集适用于文档问答任务,支持多种格式和语言,主要用于研究和开发视觉问答系统。

☆一键收藏:

https://sota.jiqizhixin.com/project/docmatix


👋网页端访问:https://sota.jiqizhixin.com

欢迎扫码加入社群
交流LLM推理与微调、Agent/RAG应用构建开发经验


机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章