今日开源(2024-09-20):阿里国际发布Ovis1.6:创新多模态大语言模型,推动视觉与文本的深度融合

文摘   2024-09-20 18:05   北京  


🏆 基座模型

①项目:阿里国际Ovis1.6

Ovis (Open VISion) 是一种新颖的多模态大语言模型 (MLLM) 架构,旨在结构性地对齐视觉和文本嵌入。该项目通过高分辨率图像处理和优化的训练数据,提升了模型的性能。Ovis1.6引入了视觉Tokenizer、视觉嵌入表以及大语言模型相结合的架构,通过可学习的视觉嵌入表,将连续的视觉特征转化为结构化的视觉token,这些视觉token会和文本token一起被处理,完成多模态任务。

☆一键收藏:

https://sota.jiqizhixin.com/project/ovis1-6


②项目:CogVideoX-5B-I2V

智谱开源了 CogVideoX 系列图生视频模型 CogVideoX-5B-I2V ,及其背后的标注模型 cogvlm2-llama3-caption。团队自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,大大减少了视频扩散生成模型的训练成本及训练难度。训练损失函数结合了L2损失、LPIPS感知损失和3D判别器的GAN损失。允许输入「一张图像」+「提示词」,生成视频。至此,CogVideoX系列模型已经支持文生视频、视频延长、图生视频三种任务。

☆一键收藏:

https://sota.jiqizhixin.com/project/cogvideox


🛠️必备工具

①项目:GRIN-MoE

GRIN-MoE 是一个高效的稀疏专家模型,具有6.6B激活参数,特别在代码和数学任务中表现出色。该模型使用SparseMixer-v2来估计与专家路由相关的梯度,而传统的MoE训练则将专家门控作为梯度估计的代理。GRIN-MoE在训练过程中无需专家并行或token丢弃,适用于内存/计算受限环境和低延迟场景,旨在加速语言和多模态模型的研究。

☆一键收藏:

https://sota.jiqizhixin.com/project/grin-moe


②项目:Void

★Void 是一个开源的编辑器项目,是 VSCode 的一个分支。它旨在为开发者提供一个强大的代码编辑环境,并集成了 OpenAI 的功能,如 ChatGPT 和 Copilot。Void 提供了丰富的扩展和插件支持,帮助开发者提高编码效率。

☆一键收藏:

https://sota.jiqizhixin.com/project/void


③项目:Awesome Chinese LLM

整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。目前收录的资源已达100+个,旨在为研究和应用中文LLM提供全面的资源支持。

☆一键收藏:

https://sota.jiqizhixin.com/project/awesome-chinese-llm


④项目:EzAudio

EzAudio 是一个先进的、基于扩散模型的文本到音频生成模型。该项目旨在为实际音频应用提供高质量的音频合成,同时降低计算需求。EzAudio 结合了高效的扩散transformer技术,能够在保持高音质的同时实现更快的生成速度。

☆一键收藏:

https://sota.jiqizhixin.com/project/ezaudio

👋网页端访问:https://sota.jiqizhixin.com

欢迎扫码加入社群
交流LLM推理与微调、Agent/RAG应用构建开发经验


机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章