今日开源(2024-10-18):复旦百度南大开源Hallo2,音频驱动的长时间、高分辨率肖像动画生成,公开预训练权重及源码

文摘   2024-10-18 18:23   北京  


🏆基座模型

①项目:Hallo2

Hallo2是一个音频驱动的人像图像动画项目,能够生成高分辨率和长时段的人像动画。该项目结合了多种先进的深度学习技术,旨在通过音频输入生成逼真的人像动画。项目由复旦大学、百度和南京大学的研究人员合作开发,提供了开源代码和预训练模型,方便用户进行二次开发和应用。

☆一键收藏:

https://sota.jiqizhixin.com/project/hallo2


🛠️框架平台、必备工具

①项目:Align Anything

Align Anything项目旨在通过反馈机制训练多模态大模型,使其与人类意图和价值观对齐。该框架具有高度的模块化,支持多种模型的微调,包括文本、图像、音频和视频等多种模态。项目提供了多种对齐算法,用户可以根据不同任务轻松修改和定制代码。

☆一键收藏:

https://sota.jiqizhixin.com/project/align-anything


②项目:CtrLoRA

CtrLoRA是一个可扩展且高效的框架,旨在实现可控的图像生成。通过训练基础的ControlNet和条件特定的LoRAs,项目能够在大规模数据集上进行训练,并通过少量图像和较短时间在单个GPU上适应新条件。该项目支持多条件生成和风格迁移,并提供了预训练模型和Gradio在线演示。

☆一键收藏:

https://sota.jiqizhixin.com/project/ctrlora


③项目:VisRAG

VisRAG 是一种新颖的基于视觉语言模型(VLM)的检索增强生成(RAG)管道。与传统的文本解析方法不同,VisRAG 直接将文档作为图像嵌入,并通过 VLM 进行检索以增强生成过程。这种方法最大限度地保留和利用了原始文档中的数据信息,消除了解析过程中引入的信息损失。

☆一键收藏:

https://sota.jiqizhixin.com/project/visrag


④项目:Adaline Gateway

Adaline Gateway 是一个完全本地化的生产级超级SDK,提供简单、统一且强大的接口来调用超过200个大型语言模型(LLM)。该项目支持多种功能,包括批处理、重试、缓存、回调以及OpenTelemetry支持,适用于各种企业级应用场景。用户可以通过自定义插件和提供者,灵活地将其集成到现有基础设施中。

☆一键收藏:

https://sota.jiqizhixin.com/project/gateway


🤖 Agent开发

①项目:Ditto

Ditto是一个用户友好的工具,允许用户通过简单的自然语言描述生成多文件的Flask应用程序。通过利用简单的LLM循环和一些工具,Ditto自动化编码过程,将用户的想法转化为功能性Web应用程序。

☆一键收藏:

https://sota.jiqizhixin.com/project/ditto



机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章