🏆基座模型
①项目:Hallo2
★Hallo2是一个音频驱动的人像图像动画项目,能够生成高分辨率和长时段的人像动画。该项目结合了多种先进的深度学习技术,旨在通过音频输入生成逼真的人像动画。项目由复旦大学、百度和南京大学的研究人员合作开发,提供了开源代码和预训练模型,方便用户进行二次开发和应用。
☆一键收藏:
https://sota.jiqizhixin.com/project/hallo2
🛠️框架平台、必备工具
①项目:Align Anything
★Align Anything项目旨在通过反馈机制训练多模态大模型,使其与人类意图和价值观对齐。该框架具有高度的模块化,支持多种模型的微调,包括文本、图像、音频和视频等多种模态。项目提供了多种对齐算法,用户可以根据不同任务轻松修改和定制代码。
☆一键收藏:
https://sota.jiqizhixin.com/project/align-anything
②项目:CtrLoRA
★CtrLoRA是一个可扩展且高效的框架,旨在实现可控的图像生成。通过训练基础的ControlNet和条件特定的LoRAs,项目能够在大规模数据集上进行训练,并通过少量图像和较短时间在单个GPU上适应新条件。该项目支持多条件生成和风格迁移,并提供了预训练模型和Gradio在线演示。
☆一键收藏:
https://sota.jiqizhixin.com/project/ctrlora
③项目:VisRAG
★VisRAG 是一种新颖的基于视觉语言模型(VLM)的检索增强生成(RAG)管道。与传统的文本解析方法不同,VisRAG 直接将文档作为图像嵌入,并通过 VLM 进行检索以增强生成过程。这种方法最大限度地保留和利用了原始文档中的数据信息,消除了解析过程中引入的信息损失。
☆一键收藏:
https://sota.jiqizhixin.com/project/visrag
④项目:Adaline Gateway
★Adaline Gateway 是一个完全本地化的生产级超级SDK,提供简单、统一且强大的接口来调用超过200个大型语言模型(LLM)。该项目支持多种功能,包括批处理、重试、缓存、回调以及OpenTelemetry支持,适用于各种企业级应用场景。用户可以通过自定义插件和提供者,灵活地将其集成到现有基础设施中。
☆一键收藏:
https://sota.jiqizhixin.com/project/gateway
🤖 Agent开发
①项目:Ditto
★Ditto是一个用户友好的工具,允许用户通过简单的自然语言描述生成多文件的Flask应用程序。通过利用简单的LLM循环和一些工具,Ditto自动化编码过程,将用户的想法转化为功能性Web应用程序。
☆一键收藏: