今日开源(2024-11-06):腾讯Hunyuan3D-1.0,文本与图像到3D生成框架,最快10s获得3D资产

文摘   2024-11-06 18:12   北京  


🛠️框架平台、必备工具

①项目:Hunyuan3D-1.0

Hunyuan3D-1.0 是一个统一的框架,支持文本到3D和图像到3D的生成。该项目通过两阶段的方法解决了现有3D生成扩散模型生成速度慢和泛化能力差的问题。第一阶段使用多视图扩散模型快速生成多视图RGB图像,第二阶段通过前馈重建模型快速重建3D资产。该框架结合了文本到图像模型Hunyuan-DiT,支持文本和图像条件的3D生成。标准版本的参数量是轻量版的三倍,能够在速度和质量之间实现平衡。

☆一键收藏:

https://sota.jiqizhixin.com/project/hunyuan3d-1


②项目:veRL

veRL是一个灵活、高效且工业级的强化学习训练框架,专为大语言模型设计。它是HybridFlow论文的开源版本,支持多种RL算法,能够与现有的LLM基础设施无缝集成。veRL通过模块化API设计,支持多种设备映射,能够高效利用资源并在不同集群规模上实现可扩展性。

☆一键收藏:

https://sota.jiqizhixin.com/project/verl


③项目:PromptFix

PromptFix 是一个基于扩散模型的图像处理工具,旨在根据用户指令修复退化图像并去除不需要的元素。支持多种任务,包括颜色化、物体移除、去雾、去模糊、去水印、去雪和低光增强。该项目通过20步去噪过程在修正图像缺陷的同时保留原始结构,并能有效适应不同的纵横比。

☆一键收藏:

https://sota.jiqizhixin.com/project/promptfix


④项目:Cofounder

Cofounder是一个用于生成全栈Web应用的开源项目,结合了生成式UI和模块化设计系统。项目处于早期不稳定的预览阶段,旨在通过AI引导的原型设计器和模块化设计系统来创建后端、数据库和有状态的Web应用。

☆一键收藏:

https://sota.jiqizhixin.com/project/cofounder


🏆基座模型

①项目:R-CoT

R-CoT项目旨在通过逆向思维链问题生成,提升大型多模态模型在几何推理任务中的表现。项目提供了GeoMM数据集、模型权重、训练和评估代码,支持多种模型版本,帮助研究人员在几何问题解决中进行更深入的探索。

☆一键收藏:

https://sota.jiqizhixin.com/project/r-cot


②项目:OuteTTS

OuteTTS是一个实验性的文本转语音(TTS)模型,采用纯语言建模的方法生成语音。该项目支持通过Hugging Face模型或GGUF模型接口进行语音生成,并提供语音克隆功能,允许用户从音频文件创建自定义说话人。

☆一键收藏:

https://sota.jiqizhixin.com/project/outetts



机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章