最新开源:DeepSeek发布Janus,统一多模态理解!复旦、百度联手打造全新AI模型Hallo2!

文摘   2024-10-21 20:13   广东  

01
DeepSeek 推出统一多模态理解、生成自回归框架 Janus

  • 机构:DeepSeek、香港大学、北京大学

  • 论文链接:https://arxiv.org/pdf/2410.13848

  • 代码链接:https://github.com/deepseek-ai/Janus

来自 DeepSeek 和香港大学的研究团队提出了 Janus一个统一多模态理解和生成的自回归框架

之前的研究通常依赖单一的视觉编码器来完成这两项任务,如 Chameleon。然而,由于多模态理解和生成所需的信息粒度不同,这种方法可能导致性能不理想,尤其是在多模态理解方面。

为了解决这个问题,研究团队将视觉编码解耦为不同的路径,同时仍然利用单一的、统一的 Transformer 架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。例如,多模态理解和生成组件可以独立选择最合适的编码方法。

实验表明,Janus 超越了以往的统一模型,并达到或超过了特定任务模型的性能。Janus 的简单性、高度灵活性和有效性使其成为下一代统一多模态模型的有力候选者。


02
复旦百度南大开源Hallo2,可生成4K超高清+1小时超长视频!

  • 机构:复旦大学、百度、南京大学

  • 论文地址:https://arxiv.org/pdf/2410.07718

  • 项目地址:https://fudan-generative-vision.github.io/hallo2

近日,复旦大学和百度联合开发了一款名为 Hallo2 的全新 AI 模型,该模型可以生成长达数小时的 4K 分辨率人物动画,现已在 GitHub 发布开源。

Hallo2 模型建立在 latent diffusion models 的基础上,相比上一代 Hallo 模型的效果更好,支持了长视频生成,通过引入数据增强方法如 patch-drop 和高斯噪声,有效提高了长时间视频的视觉一致性和时间连贯性。

Hallo2 模型建立在 latent diffusion models 的基础上,并引入了一系列创新性的技术,包括:

  • Patch-drop 数据增强技术:通过对运动帧进行随机遮挡,防止模型过度依赖前序帧的画面信息,从而保证生成的人物动画在长时间序列中保持稳定的外观。

  • 高斯噪声增强技术:通过向运动帧中添加高斯噪声,增强模型对画面噪声和运动失真的鲁棒性,进一步提升动画的质量和连贯性。

  • VQGAN 离散码本预测技术:将 VQGAN 模型扩展到时间维度,并结合时间对齐技术,实现高分辨率视频的生成,并确保画面细节在时间上的连贯性。

  • 文本提示控制机制:通过引入自适应层归一化机制,使模型能够根据文本提示精准地控制人物的表情和动作,使动画更具表现力和可控性。


Hallo2 的主要应用场景

  • 电影和视频制作:可用于生成或增强角色面部表情和口型,适用于科幻和动画电影。

  • 虚拟助手和数字人:在客服、教育、娱乐等领域,Hallo2 能创建逼真的虚拟助手或数字人,提升用户体验。

Hallo2 模型的强大性能已经在多个公开数据集上得到了验证,包括 HDTF、CelebV 以及研究人员自己创建的“Wild”数据集。实验结果表明,Hallo2 在生成高质量、长序列人物动画方面超越了现有的所有方法。


03
OpenAI o1 模型推理模式的比较研究

  • 机构:M-A-P、中国科学院大学、Abaka AI、浙江大学

  • 论文链接:https://arxiv.org/abs/2410.13639

  • 项目地址:https://github.com/Open-Source-O1/o1_Reasoning_Patterns_Study

使大语言模型(LLM)能够处理更广泛的复杂任务(如编码、数学等)、 编码、数学)引起了许多研究人员的极大关注。随着 LLM 的不断发展,仅仅增加模型参数的数量所带来的性能提升越来越小,计算成本也越来越高。

最近,OpenAI 的 o1 模型表明,推理策略(即 Test-time 计算方法)也能显著增强 LLM 的推理能力。然而,这些方法背后的机制仍有待探索。

在这项工作中,来自 M-A-P 和中国科学院大学的团队及其合作者为研究 o1 的推理模式,以 OpenAI 的 GPT-4o 为骨干,在三个领域(即数学、编码、常识推理)的一般推理基准上比较了 o1 与现有的 Test-time 计算方法(BoN、Step-wise BoN、Agent Workflow 和 Self-Refine)。

具体来说:

  • 首先,他们的实验表明,o1 模型在大多数数据集上都取得了最佳性能。

  • 其次,对于搜索不同响应的方法(如 BoN),他们发现奖励模型的能力和搜索空间都限制了这些方法的上限。

  • 第三,对于将问题分解为多个子问题的方法,由于特定领域的系统提示可以规划出更好的推理过程,因此 Agent Workflow 比 Step-wise BoN 取得了更好的性能。

  • 第四,值得一提的是,他们总结了 o1 的六种推理模式,并对几个推理基准进行了详细分析。

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章