最新开源:Genmo 开源最大视频生成模型 Mochi 1!Stable Diffusion 3.5 全家桶来了!

文摘   2024-10-24 20:53   广东  
01
Mochi 1:最大开源视频生成模型,每秒30帧生成最长5.4秒视频

在线体验:https://www.genmo.ai/play
Huggingface主页:https://huggingface.co/genmo/mochi-1-preview

Genmo 公司推出了其全新的开源视频生成模型 Mochi 1,用户可以通过文本提示生成高质量的视频。Mochi 1 在多项技术指标上超越了市场上的一些主流模型,如Runway的Gen-3 Alpha、Luma AI的Dream Machine、快手的Kling等。

Mochi 1 的核心优势

1. 高保真度动作生成:Mochi 1 能够生成长达5.4秒、帧率高达30帧/秒的流畅视频,其时间连贯性和逼真的运动动态令人惊叹。它甚至能模拟复杂的物理现象,如流体动力学、毛发和头发模拟,以及连贯、流畅的人类动作。
2. 强大的提示遵循能力:Mochi 1 能非常准确地遵循用户提供的提示,生成符合预期的视频内容。通过文本和视觉标记联合构建视频,Mochi 1 的流式架构通过更大的隐藏维度,参数数量几乎是文本流的四倍,使用非对称设计,可以降低部署时的内存使用量。
3. 开源架构:Mochi 1 的模型权重和源代码根据Apache 2.0开源许可证发布,可以自由下载和使用,支持个人或商业用途。这一开放的策略旨在推动AI视频生成技术的民主化,让更多人享受到尖端的视频生成技术。
4. 高效率:Mochi 1 使用了Genmo独创的非对称扩散变压器(Asymmetric Diffusion Transformer,简称AsymmDiT)架构,这一架构通过简化文本处理以专注于视觉效果来有效地处理用户提示和压缩视频标记,进一步提升了模型的效率和性能。

Mochi 1 应用场景

1. 视频内容创作:Mochi 1 可以用于生成高质量的视频内容,包括动画、特效、短片等,为视频制作者和艺术家提供强大的创作工具。
2. 教育和培训:在教育领域,Mochi 1 可以生成教学视频,帮助解释复杂的概念或模拟实验过程,提高学习效率。
3. 娱乐和游戏:在游戏和娱乐行业,Mochi 1 可以用来生成游戏内的动态背景视频或故事情节,增强玩家的沉浸感。


02
Stability AI 发布 Stable Diffusion 3.5,图像生成新高度!

10月23日,Stability AI 推出了自家最强的模型 Stable Diffusion 3.5,这是一个全家桶,包含三个版本(Large、Large Turbo和Medium)。

这一版本相比于前一代 Stable Diffusion 3 在多个方面都有显著的提升,尤其在现实感、提示依从性和文本渲染效果上尤为突出,让创作者们在生成图像时能够获得更高的自由度与创造性。

  • Stable Diffusion 3.5 Large:该基础模型拥有 80 亿参数,性能优于竞品模型并且响应迅速,是 Stable Diffusion 系列中最强大的模型。该模型非常适合 1 百万像素分辨率的专业用例。

  • Stable Diffusion 3.5 Large Turbo:该模型是 Stable Diffusion 3.5 Large 的蒸馏版本,只需四步即可生成高质量图像,速度远快于Stable Diffusion 3.5 Large。

  • Stable Diffusion 3.5 Medium:该模型拥有 25亿参数,采用改进的MMDiT-X架构和训练方法,可在消费级硬件上「开箱即用」,在质量和定制易用性之间实现了平衡。该模型能够生成分辨率在0.25到2百万像素之间的图像。


Stable Diffusion 3.5 是一个用于图像生成的深度学习模型,提供了一个轻量级的推理实现,支持多种文本编码器和变分自编码器(VAE)解码器。用户可以通过简单的命令生成高质量的图像,适用于多种应用场景,如AI艺术创作和计算机视觉研究。

链接:https://huggingface.co/stabilityai

Stable Diffusion 3.5 版本在以下方面表现出色,使其成为市场上可定制化程度最高、最易于使用的图像模型之一,同时在 Prompt Adherence 和图像质量方面保持顶级性能:



  • 可定制性:轻松微调模型以满足特定创作需求,或根据定制的工作流程构建应用程序。

  • 高效性能:经过优化,均可在标准消费级硬件上运行,尤其是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo 型号。

  • 多样化输出:无需大量提示,即可创建代表全世界的图像,而不仅仅是一种肤色和特征的人。

  • 风格多样:能够生成各种风格和美感的图片,如 3D、摄影、绘画、线条艺术以及几乎任何可以想象到的视觉风格。



此外,他们的分析表明:



  • Stable Diffusion 3.5 Large 在 Prompt Adherence 方面领先市场,在图像质量方面可与更大的模型相媲美

  • Stable Diffusion 3.5 Large Turbo 在同类模型中,推理速度最快,同时在图像质量和 Prompt Adherence 方面保持了高度竞争力,即使与类似尺寸的 non-distilled 模型相比也是如此。

  • Stable Diffusion 3.5 Medium 的性能优于其他中型模型,在 Prompt Adherence 和图像质量之间取得了平衡,使其成为高效、高质量性能的首选




03
Anthropic 推出升级版 Claude 3.5 Sonnet 和 Claude 3.5 Haiku

10月22日,Anthropic 宣布推出升级版 Claude 3.5 Sonnet 和新模型 Claude 3.5 Haiku。这一次的升级不仅提升了模型的编程能力,还增加了一项名为“computer use”的新功能,使AI能够模拟人类操作计算机的方式,执行如移动光标、点击和键入等任务。

升级版 Claude 3.5 Sonnet 现已可以使用,computer use 测试版也已开放使用。


Claude 3.5 Sonnet

Claude 3.5 Sonnet:在业界基准测试中取得了广泛的改进,尤其是在智能体编码和工具使用任务中取得了巨大的进步。
1. 在编码方面,Claude 3.5 Sonnet 将 SWE-bench Verified 的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为智能体编码设计的专业系统。
2. Claude 3.5 Sonnet 还提高了智能体工具使用任务 TAU-bench 的性能,在零售领域从 62.6% 提高到 69.2%,在更具挑战性的航空领域从 36.0% 提高到 46.0%。
3. Claude 3.5 Sonnet 在价格和速度上与上一代产品保持一致,并取得了上述进步。


Claude 3.5 Haiku

Claude 3.5 Haiku:是 Anthropic 下一代速度最快的模型。
1. 在与 Claude 3 Haiku 相同的成本和速度下,Claude 3.5 Haiku 在各种技能方面都有所提高,甚至在许多智能基准测试中超过了 Claude 3 Opus,后者是他们上一代中最大的模型。
2. Claude 3.5 Haiku 在编码任务方面表现尤为突出。例如,它在 SWE-bench 验证中的得分率为 40.6%,超过了许多使用公开的 SOTA 模型的智能体——包括原始的 Claude 3.5 Sonnet 和 GPT-4o。
3. Claude 3.5 Haiku 具有低延迟、改进的指令跟踪和更准确的工具使用等特点,非常适合面向用户的产品、专门的子智能体任务以及从海量数据中生成个性化体验(如购买和使用)。


参考:
https://stability.ai/news/introducing-stable-diffusion-3-5
https://venturebeat.com/ai/video-ai-startup-genmo-launches-mochi-1-an-open-source-model-to-rival-runway-kling-and-others/

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章