最新开源：Genmo 开源最大视频生成模型 Mochi 1！Stable Diffusion 3.5 全家桶来了！

文摘 2024-10-24 20:53 广东

Mochi 1：最大开源视频生成模型，每秒30帧生成最长5.4秒视频

在线体验：https://www.genmo.ai/play
Huggingface主页：https://huggingface.co/genmo/mochi-1-preview

Genmo 公司推出了其全新的开源视频生成模型 Mochi 1，用户可以通过文本提示生成高质量的视频。Mochi 1 在多项技术指标上超越了市场上的一些主流模型，如Runway的Gen-3 Alpha、Luma AI的Dream Machine、快手的Kling等。

Mochi 1 的核心优势

1. 高保真度动作生成：Mochi 1 能够生成长达5.4秒、帧率高达30帧/秒的流畅视频，其时间连贯性和逼真的运动动态令人惊叹。它甚至能模拟复杂的物理现象，如流体动力学、毛发和头发模拟，以及连贯、流畅的人类动作。
2. 强大的提示遵循能力：Mochi 1 能非常准确地遵循用户提供的提示，生成符合预期的视频内容。通过文本和视觉标记联合构建视频，Mochi 1 的流式架构通过更大的隐藏维度，参数数量几乎是文本流的四倍，使用非对称设计，可以降低部署时的内存使用量。
3. 开源架构：Mochi 1 的模型权重和源代码根据Apache 2.0开源许可证发布，可以自由下载和使用，支持个人或商业用途。这一开放的策略旨在推动AI视频生成技术的民主化，让更多人享受到尖端的视频生成技术。
4. 高效率：Mochi 1 使用了Genmo独创的非对称扩散变压器（Asymmetric Diffusion Transformer，简称AsymmDiT）架构，这一架构通过简化文本处理以专注于视觉效果来有效地处理用户提示和压缩视频标记，进一步提升了模型的效率和性能。

Mochi 1 应用场景

1. 视频内容创作：Mochi 1 可以用于生成高质量的视频内容，包括动画、特效、短片等，为视频制作者和艺术家提供强大的创作工具。
2. 教育和培训：在教育领域，Mochi 1 可以生成教学视频，帮助解释复杂的概念或模拟实验过程，提高学习效率。
3. 娱乐和游戏：在游戏和娱乐行业，Mochi 1 可以用来生成游戏内的动态背景视频或故事情节，增强玩家的沉浸感。

Stability AI 发布 Stable Diffusion 3.5，图像生成新高度！

10月23日，Stability AI 推出了自家最强的模型 Stable Diffusion 3.5，这是一个全家桶，包含三个版本（Large、Large Turbo和Medium）。

这一版本相比于前一代 Stable Diffusion 3 在多个方面都有显著的提升，尤其在现实感、提示依从性和文本渲染效果上尤为突出，让创作者们在生成图像时能够获得更高的自由度与创造性。

Stable Diffusion 3.5 Large：该基础模型拥有 80 亿参数，性能优于竞品模型并且响应迅速，是 Stable Diffusion 系列中最强大的模型。该模型非常适合 1 百万像素分辨率的专业用例。
Stable Diffusion 3.5 Large Turbo：该模型是 Stable Diffusion 3.5 Large 的蒸馏版本，只需四步即可生成高质量图像，速度远快于Stable Diffusion 3.5 Large。
Stable Diffusion 3.5 Medium：该模型拥有 25亿参数，采用改进的MMDiT-X架构和训练方法，可在消费级硬件上「开箱即用」，在质量和定制易用性之间实现了平衡。该模型能够生成分辨率在0.25到2百万像素之间的图像。

Stable Diffusion 3.5 是一个用于图像生成的深度学习模型，提供了一个轻量级的推理实现，支持多种文本编码器和变分自编码器（VAE）解码器。用户可以通过简单的命令生成高质量的图像，适用于多种应用场景，如AI艺术创作和计算机视觉研究。

链接：https://huggingface.co/stabilityai

Stable Diffusion 3.5 版本在以下方面表现出色，使其成为市场上可定制化程度最高、最易于使用的图像模型之一，同时在 Prompt Adherence 和图像质量方面保持顶级性能：

可定制性：轻松微调模型以满足特定创作需求，或根据定制的工作流程构建应用程序。
高效性能：经过优化，均可在标准消费级硬件上运行，尤其是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo 型号。
多样化输出：无需大量提示，即可创建代表全世界的图像，而不仅仅是一种肤色和特征的人。
风格多样：能够生成各种风格和美感的图片，如 3D、摄影、绘画、线条艺术以及几乎任何可以想象到的视觉风格。

此外，他们的分析表明：

Stable Diffusion 3.5 Large 在 Prompt Adherence 方面领先市场，在图像质量方面可与更大的模型相媲美。
Stable Diffusion 3.5 Large Turbo 在同类模型中，推理速度最快，同时在图像质量和 Prompt Adherence 方面保持了高度竞争力，即使与类似尺寸的 non-distilled 模型相比也是如此。
Stable Diffusion 3.5 Medium 的性能优于其他中型模型，在 Prompt Adherence 和图像质量之间取得了平衡，使其成为高效、高质量性能的首选。

Anthropic 推出升级版 Claude 3.5 Sonnet 和 Claude 3.5 Haiku

10月22日，Anthropic 宣布推出升级版 Claude 3.5 Sonnet 和新模型 Claude 3.5 Haiku。这一次的升级不仅提升了模型的编程能力，还增加了一项名为“computer use”的新功能，使AI能够模拟人类操作计算机的方式，执行如移动光标、点击和键入等任务。

升级版 Claude 3.5 Sonnet 现已可以使用，computer use 测试版也已开放使用。

Claude 3.5 Sonnet

Claude 3.5 Sonnet：在业界基准测试中取得了广泛的改进，尤其是在智能体编码和工具使用任务中取得了巨大的进步。
1. 在编码方面，Claude 3.5 Sonnet 将 SWE-bench Verified 的性能从 33.4% 提高到 49.0%，得分高于所有公开可用的模型，包括 OpenAI o1-preview 等推理模型和专为智能体编码设计的专业系统。
2. Claude 3.5 Sonnet 还提高了智能体工具使用任务 TAU-bench 的性能，在零售领域从 62.6% 提高到 69.2%，在更具挑战性的航空领域从 36.0% 提高到 46.0%。
3. Claude 3.5 Sonnet 在价格和速度上与上一代产品保持一致，并取得了上述进步。

Claude 3.5 Haiku

Claude 3.5 Haiku：是 Anthropic 下一代速度最快的模型。
1. 在与 Claude 3 Haiku 相同的成本和速度下，Claude 3.5 Haiku 在各种技能方面都有所提高，甚至在许多智能基准测试中超过了 Claude 3 Opus，后者是他们上一代中最大的模型。
2. Claude 3.5 Haiku 在编码任务方面表现尤为突出。例如，它在 SWE-bench 验证中的得分率为 40.6%，超过了许多使用公开的 SOTA 模型的智能体——包括原始的 Claude 3.5 Sonnet 和 GPT-4o。
3. Claude 3.5 Haiku 具有低延迟、改进的指令跟踪和更准确的工具使用等特点，非常适合面向用户的产品、专门的子智能体任务以及从海量数据中生成个性化体验（如购买和使用）。

参考：
https://stability.ai/news/introducing-stable-diffusion-3-5
https://venturebeat.com/ai/video-ai-startup-genmo-launches-mochi-1-an-open-source-model-to-rival-runway-kling-and-others/

HsuDan

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

端侧AI | 小模型 | SLM（11月-12月）

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

刚刚，ChatGPT变身”AI搜索”，免费用！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉