AIGC月刊 | 技术可及，顺势而为（2024.10月第六期）【魔方AI新视界】

2024-11-03 23:09 北京

点击下方卡片，关注「魔方AI空间」公众号

❝
写在前面
【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容，目的是让读者站在AI时代的最前沿，紧跟时代发展的步伐，自信而坚定地跟随AI技术的最新趋势。
此外，猫先生也会根据读者的反馈，持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议，一起交流和学习，共同推动专栏的完善和成长！💪

大家好，我是猫先生，AI技术爱好者与深耕者！！

阅读猫先生整理的《魔方AI新视界》专栏，您将获得以下宝贵收获：

前沿技术洞察：深入了解AIGC行业的核心技术动向，涵盖AI绘画、AI视频、大型模型、多模态技术以及数字人等领域的最新进展，让您始终站在技术发展的最前沿。
职业发展助力：在专栏中发现那些能够激发创新灵感的关键技术和应用案例，这些内容对您的职业发展具有重要意义，帮助您在专业领域中取得突破。
紧跟时代潮流：通过专栏，您将能够准确把握时代的脉搏，自信而坚定地跟随AI技术的最新趋势，确保您在快速发展的AI时代中保持竞争力。

《魔方AI新视界》不仅是一个信息的汇聚地，更是一个促进思考、激发创新的平台，猫先生期待与您一起探索AI的无限可能。

本文是《魔方AI新视界》专栏的第六期，周期为2024年10月1日-2024年10月31日。在本期中，猫先生将采用精炼而扼要的语言，对AI领域的前沿技术进行介绍，并提供详情链接，以便于您能够进一步探索和学习。

❝
本文整理自《AIGCmagic社区飞书知识库》的每周AI大事件板块，飞书主页地址：AIGCmagic社区^[1]，欢迎大家点赞评论！！

往期回顾

本期速览

1. Hallo2：实现4K分辨率并生成长达一小时音频驱动的人像图像动画。
2. Stable Diffusion 3.5：开源界超强文生图大模型，提供多种参数版本。
3. VILA：强大的视频理解和多图理解能力，适用于边缘端部署。
4. F5-TTS：开源且可商用的语音合成模型，基于扩散变换器。
5. PhysGen：基于刚体物理的图像到视频生成方法。
6. Pyramid Flow：高效的自回归视频生成方法。
7. FLUX.1-Turbo-Alpha：8步快速生成图像的LoRA模型。
8. Janus：新颖的自回归框架，统一多模态理解和生成。
9. AM-RADIO：新一代视觉基础模型，集成多种视觉模型。
10. MiniCPM 3.0：支持无限长文本输入的语言模型。
11. T2V-Turbo-v2：重登VBench榜首的开源视频生成模型。
12. LongVideoBench：长上下文交错视频语言理解的基准。
13. Movie Gen：meta发布的超强视频生成模型。
14. CogView3：基于级联扩散的文本生成图像系统。
15. Oryx：统一的多模态架构，用于图像、视频和多视角3D场景的时空理解。
16. E2E-MFD：端到端多模态融合目标检测方法。

正文开始

Hallo2：长时间、高分辨率音频驱动的人头视频生成^[2]

Hallo2 是第一个实现 4K 分辨率并生成长达一小时、音频驱动的人像图像动画并配有文本提示的方法。
与 Hallo 相比，Hallo2 支持更高分辨率和更长的视频生成，也同样支持如雕像、绘画、卡通等多种风格的人头。
项目主页：https://fudan-generative-vision.github.io/hallo2

Stable Diffusion 3.5：开源界超强文生图大模型^[3]

Stable Diffusion 3.5 Large ：该模型具有 80 亿个参数，可提供卓越的图像质量和精确的即时附着力，非常适合 1 兆像素分辨率下的专业使用。
Stable Diffusion 3.5 Large Turbo ：大型模型的更快、精简版本，只需 4 个步骤即可生成高质量图像。
Stable Diffusion 3.5 Medium（将于 10 月 29 日推出） ：针对消费类硬件优化的 26 亿参数模型，在 0.25 至 2 兆像素的分辨率下提供稳定的性能。
项目地址：https://github.com/Stability-AI/sd3.5

VILA：强大的视频理解和多图理解能力^[4]

VILA 是一种视觉语言模型 (VLM)，使用大规模交错图像文本数据进行预训练，可实现视频理解和多图像理解功能。
VILA 可通过AWQ 4 位量化和TinyChat框架部署在边缘端。
VILA 推出了更强大的功能，包括：视频推理、情境学习、视觉思维链和更好的世界知识。
项目地址：https://github.com/NVlabs/VILA
论文解读：https://mp.weixin.qq.com/s/g0JKUIf9UBp4meIjPYg2zA

F5-TTS：开源且可商用的语音合成模型^[5]

一种基于扩散变换器 (DiT) 流匹配的完全非自回归文本转语音系统。
该模型在文本引导的语音填充任务和条件流匹配损失上进行训练。
输入文本被转换为字符序列，用填充标记填充到与输入语音相同的长度，并在与语音输入连接之前由 ConvNeXt 块进行细化。
项目地址：https://swivid.github.io/F5-TTS/

PhysGen ：基于刚体物理的图像到视频生成^[6]

一种新颖的图像到视频生成方法，它可以转换单个图像和输入条件（例如，施加到图像中的对象的力和扭矩）以生成逼真的、物理上合理的且时间上一致的视频。
本文主要思想是将基于模型的物理模拟与数据驱动的视频生成过程相集成，从而实现合理的图像空间动态。
项目主页：https://stevenlsw.github.io/physgen/
技术解读：https://mp.weixin.qq.com/s/tSXrITSx4dGpZHvw4NzKDQ

Pyramid Flow：用于高效视频生成建模的金字塔流匹配^[7]

一种基于流匹配的训练高效的自回归视频生成方法。
通过仅在开源数据集上进行训练，它可以生成 768p 分辨率和 24 FPS 的高质量 10 秒视频，并且自然支持图像到视频的生成。
项目主页：https://pyramid-flow.github.io/

FLUX.1-Turbo-Alpha：8 步快速生成图像^[8]

阿里妈妈推出的一款支持 8 步出图的 LoRA，基于 FLUX.1-dev 模型进行训练。
该模型可以用于T2I、Inpainting controlnet和其他FLUX相关模型。
该模型在1M公开数据集和内部源图片上进行训练，这些数据美学评分6.3+而且分辨率大于800。
项目主页：https://huggingface.co/alimama-creative/FLUX.1-Turbo-Alpha

Janus：一个新颖的自回归框架，统一多模态理解和生成^[9]

通过将视觉编码解耦到单独的路径中来解决以前方法的局限性，同时仍然利用单个统一的变压器架构进行处理。
这种解耦不仅缓解了视觉编码器在理解和生成方面的角色之间的冲突，而且还增强了框架的灵活性。
Janus超越了之前的统一模型，并且匹配或超过了特定任务模型的性能。
Janus 的简单性、高度灵活性和有效性使其成为下一代统一多模式模型的有力候选者。
项目地址：https://github.com/deepseek-ai/Janus

英伟达发布AM-RADIO：新一代视觉基础模型^[10]

AM-RADIO 是一个将 Large Vision Foundation 模型提炼为单一模型的框架。
RADIO 是一种新的视觉基础模型，在视觉领域表现出色，是视觉主干的卓越替代品。
通过蒸馏集成 CLIP 变体、DINOv2 和 SAM，它保留了文本基础和分段对应等独特功能。
项目主页：https://github.com/NVlabs/RADIO

面壁小钢炮MiniCPM 3.0 重磅发布：支持无限长文本输入^[11]

MiniCPM 3.0 是一个 4B 参数量的语言模型，相比 MiniCPM1.0/2.0，功能更加全面，综合能力大幅提升，多数评测集上的效果比肩甚至超越众多 7B-9B 模型。
支持工具调用🛠️（Function Calling）和代码解释器💻（Code Interpreter）：Berkeley Function Calling Leaderboard (BFCL)上取得 9B 规模以下 SOTA，超越 GLM-4-9B-Chat、Qwen2-7B-Instruct。
超强的推理能力🧮：数学能力方面，MathBench^[12] 上的效果超越 GPT-3.5-Turbo 以及多个 7B-9B 模型。在非常具有挑战性的 LiveCodeBench^[13] 上，效果超越 Llama3.1-8B-Instruct。
出色的中英文指令遵循能力🤖：英文指令遵循 IFEval^[14]、中文指令遵循 FollowBench-zh^[15] 效果超越 GLM-4-9B-Chat、Qwen2-7B-Instruct。
长文本能力：原生支持 32k 上下文长度，32k 长度内大海捞针全绿。提出 LLM x MapReduce ，理论可处理的上下文长度达到 +∞。
RAG能力：我们发布了 MiniCPM RAG 套件^[16]。基于 MiniCPM 系列模型的 MiniCPM-Embedding^[17]、MiniCPM-Reranker^[18] 在中文、中英跨语言检索测试中取得 SOTA 表现；针对 RAG 场景的 MiniCPM3-RAG-LoRA^[19] 在开放域问答等多项任务上超越 Llama3-8B、Baichuan2-13B 等模型。
项目主页：https://github.com/OpenBMB/MiniCPM

T2V-Turbo-v2：重登 VBench 榜首的开源视频生成模型^[20]

T2V-Turbo-v2 通过将各种监督信号（包括高质量训练数据、奖励模型反馈和条件指导）集成到一致性蒸馏过程中，带来显著进步。
T2V-Turbo 基于 VideoCrafter2，新发布的 V2 版本在视频基准测试 VBench 中重回榜首。
其 VBench 性能总分达到 85.13，超越了 Gen-3 和 Kling 可灵等商业模型。
项目主页：https://t2v-turbo-v2.github.io/

LongVideoBench：长上下文交错视频语言理解的基准^[21]

LongVideoBench，这是一种问答基准，其特点是视频语言交错输入长达一小时。
基准测试包括 3,763 个不同长度的网络收集视频及其不同主题的字幕，旨在全面评估 LMM 的长期多模态理解能力。
在 17 个细粒度类别中策划了 6,678 个人工注释的多项选择题，为长视频理解建立了最全面的基准之一。
项目主页：https://longvideobench.github.io/

Meta发布超强视频生成模型：Movie Gen^[22]

Movie Gen 为沉浸式 AI 内容设定了新标准，官方宣称这是迄今为止最先进的媒体基础模型。该系列包括两个主要模型：

Movie Gen Video: 一个30B参数的Transformer基础模型，用于联合文本到图像和文本到视频生成。模型通过Flow Matching训练目标进行预训练，并在高质量视频和文本上进行微调。
Movie Gen Audio: 一个13B参数的基础模型，用于视频和文本到音频生成。模型同样通过Flow Matching训练目标进行预训练，并在高质量音频和视频上进行微调。

Movie Gen系列基础模型在视频生成、视频个性化、视频编辑和音频生成任务中取得了显著进展。
项目主页：https://ai.meta.com/research/movie-gen/

CogView3发布：更精细、更快速的文生图大模型^[23]

CogView3 是一个基于级联扩散的文本生成图像系统，采用了接力扩散框架。
CogView-3-Plus 在 CogView3 的基础上引入了最新的 DiT 框架，以实现整体性能的进一步提升。
CogView3 的表现优于 SDXL，获胜率达到 77.0%。此外，通过对扩散模型的逐步蒸馏，CogView3 能够在推理时间仅为 SDXL 1/10 的情况下，生成可比的结果。
项目地址：https://github.com/THUDM/CogView3

Oryx：专注于图像、视频和多视角 3D 场景的时空理解^[24]

Oryx ：一种统一的多模态架构，用于图像、视频和多视角 3D 场景的时空理解。Oryx 提供按需解决方案，通过两个核心设计无缝、高效地处理任意空间大小和时间长度的视觉输入：

1）预训练的 OryxViT 模型，可以将任何分辨率的图像编码为LLM友好的视觉表示；

动态压缩器模块，支持根据请求对视觉 token 进行 1 倍到 16 倍的压缩。

得益于这些设计，Oryx 可以容纳极长的视觉上下文，例如低分辨率和高压缩的视频，同时保持高识别精度，以执行原始分辨率和无压缩的文档理解等任务。

项目主页：https://oryx-mllm.github.io/

E2E-MFD：端到端多模态融合目标检测^[25]

提出了一种新颖的端到端同步联合学习方法，将图像融合和目标检测整合到一个单阶段框架中。
引入了一种新的梯度矩阵任务对齐（GMTA）技术，用于评估和量化图像融合和目标检测任务的影响，优化训练过程的稳定性，并确保融合检测权重的最优配置。
通过在图像融合和目标检测方面的广泛实验，展示了所提方法的有效性和鲁棒性。
项目地址：https://github.com/icey-zhang/E2E-MFD

技术交流

加入「AIGCmagic社区」群聊，一起交流讨论，涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向，可私信或添加微信号：【m_aigc2022】，备注不同方向邀请入群！！

更多精彩内容，尽在「魔方AI空间」，关注了解全栈式 AIGC内容！！

Reference

[1]

AIGCmagic社区: https://a1qjvipthnf.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd?from=from_copylink

[2]

Hallo2：长时间、高分辨率音频驱动的人头视频生成: https://fudan-generative-vision.github.io/hallo2

[3]

Stable Diffusion 3.5：开源界超强文生图大模型: https://github.com/Stability-AI/sd3.5

[4]

VILA：强大的视频理解和多图理解能力: https://github.com/NVlabs/VILA

[5]

F5-TTS：开源且可商用的语音合成模型: https://swivid.github.io/F5-TTS/

[6]

PhysGen ：基于刚体物理的图像到视频生成: https://stevenlsw.github.io/physgen/

[7]

Pyramid Flow：用于高效视频生成建模的金字塔流匹配: https://pyramid-flow.github.io/

[8]

FLUX.1-Turbo-Alpha：8 步快速生成图像: https://huggingface.co/alimama-creative/FLUX.1-Turbo-Alpha

[9]

Janus：一个新颖的自回归框架，统一多模态理解和生成: https://github.com/deepseek-ai/Janus

[10]

英伟达发布AM-RADIO：新一代视觉基础模型: https://github.com/NVlabs/RADIO

[11]

面壁小钢炮MiniCPM 3.0 重磅发布：支持无限长文本输入: https://github.com/OpenBMB/MiniCPM

[12]

MathBench: https://open-compass.github.io/MathBench/

[13]

LiveCodeBench: https://livecodebench.github.io/

[14]

IFEval: https://huggingface.co/datasets/google/IFEval

[15]

FollowBench-zh: https://huggingface.co/datasets/YuxinJiang/FollowBench

[16]

MiniCPM RAG 套件: https://huggingface.co/collections/openbmb/minicpm-rag-suite-66d976b4204cd0a4f8beaabb

[17]

MiniCPM-Embedding: https://huggingface.co/openbmb/MiniCPM-Embedding

[18]

MiniCPM-Reranker: https://huggingface.co/openbmb/MiniCPM-Reranker

[19]

MiniCPM3-RAG-LoRA: https://huggingface.co/openbmb/MiniCPM3-RAG-LoRA

[20]

T2V-Turbo-v2：重登 VBench 榜首的开源视频生成模型: https://t2v-turbo-v2.github.io/

[21]

LongVideoBench：长上下文交错视频语言理解的基准: https://longvideobench.github.io/

[22]

Meta发布超强视频生成模型：Movie Gen: https://ai.meta.com/research/movie-gen/

[23]

CogView3发布：更精细、更快速的文生图大模型: https://github.com/THUDM/CogView3

[24]

Oryx：专注于图像、视频和多视角 3D 场景的时空理解: https://oryx-mllm.github.io/

[25]

E2E-MFD：端到端多模态融合目标检测: https://github.com/icey-zhang/E2E-MFD

魔方AI空间

AI技术从业者与爱好者，专注于计算机视觉、深度学习、行为识别、多模态、边缘智能等前沿科技成果的研究和技术分享！

最新文章

2025年开篇｜AI Agent与多模态大模型：智能革命的新纪元

AIGC月刊 | 再见2024，迎接2025（2024.12月第八期）【魔方AI新视界】

导师放养，拿下SCI论文

开源项目 | BrushEdit 新型交互式图像编辑框架

《一书解决几乎所有机器学习问题》.PDF下载

LLaVA系列｜LLaVA-CoT：让视觉语言模型逐步推理

多模态大模型，杀疯了！

综述｜多模态学习是否为医疗保健领域提供了通用智能？

AIGC月刊 | 坚持技术长期主义（2024.11月第七期）【魔方AI新视界】

大模型经典著作《大语言模型基础与前沿》

一文读懂多模态大模型：LLaVA系列 | 从图像到视频内容理解的进化之路

GPT-o1深度揭秘！突破LLM极限，能力超越人类博士生？

一文读懂多模态大模型（MLLM）

开源项目 | SG-I2V：超强图生视频技术，精确控制运动轨迹

开源项目 | Mochi：最强开源视频生成模型

AIGC月刊 | 技术可及，顺势而为（2024.10月第六期）【魔方AI新视界】

2w字综述 | 一文掌握Video Diffusion Model视频扩散模型

开源项目 | 多模态大模型VILA：强大的视频理解和多图理解能力

太有意思了 | PhysGen：引入「物理知识」的视频生成模型

开源项目 | 多模态大模型 VideoCLIP-XL：一种新的视频 CLIP 模型

从零走向AGI系列｜从头构建一个小型文本到视频生成模型（T2V）

AIGC月刊 | 多模态爆发，迅速迈向 AGI（2024.9月第五期）【魔方AI新视界】

开源项目 | 多模态大模型Oryx：专注于图像、视频和多视角3D场景的时空理解

AIGC时代算法工程师的面试秘籍（第二十三式2024.9.16-9.29） |【三年面试五年模拟】

开源项目 | 多模态大模型VideoGPT+：集成图像和视频编码器以增强视频理解

国产视频生成大模型 | 书生·筑梦2.0：开启视觉梦幻之旅

开源项目 | 多模态大模型VITA：同时处理视频、图像、文本和音频

Yolo-World | 检测一切模型：高效实时开放词汇目标检测

开源项目 | 多模态大模型VideoLLaMB：长上下文视频理解新框架

开源项目｜多模态大模型：Show-o 统一多模态理解和生成

AIGC月刊 | 大模型/多模态/文生图/AI视频最新技术进展（2024.8月第四期）【魔方AI新视界】

新手必看 | 极简入门「AI文生视频提示词」创作指南

多模态大模型：Video-LLaVA2 视频和图像的智能理解系统

ComfyUI最佳实践 | 免费白嫖「黑神话·悟空」生图实战（人人都能玩）

多模态大模型：LLaVA-OneVision 轻松实现视觉任务迁移 | 单图、多图和视频理解

AI短片创作 | 利用MJ+即梦+Suno快速创作七夕MV视频（全流程复盘，小白也能上手）

开源实操 | 腾讯VTA-LDM：让你的视频自动生成完美音效

半年耕耘，《AIGCmagic社区知识星球》重磅升级！限量活动中！

AIGC 月刊 | 技术革新与应用案例（2024.7月第三期）【魔方AI新视界】

综述 | 一文系统性全面了解“人体视频生成”技术：挑战、方法和见解

开源实操 | DiffIR2VR-Zero：模糊视频8K高清修复技术

新手必看｜一文理解LLM中的Tokens 和 Embeddings

国内有哪些好用的AI视频生成及创作工具

阿里开源EchoMimic: 又一数字人头技术 | 肖像动画框架

Odyssey：好莱坞级的AI视频生成和编辑工具

太强了！快手的LivePortrait：肖像动画框架 | 可精准控制眼睛和嘴唇动作

新手必看 | 44张图带您极简学习Transformer | 分步数学示例（建议收藏）

商汤重磅推出Vimi——亮相WAIC，成为“镇馆之宝” | 2024世界人工智能大会

2万字长文｜YOLOv10的起源：YOLO系列的十年全面综述【YOLOv1-YOLOv10】(建议收藏)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

AIGC月刊 | 技术可及，顺势而为（2024.10月第六期）【魔方AI新视界】

往期回顾

本期速览

正文开始

Hallo2：长时间、高分辨率音频驱动的人头视频生成[2]

Stable Diffusion 3.5：开源界超强文生图大模型[3]

VILA：强大的视频理解和多图理解能力[4]

F5-TTS：开源且可商用的语音合成模型[5]

PhysGen ：基于刚体物理的图像到视频生成[6]

Pyramid Flow：用于高效视频生成建模的金字塔流匹配[7]

FLUX.1-Turbo-Alpha：8 步快速生成图像[8]

Janus：一个新颖的自回归框架，统一多模态理解和生成[9]

英伟达发布AM-RADIO：新一代视觉基础模型[10]

面壁小钢炮MiniCPM 3.0 重磅发布：支持无限长文本输入[11]

T2V-Turbo-v2：重登 VBench 榜首的开源视频生成模型[20]

LongVideoBench：长上下文交错视频语言理解的基准[21]

Meta发布超强视频生成模型：Movie Gen[22]

CogView3发布：更精细、更快速的文生图大模型[23]

Oryx：专注于图像、 视频和多视角 3D 场景的时空理解[24]

E2E-MFD：端到端多模态融合目标检测[25]

技术交流

Hallo2：长时间、高分辨率音频驱动的人头视频生成^[2]

Stable Diffusion 3.5：开源界超强文生图大模型^[3]

VILA：强大的视频理解和多图理解能力^[4]

F5-TTS：开源且可商用的语音合成模型^[5]

PhysGen ：基于刚体物理的图像到视频生成^[6]

Pyramid Flow：用于高效视频生成建模的金字塔流匹配^[7]

FLUX.1-Turbo-Alpha：8 步快速生成图像^[8]

Janus：一个新颖的自回归框架，统一多模态理解和生成^[9]

英伟达发布AM-RADIO：新一代视觉基础模型^[10]

面壁小钢炮MiniCPM 3.0 重磅发布：支持无限长文本输入^[11]

T2V-Turbo-v2：重登 VBench 榜首的开源视频生成模型^[20]

LongVideoBench：长上下文交错视频语言理解的基准^[21]

Meta发布超强视频生成模型：Movie Gen^[22]

CogView3发布：更精细、更快速的文生图大模型^[23]

Oryx：专注于图像、视频和多视角 3D 场景的时空理解^[24]

E2E-MFD：端到端多模态融合目标检测^[25]