AIGC月刊 | 大模型/多模态/文生图/AI视频最新技术进展（2024.8月第四期）【魔方AI新视界】

2024-09-01 07:08 北京

点击下方卡片，关注「魔方AI空间」公众号

❝
写在前面
【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容，目的是让读者站在AI时代的最前沿，紧跟时代发展的步伐，自信而坚定地跟随AI技术的最新趋势。
此外，猫先生也会根据读者的反馈，持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议，一起交流和学习，共同推动专栏的完善和成长！💪

大家好，我是猫先生，AI技术爱好者与深耕者！！

阅读猫先生整理的《魔方AI新视界》专栏，您将获得以下宝贵收获：

前沿技术洞察：深入了解AIGC行业的核心技术动向，涵盖AI绘画、AI视频、大型模型、多模态技术以及数字人等领域的最新进展，让您始终站在技术发展的最前沿。
职业发展助力：在专栏中发现那些能够激发创新灵感的关键技术和应用案例，这些内容对您的职业发展具有重要意义，帮助您在专业领域中取得突破。
紧跟时代潮流：通过专栏，您将能够准确把握时代的脉搏，自信而坚定地跟随AI技术的最新趋势，确保您在快速发展的AI时代中保持竞争力。

《魔方AI新视界》不仅是一个信息的汇聚地，更是一个促进思考、激发创新的平台，猫先生期待与您一起探索AI的无限可能。

本文是《魔方AI新视界》专栏的第三期，周期为2024年8月1日-2024年8月31日。在本期中，猫先生将采用精炼而扼要的语言，对AI领域的前沿技术进行介绍，并提供详情链接，以便于您能够进一步探索和学习。

❝
本文整理自《AIGCmagic社区飞书知识库》的每周AI大事件板块，飞书主页地址：AIGCmagic社区^{[1]https://a1qjvipthnf.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd?from=from_copylink}，欢迎大家点赞收藏！！

往期回顾

本期速览

1.Magic最新消息：LTM-2-Mini 第一个100M Token 上下文的模型
2.阿里发布最新视觉语言模型：Qwen2-Vl 更清晰地看世界
3.智谱AI震撼发布GLM-4-Plus：媲美GPT-4，并展示了强大的视频通话能力
4.字节Hyper-SD：只需 2s 快速生图
5.第一个Flux IpAdapter 模型开源
6.VEnhancer: AI 视频超清修复，已被CogVideoX支持
7.FancyVideo：通过跨帧文本指导实现动态且一致的视频生成
8.TurboEdit：基于文本的实时图像编辑
9.UniPortrait：统一定制单ID和多ID个性化框架
10.ControlNeXt：强大而高效的图像和视频生成控制
11.Qwen发布数学语言模型：Qwen2-Math，超越GPT-4o、Claude-3.5
12.谷歌推出Gemini Live：让您的移动设备成为强大的 AI 助手
13.字节发布LLaVA-OneVision：开源多模态大模型
14.MiniCPM-V：端侧可用的 GPT-4V 级单图、多图、视频多模态大模型
15.InternVideo2：用于多模态视频理解的缩放视频基础模型
16.智谱清影：开源视频生成模型 CogVideoX-2B
17.重磅！全新开源图像生成模型Flux.1，媲美 Midjourney
18.Stability AI 推出Stable Fast 3D
19.Google推出Gemma2 2B模型能够在手机、笔记本电脑、台式机等边缘设备上运行
20.MindSearch：模仿人类思维引发深度AI搜索

正文开始

1. Magic最新消息：LTM-2-Mini 第一个100M Token 上下文的模型^[2]

100M token 约等于 1000 万行代码或 750 部小说；
LTM-2-Mini 模型在处理大量代码或文本时，比现有的注意力机制模型要高效得多；
Magic与谷歌云合作，正在构建新的超级计算机，以支持他们的AI模型训练和部署。
项目主页：https://magic.dev/blog/100m-token-context-windows

2. 阿里发布最新视觉语言模型：Qwen2-Vl 更清晰地看世界^[3]

Qwen2-Vl开源两个版本模型：Qwen2-VL-2B-Instruct 和 Qwen2-VL-7B-Instruct，并发布了 Qwen2-VL-72B 的 API！；
Qwen2-VL 可理解长视频，并将其用于基于视频的问答、对话和内容创作等应用中。
能够操作手机和机器人的视觉智能体：借助复杂推理和决策的能力，Qwen2-VL 可集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作。
项目地址：https://qwenlm.github.io/zh/blog/qwen2-vl/

3. 智谱AI震撼发布GLM-4-Plus：媲美GPT-4，并展示了强大的视频通话能力

在语言理解、指令遵循、长文本处理等方面性能得到全面提升，保持了国际领先水平。
使用了大量模型辅助构造高质量合成数据以提升模型性能；
利用 PPO 有效有效提升模型推理（数学、代码算法题等）表现，更好反应人类偏好。
官方介绍：https://mp.weixin.qq.com/s/Ww8njI4NiyH7arxML0nh8w

4. 字节Hyper-SD：只需 2s 快速生图^[4]

一种通过 LoRA 来加速图片生成的技术，正式发布了适用于 Flux 的 Hyper-FLUX.1-dev-8steps-lora.safetensors^[5] 和 Hyper-FLUX.1-dev-16steps-lora.safetensors^[6]。
项目主页：https://hyper-sd.github.io/
在线试用地址：https://huggingface.co/spaces/ByteDance/Hyper-FLUX-8Steps-LoRA

5. 第一个Flux IpAdapter 模型开源^[7]

来自 XLabs-AI 的 IP-Adapter 经过 512x512 分辨率（50k 步）和 1024x1024（25k 步）分辨率的训练，适用于 512x512 和 1024x1024 分辨率。
效果还没有 SDXL 和 SD1.5 的好，但值得期待！
项目地址：https://huggingface.co/XLabs-AI/flux-ip-adapter

6. VEnhancer: AI 视频超清修复，已被CogVideoX支持^[8]

VEnhancer 在统一的框架中实现了空间超分辨率、时间超分辨率（帧插值）和视频优化。
可以灵活地适应不同的上采样因子（例如，1x~8x），以实现空间或时间****超分辨率。
提供灵活的控制功能，可以修改细化强度，以处理多样化的视频伪影。
项目地址：https://github.com/Vchitect/VEnhancer

7. FancyVideo：通过跨帧文本指导实现动态且一致的视频生成^[9]

360 视觉引擎团队发布的一个文生视频模型，主要解决动作连贯、情节流畅的视频问题。
FancyVideo通过精心设计的 Cross-frame Textual Guidance Module （CTGM）改进了现有的文本控制机制。
项目主页：https://fancyvideo.github.io/

8. TurboEdit：基于文本的实时图像编辑^[10]

Adobe 研究院发布的能够通过提示词实时编辑照片的技术。
只需 8 Steps 预处理，然后每次修改只需 4 Steps，性能充足的情况下接近实时。
项目主页：https://betterze.github.io/TurboEdit/

9. UniPortrait：统一定制单ID和多ID个性化框架^[11]

一种创新的人类图像个性化框架，将单ID和多ID定制与高人脸保真度、广泛的人脸可编辑性、自由格式的输入描述和多样化的布局生成相结合。
仅由两个即插即用模块组成：ID嵌入模块和ID路由模块。
项目主页：https://aigcdesigngroup.github.io/UniPortrait-Page/

10. ControlNeXt：强大而高效的图像和视频生成控制^[12]

用于可控生成的官方实现，支持图像和视频，同时包含多种形式的控制信息。
与ControlNet相比，该方法将**可训练参数减少了90%**，实现了更快的收敛和出色的效率。
该方法可以直接与其他LoRA技术结合使用，以改变样式并确保更稳定的生成。
项目主页：https://pbihao.github.io/projects/controlnext/index.html

11. Qwen发布数学语言模型：Qwen2-Math，超越GPT-4o、Claude-3.5^[13]

Qwen2-Math，旨在提升推理能力，特别是在解决算术和数学问题方面。
Qwen2-Math 系列包括 1.5B、7B 和 72B 参数。
基于 Qwen2 LLM 构建的专门用于数学解题的语言模型，这些模型基于大量高质量的数学语料库进行预训练，并通过基于指令的训练微调，以解决复杂的数学问题。
项目地址：https://github.com/QwenLM/Qwen2-Math

12. 谷歌推出Gemini Live：让您的移动设备成为强大的 AI 助手^[14]

Gemini Live 是一种移动对话体验，可让您与 Gemini 进行自由流畅的对话。
对标 ChatGPT 的语音模式，支持支持打断、深入讨论和暂停后继续对话，提供了 10 种不同的声音，未来会支持 IOS 设备和其他语言。
项目主页：https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

13. 字节发布LLaVA-OneVision：开源多模态大模型^[15]

第一个能够在三个重要的计算机视觉场景（单图像、多图像和视频场景）中同时突破开放式 LMM 性能极限的单一模型
允许跨不同模式/场景进行强大的****迁移学习，从而产生新的能力，LLaVA-NeXT 的进化版本
通过从图像到视频的任务转移，展示了强大的视频理解和跨场景能力。
项目地址：https://llava-vl.github.io/blog/2024-08-05-llava-onevision/

14. MiniCPM-V：端侧可用的 GPT-4V 级单图、多图、视频多模态大模型^[16]

MiniCPM-V系列的最新、性能最佳模型。总参数量 8B，单图、多图和视频理解性能超越了 GPT-4V
在单图理解上，它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现
成为首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型
项目地址：https://github.com/OpenBMB/MiniCPM-V.git

15. InternVideo2：用于多模态视频理解的缩放视频基础模型^[17]

一个开源的视频理解模型，拥有 60 亿参数的编码器和超过 4 亿个样本。
在 Kinetics 400 中达到92.1% Top1 准确率。
在60多个视频/音频相关任务（包括动作识别、时间定位、检索等）上实现了SOTA性能
项目地址：https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/

16. 智谱清影：开源视频生成模型 CogVideoX-2B^[18]

这是首个开源的基于 Transformer 的大型文本生成视频模型。
性能更强，参数量更大的模型正在到来的路上。
项目地址：https://github.com/THUDM/CogVideo.git

17. 重磅！全新开源图像生成模型Flux.1，媲美 Midjourney^[19]

FLUX.1 是由一众大佬成立的 Black Forest Labs 组织推出的全新生图模型系列，在人手、文字、光影和细节上表现的非常不错，在 ELO 测试上远超 SD3-Ultra 和 Ideogram
项目主页：https://blackforestlabs.ai/announcing-black-forest-labs/

18. Stability AI 推出Stable Fast 3D^[20]

SF3D 将单个图像作为输入，并在一秒内生成带纹理的 UV 展开 3D 模型
SF3D经过明确的网格生成训练，结合了快速 UV 展开技术，可以快速生成纹理，而不是依赖顶点颜色
项目主页：https://stable-fast-3d.github.io/

19. Google推出Gemma2 2B模型能够在手机、笔记本电脑、台式机等边缘设备上运行^[21]

利用了知识蒸馏技术，通过从更大、更复杂的模型中学习，将其知识传递到较小的模型中，取得了超出预期的性能表现。
适用于多种文本生成任务，包括问答、摘要和推理。
项目主页：https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

20. MindSearch：模仿人类思维引发深度AI搜索^[22]

MindSearch 是一款具有 Perplexity.ai Pro 性能的开源 AI 搜索引擎框架
可以自由的使用闭源或开源 LLM，在深度、广度和生成响应的准确性三个方面均超越 ChatGPT-Web 和 Perplexity.ai (Pro)
项目主页：https://github.com/InternLM/MindSearch

技术交流

加入「AIGCmagic社区」群聊，一起交流讨论，涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向，可私信或添加微信号：【m_aigc2022】，备注不同方向邀请入群！！

更多精彩内容，尽在「魔方AI空间」，关注了解全栈式 AIGC内容！！

AIGC月刊 | 大模型/多模态/文生图/AI视频最新技术进展（2024.8月第四期）【魔方AI新视界】

往期回顾

本期速览

正文开始

1. Magic最新消息：LTM-2-Mini 第一个100M Token 上下文的模型[2]

2. 阿里发布最新视觉语言模型：Qwen2-Vl 更清晰地看世界[3]

3. 智谱AI震撼发布GLM-4-Plus：媲美GPT-4，并展示了强大的视频通话能力

4. 字节Hyper-SD：只需 2s 快速生图[4]

5. 第一个Flux IpAdapter 模型开源[7]

6. VEnhancer: AI 视频超清修复，已被CogVideoX支持[8]

7. FancyVideo：通过跨帧文本指导实现动态且一致的视频生成[9]

8. TurboEdit：基于文本的实时图像编辑[10]

9. UniPortrait：统一定制单ID和多ID个性化框架[11]

10. ControlNeXt：强大而高效的图像和视频生成控制[12]

11. Qwen发布数学语言模型：Qwen2-Math，超越GPT-4o、Claude-3.5[13]

12. 谷歌推出Gemini Live：让您的移动设备成为强大的 AI 助手[14]

13. 字节发布LLaVA-OneVision：开源多模态大模型[15]

14. MiniCPM-V：端侧可用的 GPT-4V 级单图、多图、视频多模态大模型[16]

15. InternVideo2：用于多模态视频理解的缩放视频基础模型[17]

16. 智谱清影：开源视频生成模型 CogVideoX-2B[18]

17. 重磅！全新开源图像生成模型Flux.1，媲美 Midjourney[19]

18. Stability AI 推出Stable Fast 3D[20]

19. Google推出Gemma2 2B模型能够在手机、笔记本电脑、台式机等边缘设备上运行[21]

20. MindSearch：模仿人类思维引发深度AI搜索[22]