AIGC月刊 | 大模型/多模态/文生图/AI视频最新技术进展(2024.8月第四期)【魔方AI新视界】

2024-09-01 07:08   北京  

点击下方卡片,关注「魔方AI空间」公众号

写在前面

【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容,目的是让读者站在AI时代的最前沿,紧跟时代发展的步伐,自信而坚定地跟随AI技术的最新趋势。

此外,猫先生也会根据读者的反馈,持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议,一起交流和学习,共同推动专栏的完善和成长!💪

大家好,我是猫先生,AI技术爱好者与深耕者!!

阅读猫先生整理的《魔方AI新视界》专栏,您将获得以下宝贵收获:

  1. 前沿技术洞察:深入了解AIGC行业的核心技术动向,涵盖AI绘画、AI视频、大型模型、多模态技术以及数字人等领域的最新进展,让您始终站在技术发展的最前沿。
  2. 职业发展助力:在专栏中发现那些能够激发创新灵感的关键技术和应用案例,这些内容对您的职业发展具有重要意义,帮助您在专业领域中取得突破。
  3. 紧跟时代潮流:通过专栏,您将能够准确把握时代的脉搏,自信而坚定地跟随AI技术的最新趋势,确保您在快速发展的AI时代中保持竞争力。

《魔方AI新视界》不仅是一个信息的汇聚地,更是一个促进思考、激发创新的平台,猫先生期待与您一起探索AI的无限可能。

本文是《魔方AI新视界》专栏的第三期,周期为2024年8月1日-2024年8月31日。在本期中,猫先生将采用精炼而扼要的语言,对AI领域的前沿技术进行介绍,并提供详情链接,以便于您能够进一步探索和学习。

本文整理自《AIGCmagic社区飞书知识库》的每周AI大事件板块,飞书主页地址:AIGCmagic社区[1]https://a1qjvipthnf.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd?from=from_copylink,欢迎大家点赞收藏!!

往期回顾

本期速览

1.Magic最新消息:LTM-2-Mini 第一个100M Token 上下文的模型
2.阿里发布最新视觉语言模型:Qwen2-Vl 更清晰地看世界
3.智谱AI震撼发布GLM-4-Plus:媲美GPT-4,并展示了强大的视频通话能力
4.字节Hyper-SD:只需 2s 快速生图
5.第一个Flux IpAdapter 模型开源
6.VEnhancer: AI 视频超清修复,已被CogVideoX支持
7.FancyVideo:通过跨帧文本指导实现动态且一致的视频生成
8.TurboEdit:基于文本的实时图像编辑
9.UniPortrait:统一定制单ID和多ID个性化框架
10.ControlNeXt:强大而高效的图像和视频生成控制
11.Qwen发布数学语言模型:Qwen2-Math,超越GPT-4o、Claude-3.5
12.谷歌推出Gemini Live:让您的移动设备成为强大的 AI 助手
13.字节发布LLaVA-OneVision:开源多模态大模型
14.MiniCPM-V:端侧可用的 GPT-4V 级单图、多图、视频多模态大模型
15.InternVideo2:用于多模态视频理解的缩放视频基础模型
16.智谱清影:开源视频生成模型 CogVideoX-2B
17.重磅!全新开源图像生成模型Flux.1,媲美 Midjourney
18.Stability AI 推出Stable Fast 3D
19.Google推出Gemma2 2B模型能够在手机、笔记本电脑、台式机等边缘设备上运行
20.MindSearch:模仿人类思维引发深度AI搜索

正文开始

1. Magic最新消息:LTM-2-Mini 第一个100M Token 上下文的模型[2]
  • 100M token 约等于 1000 万行代码或 750 部小说;
  • LTM-2-Mini 模型在处理大量代码或文本时,比现有的注意力机制模型要高效得多;
  • Magic与谷歌云合作,正在构建新的超级计算机,以支持他们的AI模型训练和部署。
  • 项目主页:https://magic.dev/blog/100m-token-context-windows
2. 阿里发布最新视觉语言模型:Qwen2-Vl 更清晰地看世界[3]
  • Qwen2-Vl开源两个版本模型:Qwen2-VL-2B-Instruct 和 Qwen2-VL-7B-Instruct,并发布了 Qwen2-VL-72B 的 API!;
  • Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。
  • 能够操作手机和机器人的视觉智能体借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。
  • 项目地址:https://qwenlm.github.io/zh/blog/qwen2-vl/
3. 智谱AI震撼发布GLM-4-Plus:媲美GPT-4,并展示了强大的视频通话能力
  • 语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。
  • 使用了大量模型辅助构造高质量合成数据以提升模型性能;
  • 利用 PPO 有效有效提升模型推理(数学、代码算法题等)表现,更好反应人类偏好。
  • 官方介绍:https://mp.weixin.qq.com/s/Ww8njI4NiyH7arxML0nh8w
4. 字节Hyper-SD:只需 2s 快速生图[4]
  • 一种通过 LoRA 来加速图片生成的技术,正式发布了适用于 Flux 的 Hyper-FLUX.1-dev-8steps-lora.safetensors[5] 和 Hyper-FLUX.1-dev-16steps-lora.safetensors[6]
  • 项目主页:https://hyper-sd.github.io/
  • 在线试用地址:https://huggingface.co/spaces/ByteDance/Hyper-FLUX-8Steps-LoRA
5. 第一个Flux IpAdapter 模型开源[7]
  • 来自 XLabs-AI 的 IP-Adapter 经过 512x512 分辨率(50k 步)和 1024x1024(25k 步)分辨率的训练,适用于 512x512 和 1024x1024 分辨率。
  • 效果还没有 SDXL 和 SD1.5 的好,但值得期待!
  • 项目地址:https://huggingface.co/XLabs-AI/flux-ip-adapter
6. VEnhancer: AI 视频超清修复,已被CogVideoX支持[8]
  • VEnhancer 在统一的框架中实现了空间超分辨率、时间超分辨率(帧插值)和视频优化。
  • 可以灵活地适应不同的上采样因子(例如,1x~8x),以实现空间或时间****超分辨率
  • 提供灵活的控制功能,可以修改细化强度,以处理多样化的视频伪影。
  • 项目地址:https://github.com/Vchitect/VEnhancer
7. FancyVideo:通过跨帧文本指导实现动态且一致的视频生成[9]
  • 360 视觉引擎团队发布的一个文生视频模型,主要解决动作连贯、情节流畅的视频问题。
  • FancyVideo通过精心设计的 Cross-frame Textual Guidance Module (CTGM) 改进了现有的文本控制机制。
  • 项目主页:https://fancyvideo.github.io/
8. TurboEdit:基于文本的实时图像编辑[10]
  • Adobe 研究院发布的能够通过提示词实时编辑照片的技术。
  • 只需 8 Steps 预处理,然后每次修改只需 4 Steps,性能充足的情况下接近实时。
  • 项目主页:https://betterze.github.io/TurboEdit/
9. UniPortrait:统一定制单ID和多ID个性化框架[11]
  • 一种创新的人类图像个性化框架,将单ID和多ID定制与高人脸保真度、广泛的人脸可编辑性、自由格式的输入描述和多样化的布局生成相结合。
  • 仅由两个即插即用模块组成:ID嵌入模块和ID路由模块。
  • 项目主页:https://aigcdesigngroup.github.io/UniPortrait-Page/

10. ControlNeXt:强大而高效的图像和视频生成控制[12]
  • 用于可控生成的官方实现,支持图像和视频,同时包含多种形式的控制信息。
  • 与ControlNet相比,该方法将**可训练参数减少了90%**,实现了更快的收敛和出色的效率。
  • 该方法可以直接与其他LoRA技术结合使用,以改变样式并确保更稳定的生成。
  • 项目主页:https://pbihao.github.io/projects/controlnext/index.html
11. Qwen发布数学语言模型:Qwen2-Math,超越GPT-4o、Claude-3.5[13]
  • Qwen2-Math,旨在提升推理能力,特别是在解决算术和数学问题方面。
  • Qwen2-Math 系列包括 1.5B、7B 和 72B 参数。
  • 基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,这些模型基于大量高质量的数学语料库进行预训练,并通过基于指令的训练微调,以解决复杂的数学问题。
  • 项目地址:https://github.com/QwenLM/Qwen2-Math
12. 谷歌推出Gemini Live:让您的移动设备成为强大的 AI 助手[14]
  • Gemini Live 是一种移动对话体验,可让您与 Gemini 进行自由流畅的对话。
  • 对标 ChatGPT 的语音模式,支持支持打断、深入讨论和暂停后继续对话,提供了 10 种不同的声音,未来会支持 IOS 设备和其他语言。
  • 项目主页:https://blog.google/products/gemini/made-by-google-gemini-ai-updates/
13. 字节发布LLaVA-OneVision:开源多模态大模型[15]
  • 第一个能够在三个重要的计算机视觉场景(单图像、多图像和视频场景)中同时突破开放式 LMM 性能极限的单一模型
  • 允许跨不同模式/场景进行强大的****迁移学习,从而产生新的能力,LLaVA-NeXT 的进化版本
  • 通过从图像到视频的任务转移,展示了强大的视频理解和跨场景能力。
  • 项目地址:https://llava-vl.github.io/blog/2024-08-05-llava-onevision/
14. MiniCPM-V:端侧可用的 GPT-4V 级单图、多图、视频多模态大模型[16]
  • MiniCPM-V系列的最新、性能最佳模型。总参数量 8B,单图、多图和视频理解性能超越了 GPT-4V
  • 在单图理解上,它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现
  • 成为首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型
  • 项目地址:https://github.com/OpenBMB/MiniCPM-V.git
15. InternVideo2:用于多模态视频理解的缩放视频基础模型[17]
  • 一个开源的视频理解模型,拥有 60 亿参数的编码器和超过 4 亿个样本。
  • 在 Kinetics 400 中达到92.1% Top1 准确率。
  • 60多个视频/音频相关任务(包括动作识别、时间定位、检索等)上实现了SOTA性能
  • 项目地址:https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/
16. 智谱清影:开源视频生成模型 CogVideoX-2B[18]
  • 这是首个开源的基于 Transformer 的大型文本生成视频模型。
  • 性能更强,参数量更大的模型正在到来的路上。
  • 项目地址:https://github.com/THUDM/CogVideo.git
17. 重磅!全新开源图像生成模型Flux.1,媲美 Midjourney[19]
  • FLUX.1 是由一众大佬成立的 Black Forest Labs 组织推出的全新生图模型系列,在人手、文字、光影和细节上表现的非常不错,在 ELO 测试上远超 SD3-Ultra 和 Ideogram
  • 项目主页:https://blackforestlabs.ai/announcing-black-forest-labs/

18. Stability AI 推出Stable Fast 3D[20]
  • SF3D 将单个图像作为输入,并在一秒内生成带纹理的 UV 展开 3D 模型
  • SF3D经过明确的网格生成训练,结合了快速 UV 展开技术,可以快速生成纹理,而不是依赖顶点颜色
  • 项目主页:https://stable-fast-3d.github.io/
19. Google推出Gemma2 2B模型能够在手机、笔记本电脑、台式机等边缘设备上运行[21]
  • 利用了知识蒸馏技术,通过从更大、更复杂的模型中学习,将其知识传递到较小的模型中,取得了超出预期的性能表现。
  • 适用于多种文本生成任务,包括问答、摘要和推理
  • 项目主页:https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/
20. MindSearch:模仿人类思维引发深度AI搜索[22]
  • MindSearch 是一款具有 Perplexity.ai Pro 性能的开源 AI 搜索引擎框架
  • 可以自由的使用闭源或开源 LLM,在深度、广度和生成响应的准确性三个方面均超越 ChatGPT-Web 和 Perplexity.ai (Pro)
  • 项目主页:https://github.com/InternLM/MindSearch
技术交流

加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!

更多精彩内容,尽在「魔方AI空间」,关注了解全栈式 AIGC内容!!

推荐阅读

AIGCmagic社区共建邀请函!

万字长文 | AIGC时代算法工程师的面试秘籍(2024.5.13-5.26第十四式)

AIGC | 「视频生成」系列之Suno制作MV视频工作流分享(保姆级)

AIGC|一文梳理「AI视频生成」技术核心基础知识和模型应用

AIGC潮流:2023年的冲击与2024年的趋势预测

AIGC|OpenAI文生视频大模型Sora技术拆解(含全网资料汇总)

Reference
[1]

AIGCmagic社区: https://a1qjvipthnf.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd?from=from_copylink

[2]

Magic最新消息:LTM-2-Mini 第一个100M Token 上下文的模型: https://magic.dev/blog/100m-token-context-windows

[3]

阿里发布最新视觉语言模型:Qwen2-Vl 更清晰地看世界: https://qwenlm.github.io/zh/blog/qwen2-vl/

[4]

字节Hyper-SD:只需 2s 快速生图: https://huggingface.co/spaces/ByteDance/Hyper-FLUX-8Steps-LoRA

[5]

Hyper-FLUX.1-dev-8steps-lora.safetensors: https://huggingface.co/ByteDance/Hyper-SD/blob/main/Hyper-FLUX.1-dev-8steps-lora.safetensors

[6]

Hyper-FLUX.1-dev-16steps-lora.safetensors: https://huggingface.co/ByteDance/Hyper-SD/blob/main/Hyper-FLUX.1-dev-16steps-lora.safetensors

[7]

第一个Flux IpAdapter 模型开源: https://huggingface.co/XLabs-AI/flux-ip-adapter

[8]

VEnhancer: AI 视频超清修复,已被CogVideoX支持: https://github.com/Vchitect/VEnhancer

[9]

FancyVideo:通过跨帧文本指导实现动态且一致的视频生成: https://fancyvideo.github.io/

[10]

TurboEdit:基于文本的实时图像编辑: https://betterze.github.io/TurboEdit/

[11]

UniPortrait:统一定制单ID和多ID个性化框架: https://aigcdesigngroup.github.io/UniPortrait-Page/

[12]

ControlNeXt:强大而高效的图像和视频生成控制: https://pbihao.github.io/projects/controlnext/index.html

[13]

Qwen发布数学语言模型:Qwen2-Math,超越GPT-4o、Claude-3.5: https://github.com/QwenLM/Qwen2-Math

[14]

谷歌推出Gemini Live:让您的移动设备成为强大的 AI 助手: https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

[15]

字节发布LLaVA-OneVision:开源多模态大模型: https://llava-vl.github.io/blog/2024-08-05-llava-onevision/

[16]

MiniCPM-V:端侧可用的 GPT-4V 级单图、多图、视频多模态大模型: https://github.com/OpenBMB/MiniCPM-V.git

[17]

InternVideo2:用于多模态视频理解的缩放视频基础模型: https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/

[18]

智谱清影:开源视频生成模型 CogVideoX-2B: https://github.com/THUDM/CogVideo.git

[19]

重磅!全新开源图像生成模型Flux.1,媲美 Midjourney: https://blackforestlabs.ai/announcing-black-forest-labs/

[20]

Stability AI 推出Stable Fast 3D: https://stable-fast-3d.github.io/

[21]

Google推出Gemma2 2B模型能够在手机、笔记本电脑、台式机等边缘设备上运行: https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

[22]

MindSearch:模仿人类思维引发深度AI搜索: https://github.com/InternLM/MindSearch

魔方AI空间
AI技术从业者与爱好者,专注于计算机视觉、深度学习、行为识别、多模态、边缘智能等前沿科技成果的研究和技术分享!
 最新文章