AIGC 月刊 | 技术革新与应用案例(2024.7月第三期)【魔方AI新视界】

2024-08-01 06:59   北京  

点击下方卡片,关注「魔方AI空间」公众号

写在前面

【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容,目的是让读者站在AI时代的最前沿,紧跟时代发展的步伐,自信而坚定地跟随AI技术的最新趋势。

此外,猫先生也会根据读者的反馈,持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议,一起交流和学习,共同推动专栏的完善和成长!💪

大家好,我是猫先生,AI技术爱好者与深耕者!!

阅读猫先生整理的《魔方AI新视界》专栏,您将获得以下宝贵收获:

  1. 前沿技术洞察:深入了解AIGC行业的核心技术动向,涵盖AI绘画、AI视频、大型模型、多模态技术以及数字人等领域的最新进展,让您始终站在技术发展的最前沿。
  2. 职业发展助力:在专栏中发现那些能够激发创新灵感的关键技术和应用案例,这些内容对您的职业发展具有重要意义,帮助您在专业领域中取得突破。
  3. 紧跟时代潮流:通过专栏,您将能够准确把握时代的脉搏,自信而坚定地跟随AI技术的最新趋势,确保您在快速发展的AI时代中保持竞争力。

《魔方AI新视界》不仅是一个信息的汇聚地,更是一个促进思考、激发创新的平台,猫先生期待与您一起探索AI的无限可能。

本文是《魔方AI新视界》专栏的第三期,周期为2024年7月1日-2024年7月31日。在本期中,猫先生将采用精炼而扼要的语言,对AI领域的前沿技术进行介绍,并提供详情链接,以便于您能够进一步探索和学习。

本文整理自《AIGCmagic社区飞书知识库》的每周AI大事件板块,飞书主页地址:AIGCmagic社区[1],欢迎大家点赞评论!!

AIGCmagic社区飞书知识库

往期回顾

本期速览

1. 全球上线 | Vidu 一下,让想象变成现实!
2. Stable Video 4D 正式上线
3. 智谱 CogVideoX:视频生成模型
4. Llama 3.1 发布:超越GPT-4o
5. Odyssey:《我的世界》构建通用智能体
6. IoA:让智能体像人类一样在互联网上进行协作
7. 阿里发布Qwen2-Audio:一个大规模音频语言模型
8. IMAGDressing-v1:可定制的虚拟试衣
9. DiffIR2VR-Zero:模糊视频8K高清修复技术
10. 快手的LivePortrait:肖像动画框架 | 可精准控制眼睛和嘴唇动作
11. 阿里开源EchoMimic: 又一数字人头技术 | 肖像动画框架
12. Odyssey:好莱坞级的AI视频生成和编辑工具
13. TTT:超越Transformer和Mamba的新架构诞生了?
14. FoleyCrafter:自动为视频配音 | 开源AI配音技术 | AI视频有声时代真的来了
15. 商汤重磅推出Vimi——亮相WAIC,成为“镇馆之宝” | 2024世界人工智能大会
16. 快手「可灵AI」Web端平台上线及全新功能限时免费

正文开始

全球上线 | Vidu 一下,让想象变成现实![2]

🌎 2024年7月30日:Vidu 全球上线 | 注册即刻体验

⚡️极速生成:30秒最快推理速度

🤩 动漫风格:万物皆可二次元

😸 角色可控:任意场景、任何动作,角色保持一致

🎬 大片质感:电影级画面一键直出

👓 动态特效:立省百万制作费

🎥 精准理解:镜头、文字、动作,理解更准、生成更稳

🔍 Web 端访问:https://www.vidu.studio/

Vidu

Stable Video 4D 正式上线[3]

  • SV4D将参考视频作为输入并生成新颖的视图视频和 4D 模型
  • 40 秒内生成 8 个新视角的 5 帧视频,而整个 4D 优化过程大约需要 20 到 25 分钟
  • 将对未来的 3D 和 4D 影片制作带来巨大的影响。
  • 项目地址:https://sv4d.github.io/

暂时无法在飞书文档外展示此内容

智谱 CogVideoX:视频生成模型[4]

  • 智谱 AI 开发的视频生成大模型,仅需 30 秒即可完成 6 秒视频的生成
  • 具备强大的视频生成能力、只需输入文本或图片就可以轻松完成视频制作
  • 还提供了API,单次价格为 0.5 元,支持文生视频、图生视频
  • 项目地址:https://chatglm.cn/video
CogVideoX

Llama 3.1 发布:超越GPT-4o[5]

  • 有405B、70B、8B三种模型
  • 支持多语言和工具调用,性能媲美 GPT-4
  • 未来会支持图/视频识别和语音交互
  • 训练使用了 16000 个 H100 GPU
  • 开源许可更新,允许使用其输出训练其他模型
  • 项目地址:https://github.com/meta-llama/llama3
Llama 3.1

Odyssey:《我的世界》构建通用智能体[6]

  • 具有开放世界技能库的交互式代理,其中包含 40 种原始技能和 183 种组合技能
  • 经过微调的 LLaMA-3 模型,在大型问答数据集上进行训练,该数据集包含来自 Minecraft Wiki 的 39 万多个指令条目
  • 一个新的开放世界基准包括数千个长期规划任务、数十个动态即时规划任务和一个自主探索任务
  • 项目地址:https://github.com/zju-vipa/odyssey
Odyssey:《我的世界》

IoA:让智能体像人类一样在互联网上进行协作[7]

  • 想象一下,如果AI 智能体可以像人类在互联网上那样进行协作。这就是 IoA 背后的想法!
  • 一个开源框架,旨在创建一个平台,让不同的AI 智能体可以组队处理复杂的任务。
  • 项目地址:https://github.com/OpenBMB/IoA
IoA

阿里发布Qwen2-Audio:一个大规模音频语言模型[8]

  • 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本。
  • 两种不同的音频交互模式:语音聊天voice chat和音频分析audio analysis
  • 项目地址:https://github.com/QwenLM/Qwen2-Audio.git
Qwen2-Audio

IMAGDressing-v1:可定制的虚拟试衣[9]

  • 简单的架构:可制作栩栩如生的服装,并支持简单的用户驱动场景编辑。
  • 新任务:定义虚拟着装(VD)任务并设计综合亲和力指标(CAMI)指标。
  • 灵活的插件兼容性:IMAGDressing-v1 与 IP-Adapter、ControlNet、T2I-Adapter 和 AnimateDiff 等扩展插件适度集成。
  • 快速定制:无需额外的 LoRA 培训即可在几秒钟内实现快速定制。
  • IGPair 数据集:发布新的交互式服装搭配 (IGPair) 数据集。
  • 项目地址:https://imagdressing.github.io/
IMAGDressing-v1

DiffIR2VR-Zero:模糊视频8K高清修复技术

  • 一种创新的零样本视频恢复技术,该技术利用预训练的图像恢复模型,解决了传统方法在不同场景下泛化能力不足的问题。
  • 项目地址:https://github.com/jimmycv07/DiffIR2VR-Zero

DiffIR2VR-Zero

快手的LivePortrait:肖像动画框架 | 可精准控制眼睛和嘴唇动作

  • 它能够从单一图像生成生动的动画视频,并能精确控制眼睛和嘴唇的动作,确保动画的自然流畅。
  • 还可以处理多个人物肖像的无缝拼接,确保在多个动态人物之间过渡平滑,不会产生突兀的边界效果。
  • 弃用扩散方法,而是探索和扩展基于隐式关键点框架的潜力,有效地平衡了计算效率和可控性。
  • 项目主页:https://liveportrait.github.io/
LivePortrait

阿里开源EchoMimic: 又一数字人头技术 | 肖像动画框架

  • 与LivePortrait不同,EchoMimic 不仅能通过参考表情生成视频,还能够通过音频匹配对应口型,还支持将两者混用,即通过音频控制口型,通过 landmarks 来控制姿势和表情。

  • 项目主页:https://badtobest.github.io/echomimic.html
EchoMimic

Odyssey:好莱坞级的AI视频生成和编辑工具

  • OdysseyML 正在构建好莱坞级的视觉人工智能,使故事讲述者能够创作出新的、令人惊叹的电影、电视节目和视频游戏。
  • OdysseyML 正在训练四个生成模型,以生成高质量几何图形、逼真的材质、惊人的灯光效果和可控的动作,从而实现对视觉故事核心层次的完全控制。
  • 官方地址:https://odyssey.systems/
OdysseyML

TTT:超越Transformer和Mamba的新架构诞生了?

  • 测试时间训练(Test-Time Training,TTT) 是由斯坦福大学、加州大学和Meta Al共同研究的一种新型的语言模型(LLM)架构,这种模型可以处理更长的文本内容,性能优于现有的Mamba和Transformer模型。
  • 论文地址:https://arxiv.org/pdf/2407.04620
TTT

FoleyCrafter:自动为视频配音 | 开源AI配音技术 | AI视频有声时代真的来了

  • FoleyCrafter 是一种基于文本的视频到音频生成框架,可以生成语义相关且与输入视频时间同步的高质量音频。
  • 它不只是能为视频配音配音效,还能为静音的视频生成契合的音频,同时还能同步视频时间轴语义相关的音效,简单来说就是可以让无声的视频变有声,且高度契合。
  • 项目地址:https://foleycrafter.github.io/
img

商汤重磅推出Vimi——亮相WAIC,成为“镇馆之宝” | 2024世界人工智能大会

  • 摘要:可控人物视频生成算法模型 Vimi 是首个可控人物视频生成AIGC产品。基于商汤日日新大模型能力,它可以通过动作视频、动画、声音、文字等多种驱动元素来驱动人物类图片,从而生成和目标动作一致的人物类视频。
  • 内测申请:https://vme-int.softsugar.com/questionnaire/
Vimi

快手「可灵AI」Web端平台上线及全新功能限时免费

  • 文生视频:画质升级,单次10s视频生成;
  • 图生视频:画质提升,支持自定义首尾帧;
  • 运镜控制:提供丰富的镜头控制选项,大师级运镜方;
  • 视频编辑:Web 端平台支持提供“首尾帧”及“运镜控制”功能。
  • 项目地址:https://klingai.kuaishou.com/
可灵AI

技术交流

加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!

更多精彩内容,尽在「魔方AI空间」,关注了解全栈式 AIGC内容!!

推荐阅读

AIGCmagic社区共建邀请函!

万字长文 | AIGC时代算法工程师的面试秘籍(2024.5.13-5.26第十四式)

AIGC | 「视频生成」系列之Suno制作MV视频工作流分享(保姆级)

AIGC|一文梳理「AI视频生成」技术核心基础知识和模型应用

AIGC潮流:2023年的冲击与2024年的趋势预测

AIGC|OpenAI文生视频大模型Sora技术拆解(含全网资料汇总)

参考资料
[1]

AIGCmagic社区: https://a1qjvipthnf.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd?from=from_copylink

[2]

全球上线 | Vidu 一下,让想象变成现实!: http://www.vidu.studio

[3]

Stable Video 4D 正式上线: https://sv4d.github.io/

[4]

智谱 CogVideoX:视频生成模型: https://chatglm.cn/video

[5]

Llama 3.1 发布:超越GPT-4o: https://github.com/meta-llama/llama3

[6]

Odyssey:《我的世界》构建通用智能体: https://github.com/zju-vipa/odyssey

[7]

IoA:让智能体像人类一样在互联网上进行协作: https://github.com/OpenBMB/IoA

[8]

阿里发布Qwen2-Audio:一个大规模音频语言模型: https://github.com/QwenLM/Qwen2-Audio.git

[9]

IMAGDressing-v1:可定制的虚拟试衣: https://imagdressing.github.io/


魔方AI空间
AI技术从业者与爱好者,专注于计算机视觉、深度学习、行为识别、多模态、边缘智能等前沿科技成果的研究和技术分享!
 最新文章