点击下方卡片,关注「魔方AI空间」公众号
“写在前面
【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容,目的是让读者站在AI时代的最前沿,紧跟时代发展的步伐,自信而坚定地跟随AI技术的最新趋势。
此外,猫先生也会根据读者的反馈,持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议,一起交流和学习,共同推动专栏的完善和成长!💪
大家好,我是猫先生,AI技术爱好者与深耕者!!
阅读猫先生整理的《魔方AI新视界》专栏,您将获得以下宝贵收获:
前沿技术洞察:深入了解AIGC行业的核心技术动向,涵盖AI绘画、AI视频、大型模型、多模态技术以及数字人等领域的最新进展,让您始终站在技术发展的最前沿。 职业发展助力:在专栏中发现那些能够激发创新灵感的关键技术和应用案例,这些内容对您的职业发展具有重要意义,帮助您在专业领域中取得突破。 紧跟时代潮流:通过专栏,您将能够准确把握时代的脉搏,自信而坚定地跟随AI技术的最新趋势,确保您在快速发展的AI时代中保持竞争力。
《魔方AI新视界》不仅是一个信息的汇聚地,更是一个促进思考、激发创新的平台,猫先生期待与您一起探索AI的无限可能。
本文是《魔方AI新视界》专栏的第三期,周期为2024年7月1日-2024年7月31日。在本期中,猫先生将采用精炼而扼要的语言,对AI领域的前沿技术进行介绍,并提供详情链接,以便于您能够进一步探索和学习。
“本文整理自《AIGCmagic社区飞书知识库》的每周AI大事件板块,飞书主页地址:AIGCmagic社区[1],欢迎大家点赞评论!!
往期回顾
本期速览
1. 全球上线 | Vidu 一下,让想象变成现实!
2. Stable Video 4D 正式上线
3. 智谱 CogVideoX:视频生成模型
4. Llama 3.1 发布:超越GPT-4o
5. Odyssey:《我的世界》构建通用智能体
6. IoA:让智能体像人类一样在互联网上进行协作
7. 阿里发布Qwen2-Audio:一个大规模音频语言模型
8. IMAGDressing-v1:可定制的虚拟试衣
9. DiffIR2VR-Zero:模糊视频8K高清修复技术
10. 快手的LivePortrait:肖像动画框架 | 可精准控制眼睛和嘴唇动作
11. 阿里开源EchoMimic: 又一数字人头技术 | 肖像动画框架
12. Odyssey:好莱坞级的AI视频生成和编辑工具
13. TTT:超越Transformer和Mamba的新架构诞生了?
14. FoleyCrafter:自动为视频配音 | 开源AI配音技术 | AI视频有声时代真的来了
15. 商汤重磅推出Vimi——亮相WAIC,成为“镇馆之宝” | 2024世界人工智能大会
16. 快手「可灵AI」Web端平台上线及全新功能限时免费
正文开始
全球上线 | Vidu 一下,让想象变成现实![2]
🌎 2024年7月30日:Vidu 全球上线 | 注册即刻体验
⚡️极速生成:30秒最快推理速度
🤩 动漫风格:万物皆可二次元
😸 角色可控:任意场景、任何动作,角色保持一致
🎬 大片质感:电影级画面一键直出
👓 动态特效:立省百万制作费
🎥 精准理解:镜头、文字、动作,理解更准、生成更稳
🔍 Web 端访问:https://www.vidu.studio/
Stable Video 4D 正式上线[3]
SV4D将参考视频作为输入并生成新颖的视图视频和 4D 模型 40 秒内生成 8 个新视角的 5 帧视频,而整个 4D 优化过程大约需要 20 到 25 分钟 将对未来的 3D 和 4D 影片制作带来巨大的影响。 项目地址:https://sv4d.github.io/
暂时无法在飞书文档外展示此内容
智谱 CogVideoX:视频生成模型[4]
由智谱 AI 开发的视频生成大模型,仅需 30 秒即可完成 6 秒视频的生成 具备强大的视频生成能力、只需输入文本或图片就可以轻松完成视频制作 还提供了API,单次价格为 0.5 元,支持文生视频、图生视频 项目地址:https://chatglm.cn/video
Llama 3.1 发布:超越GPT-4o[5]
有405B、70B、8B三种模型 支持多语言和工具调用,性能媲美 GPT-4 未来会支持图/视频识别和语音交互 训练使用了 16000 个 H100 GPU 开源许可更新,允许使用其输出训练其他模型 项目地址:https://github.com/meta-llama/llama3
Odyssey:《我的世界》构建通用智能体[6]
具有开放世界技能库的交互式代理,其中包含 40 种原始技能和 183 种组合技能 经过微调的 LLaMA-3 模型,在大型问答数据集上进行训练,该数据集包含来自 Minecraft Wiki 的 39 万多个指令条目 一个新的开放世界基准包括数千个长期规划任务、数十个动态即时规划任务和一个自主探索任务 项目地址:https://github.com/zju-vipa/odyssey
IoA:让智能体像人类一样在互联网上进行协作[7]
想象一下,如果AI 智能体可以像人类在互联网上那样进行协作。这就是 IoA 背后的想法! 一个开源框架,旨在创建一个平台,让不同的AI 智能体可以组队处理复杂的任务。 项目地址:https://github.com/OpenBMB/IoA
阿里发布Qwen2-Audio:一个大规模音频语言模型[8]
能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本。 两种不同的音频交互模式:语音聊天voice chat和音频分析audio analysis 项目地址:https://github.com/QwenLM/Qwen2-Audio.git
IMAGDressing-v1:可定制的虚拟试衣[9]
简单的架构:可制作栩栩如生的服装,并支持简单的用户驱动场景编辑。 新任务:定义虚拟着装(VD)任务并设计综合亲和力指标(CAMI)指标。 灵活的插件兼容性:IMAGDressing-v1 与 IP-Adapter、ControlNet、T2I-Adapter 和 AnimateDiff 等扩展插件适度集成。 快速定制:无需额外的 LoRA 培训即可在几秒钟内实现快速定制。 IGPair 数据集:发布新的交互式服装搭配 (IGPair) 数据集。 项目地址:https://imagdressing.github.io/
DiffIR2VR-Zero:模糊视频8K高清修复技术
一种创新的零样本视频恢复技术,该技术利用预训练的图像恢复模型,解决了传统方法在不同场景下泛化能力不足的问题。 项目地址:https://github.com/jimmycv07/DiffIR2VR-Zero
DiffIR2VR-Zero
快手的LivePortrait:肖像动画框架 | 可精准控制眼睛和嘴唇动作
它能够从单一图像生成生动的动画视频,并能精确控制眼睛和嘴唇的动作,确保动画的自然流畅。 还可以处理多个人物肖像的无缝拼接,确保在多个动态人物之间过渡平滑,不会产生突兀的边界效果。 弃用扩散方法,而是探索和扩展基于隐式关键点框架的潜力,有效地平衡了计算效率和可控性。 项目主页:https://liveportrait.github.io/
阿里开源EchoMimic: 又一数字人头技术 | 肖像动画框架
与LivePortrait不同,EchoMimic 不仅能通过参考表情生成视频,还能够通过音频匹配对应口型,还支持将两者混用,即通过音频控制口型,通过 landmarks 来控制姿势和表情。
项目主页:https://badtobest.github.io/echomimic.html
Odyssey:好莱坞级的AI视频生成和编辑工具
OdysseyML 正在构建好莱坞级的视觉人工智能,使故事讲述者能够创作出新的、令人惊叹的电影、电视节目和视频游戏。 OdysseyML 正在训练四个生成模型,以生成高质量几何图形、逼真的材质、惊人的灯光效果和可控的动作,从而实现对视觉故事核心层次的完全控制。 官方地址:https://odyssey.systems/
TTT:超越Transformer和Mamba的新架构诞生了?
测试时间训练(Test-Time Training,TTT) 是由斯坦福大学、加州大学和Meta Al共同研究的一种新型的语言模型(LLM)架构,这种模型可以处理更长的文本内容,性能优于现有的Mamba和Transformer模型。 论文地址:https://arxiv.org/pdf/2407.04620
FoleyCrafter:自动为视频配音 | 开源AI配音技术 | AI视频有声时代真的来了
FoleyCrafter 是一种基于文本的视频到音频生成框架,可以生成语义相关且与输入视频时间同步的高质量音频。 它不只是能为视频配音配音效,还能为静音的视频生成契合的音频,同时还能同步视频时间轴语义相关的音效,简单来说就是可以让无声的视频变有声,且高度契合。 项目地址:https://foleycrafter.github.io/
商汤重磅推出Vimi——亮相WAIC,成为“镇馆之宝” | 2024世界人工智能大会
摘要:可控人物视频生成算法模型 Vimi 是首个可控人物视频生成AIGC产品。基于商汤日日新大模型能力,它可以通过动作视频、动画、声音、文字等多种驱动元素来驱动人物类图片,从而生成和目标动作一致的人物类视频。 内测申请:https://vme-int.softsugar.com/questionnaire/
快手「可灵AI」Web端平台上线及全新功能限时免费
文生视频:画质升级,单次10s视频生成; 图生视频:画质提升,支持自定义首尾帧; 运镜控制:提供丰富的镜头控制选项,大师级运镜方; 视频编辑:Web 端平台支持提供“首尾帧”及“运镜控制”功能。 项目地址:https://klingai.kuaishou.com/
技术交流
加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!
更多精彩内容,尽在「魔方AI空间」,关注了解全栈式 AIGC内容!!
推荐阅读
• 万字长文 | AIGC时代算法工程师的面试秘籍(2024.5.13-5.26第十四式)
• AIGC | 「视频生成」系列之Suno制作MV视频工作流分享(保姆级)
• AIGC|一文梳理「AI视频生成」技术核心基础知识和模型应用
• AIGC|OpenAI文生视频大模型Sora技术拆解(含全网资料汇总)
AIGCmagic社区: https://a1qjvipthnf.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd?from=from_copylink
[2]全球上线 | Vidu 一下,让想象变成现实!: http://www.vidu.studio
[3]Stable Video 4D 正式上线: https://sv4d.github.io/
[4]智谱 CogVideoX:视频生成模型: https://chatglm.cn/video
[5]Llama 3.1 发布:超越GPT-4o: https://github.com/meta-llama/llama3
[6]Odyssey:《我的世界》构建通用智能体: https://github.com/zju-vipa/odyssey
[7]IoA:让智能体像人类一样在互联网上进行协作: https://github.com/OpenBMB/IoA
[8]阿里发布Qwen2-Audio:一个大规模音频语言模型: https://github.com/QwenLM/Qwen2-Audio.git
[9]IMAGDressing-v1:可定制的虚拟试衣: https://imagdressing.github.io/