AI Art Weekly | AI 艺术周刊 #46

文摘   科技   2024-10-28 07:40   北京  

欢迎大家踏入本期的《AI艺术周刊》。在这里,我们将一同探讨每周人工智能的最新进展,及其如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和在实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。
* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏

🌟 本期要闻

RunwayML: 全新的 Runway 震撼发布

https://runwayml.com/research/introducing-act-one

RunwayML 本周发布了新工具 Act-One,一款可以从录制的视频表演中生成角色动画的工具,无需昂贵的动捕设备。其主要功能包括:
  • 从视频和语音生成动画

  • 保留面部表情

  • 支持多种角色类型及对话场景

  • 生成电影般的画面效果

需要注意的是,这并非简单的“视频转视频”,而是“表演转视频”。用户只需提供角色图像和表演录制,其余工作都由 Act-One 完成。(目前仅限少数内测用户使用,但很快将向公众开放)

注: RunwayML 示例

Genmo:推出了全新 Mochi 1

https://www.genmo.ai/blog

Genmo 推出了 Mochi 1,这是一款最新的开源视频生成模型,采用 Apache 2.0 许可证。该模型拥有 100 亿参数,提供高质量的动态效果和出色的指令响应度,性能媲美一些闭源模型。主要特点包括:

  • 480p 分辨率,30 帧/秒,最长支持 5.4 秒
  • 出色的指令响应和逼真的运动效果


Mochi 1 Preview 已在 Genmo 的试玩平台上免费开放,也可在 HuggingFace 下载。Genmo 计划今年晚些时候发布支持 720p 的 Mochi 1 HD,并新增图像转视频和更强的可控性功能

https://www.genmo.ai/play
https://huggingface.co/genmo/mochi-1-preview
注: Mochi 1 示例
Stable Diffusion 3.5
https://stability.ai/news/introducing-stable-diffusion-3-5

Stability 推出了 Stable Diffusion 3.5,包含两个模型:Large 和 Large Turbo,具备 80 亿参数和 1 百万像素分辨率。 据悉一个拥有 25 亿参数的 Medium 模型也将于 10 月 29 日发布。这些模型具有高度可定制性,改进了指令响应度,并且允许年收入在 100 万美元以下的商业用途。该模型现已在 Hugging Face 上发布,同时也可通过 Replicate 和 Fal.ai 等多个平台使用

https://huggingface.co/collections/stabilityai/stable-diffusion-35-671785cca799084f71fa2838
https://replicate.com/stability-ai/stable-diffusion-3.5-large
注: Stable Diffusion 3.5 示例
Midjourney:迎来重要更新
https://www.midjourney.com/
Midjourney 推出了全新的图像编辑器,终于实现了对已有图像的编辑功能。同时,此次更新还加入了图像重纹理化功能,使用户能够细致调整和优化图像的质感和细节,为创作增添了更多灵活性与可能性。尽管图像重纹理化技术并非全新,开源社区早在两年前便已借助修复和 ControlNet 等工具实现,但 Midjourney 优秀的用户体验设计让这一功能对技术门槛较低的用户也极具吸引力
注: Midjourney 示例
DepthSplat:融合高斯散点与深度估计的 3D 场景重建技术
https://haofeixu.github.io/depthsplat/
DepthSplat 能通过将高斯散点和深度估计结合,从少量图像中重建 3D 场景
注: DepthSplat 示例
DreamCraft3D++:高效的分层 3D 生成与多平面重建模型解决方案

https://dreamcraft3dplus.github.io/

DreamCraft3D++ 能在 10 分钟内从图像生成可动画的高质量 3D 资产

注: DreamCraft3D++ 示例

LVSM:具备最小 3D 归纳偏差的大视图合成模型
https://haian-jin.github.io/projects/LVSM
LVSM 能从少量输入图像中生成高质量的 3D 视图,用于展示物体和场景

注: LVSM 示例

MagicTailor:文本到图像扩散模型中的组件可控个性化方案

https://correr-zhou.github.io/MagicTailor/

MagicTailor 能在文本到图像扩散模型中重复使用图像的特定部分,提升图像质量,同时清晰保持主体特征并减少语义污染

注: MagicTailor 示例

L3DG:潜在 3D 高斯扩散模型

https://barbararoessle.github.io/l3dg/

L3DG 能生成 3D 物体及完整的房间 3D 场景

注: L3DG 示例

CamI2V:摄像头控制的图像到视频扩散模型
https://zgctroy.github.io/CamI2V/
CamI2V 能从图像生成视频,并对摄像头移动和文本提示进行精确控制

注: CamI2V 示例

VidPanos:从随手拍摄的视频生成沉浸式全景视频

https://vidpanos.github.io/

VidPanos 能将平移视频转换为沉浸式全景视频。通过外延绘制填补缺失部分,实现包含动态场景、移动物体和流水的生动画面效果

注: VidPanos 示例

DreamVideo-2:零样本主体驱动的视频定制与精准运动控制

https://dreamvideo2.github.io/

DreamVideo-2 可通过单张图像和边界框生成视频,支持特定主体和运动路径。该模型通过掩码参考注意力和重加权扩散损失来增强主体学习和运动控制

注: DreamVideo-2 示例

DAWN:面向对话视频生成的动态帧虚拟头像非自回归扩散框架
https://hanbo-cheng.github.io/DAWN/
DAWN 能从单张人像和音频片段生成对话视频,快速生成嘴唇运动和头部姿态,非常适合创建长视频序列

注: FlexGen 示例

MuVi:基于语义对齐和节奏同步的视频到音乐生成模型
https://muvi-v2m.github.io/
MuVi 能通过分析视频的关键特征,生成与视觉内容相匹配的音乐。该模型采用特殊的训练方法实现节奏同步,并能控制音乐的风格和类型

注: MuVi 示例

⚒️ 工具与教程:

Verse BeneathVerse Below

@SeifAbdalla_ 创作了这部美妙的 AI 短片,配乐选用了 Olafur Arnalds 的作品。我特别喜欢其中的光影效果,格外动人

https://huggingface.co/spaces/innova-ai/video-background-removal

《Guardians of the kingdom》
本周在闲暇时,我运用 Midjourney + PS + tripo3d 打造了一款独具匠心的国际象棋设计,希望你们喜欢

如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!

注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态
▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!

设计师的自我修行
创意— 并非要让人惊奇它崭新的形式和素材, 而是应让人惊异它源自最平凡的生活。
 最新文章