AI Art Weekly | AI 艺术周刊 #45

文摘   科技   2024-10-21 07:30   北京  

欢迎大家踏入本期的《AI艺术周刊》。在这里,我们将一同探讨每周人工智能的最新进展,及其如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和在实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。
* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏

🌟 本期要闻

Adobe MAX 2024: 新的 Adobe 全家桶现已来袭

https://blog.adobe.com/en/publish/2024/10/14/adobe-max-2024-more-power-creators

在 Adobe MAX 2024 大会上,Adobe 发布了其软件套件的重大AI更新。以下是一些最令人兴奋的亮点:

  • Firefly:可以通过文本和图像生成视频及视觉效果

  • Photoshop:增强的干扰移除功能以及新的“生成相似”功能(类似于Midjourney的变体功能)

  • Premiere Pro:通过新的 Adobe Firefly 视频模型,实现无缝帧扩展的生成式扩展功能

  • Illustrator:现在可以在 3D 空间中旋转矢量

  • Project Neo:基于 Web 的 3D 编辑器,能够转换为 2D 矢量,或用于图像到图像的转换


注: Firefly 示例

GS^3:使用三重高斯投影实现高效实时光照

https://gsrelight.github.io/
GS^3 通过三重高斯投影技术,能够对场景进行实时的光照调整。该方法可以从多张图像中生成高质量的光照效果和视角合成,并且在单个 GPU 上以每秒 90 帧的速度运行,性能极为出色
注: GS^3 示例

SceneCraft:基于布局引导的 3D 场景生成
https://orangesodahub.github.io/SceneCraft/
SceneCraft 可以根据用户提供的布局和文本描述生成详细的室内 3D 场景。它能够将 3D 布局转化为 2D 地图,生成具有多样纹理和逼真视觉效果的复杂空间
注: SceneCraft 示例
Long-LRM:广覆盖高斯投影的长序列大规模重建模型
https://arthurhero.github.io/projects/llrm
Long-LRM 能够从多达 32 张输入图像中快速重建大规模 3D 场景,图像分辨率为 960x540,并且在单个 A100 80G GPU 上仅需 1.3 秒即可完成重建
注: Long-LRM 示例
ControlMM:可控遮罩运动生成
https://exitudio.github.io/ControlMM-page/
ControlMM 通过在运动模型中使用空间控制信号,能够实时生成高质量的运动。其速度比其他方法快 20 倍,并且可以对身体部位、时间线进行控制,还能够避开障碍物
注: ControlMM 示例
InterMask:通过协同遮罩建模生成 3D 人类互动

https://gohar-malik.github.io/intermask/

InterMask 能够根据文本描述生成高质量的 3D 人类互动场景。它可以捕捉两个人之间的复杂动作,同时允许生成反应动作,而无需更改模型

注: InterMask 示例

HART:高效视觉生成的混合自回归 Transformer 模型

https://hanlab.mit.edu/projects

HART 是一种自回归 Transformer 模型,能够以比 SD3-Medium 快 3 倍的速度从文本生成高质量的 1024x1024 图像

注: HART 示例

EfficientViT:用于高效高分辨率扩散模型的深度压缩自动编码器

https://github.com/mit-han-lab/efficientvit

EfficientViT 通过数据压缩(压缩比高达128)加速高分辨率扩散模型,同时保持良好的图像质量。与其他自动编码器相比,它在 ImageNet 512x512 数据集上的推理速度提升了 19.1 倍,训练速度提升了 17.9 倍

注: EfficientViT 示例

CtrLoRA:可扩展且高效的可控图像生成框架

https://github.com/xyfJASON/ctrlora

CtrLoRA 能够在不到一小时的训练时间内,使用 1,000 对数据在单个 GPU 上适配基础的ControlNet 进行图像生成。它将可学习参数减少了 90%,大大简化了创建新的引导条件的过程

注: CtrLoRA 示例

MambaPainter:一步实现神经笔触渲染
https://github.com/STomoya/MambaPainter
MambaPainter 能够通过一次性预测超过 100 个笔触,将图像转化为油画风格

注: MambaPainter 示例

SGEdit:基于场景图的图像编辑,将大语言模型与文本生成图像模型相结合

https://bestzzhang.github.io/SGEdit/

SGEdit 能够在保持图像质量一致的情况下,添加、删除、替换和调整图像中的对象,实现高质量的场景图像编辑

注: SGEdit 示例

UniCon Diffusion:统一扩散式条件生成图像的简易方法

https://lixirui142.github.io/unicon-diffusion

UniCon 能够通过一个统一框架处理不同的图像生成任务。它仅需增加约 15% 的额外参数即可适配预训练的图像扩散模型,并支持大多数基础 ControlNet 的转换操作

注: UniCon 示例

FlexGen:灵活的多视角生成,支持文本和图像输入
https://xxu068.github.io/flexgen.github.io/
FlexGen 能够根据单视角图像或文本提示生成高质量的多视角图像。它允许用户修改未见区域,并调整材质属性,如金属感和粗糙度,从而提升对最终图像的控制

注: FlexGen 示例

Set AutoRegressive Modeling:定制你的视觉自回归生成方案
https://poppuppy.github.io/sar.github.io/
Set AutoRegressive Modeling 是一种自回归建模技术,支持图像的局部修复(inpainting)和扩展(outpainting),并能够生成任意分辨率的逼真照片级图像

注: Set AutoRegressive Modeling 示例

Tex4D:基于视频扩散模型的零样本 4D 场景纹理生成
https://tex4d.github.io/
Tex4D 能够根据文本提示为未加纹理的网格序列生成 4D 纹理。它结合了 3D 几何与视频扩散模型,确保在不同视角和帧之间纹理的一致性

注: Tex4D 示例

Depth Any Video:高分辨率视频深度图生成方案
https://depthanyvideo.github.io/
Depth Any Video 能够为视频生成高分辨率的深度图。它使用了包含 40,000 个标注片段的大型数据集来提高准确性,并采用了一种方法,能够在多达 150 帧的序列中进行更精确的深度推断

注: Depth Any Video 示例

Hallo2:音频驱动的长时高分辨率肖像动画生成方案
https://fudan-generative-vision.github.io/hallo2/#/
Hallo2 能够生成由音频驱动的长时间、高分辨率(4K)的肖像动画。它允许用户使用简单的文本标签调整面部表情,提供更好的控制,并减少面部变化不一致和时间上的视觉问题

注: Hallo2 示例

GAGAvatar:可泛化和动画化的高斯头像生成方案
https://xg-chu.site/project_gagavatar/
GAGAvatar 能够从单张图像创建 3D 头像,并支持实时面部表情重现

注: GAGAvatar 示例

DifFRelight:基于扩散模型的面部光照重建方案
https://www.eyelinestudios.com/research/diffrelight.html
DifFRelight 能够将平淡光照的面部捕捉转换为高质量图像和具有复杂光照效果的动态序列。它采用基于扩散的模型,实现精确的光照控制,能够逼真展现眼部反射和皮肤纹理等细节

注: DifFRelight 示例

Progressive Autoregressive Video Diffusion Models (PA-VDM):渐进自回归视频扩散模型
https://desaixie.github.io/pa-vdm/
PA-VDM 能够生成最高 1 分钟长、24 帧每秒的高质量视频

注: PA-VDM 示例

F5-TTS:匹配生成自然且真实语音的文本转语音系统
https://swivid.github.io/F5-TTS
F5-TTS 是一个快速的文本转语音系统,能够生成自然流畅的语音。它支持多种语言,并能在不同语言之间平滑切换。该系统基于一个包含 10 万小时数据的大型数据集进行训练

注: F5-TTS 示例

⚒️ 工具与教程:

视频背景移除

这个 HuggingFace 空间可以将视频的背景替换为其他视频、颜色或图像

https://huggingface.co/spaces/innova-ai/video-background-removal

《Plague Dogs》
一支音乐视频,由 @shinraknives 制作

https://www.youtube.com/watch?v=TAewOCXh1-A

如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!

注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态
▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!

设计师的自我修行
创意— 并非要让人惊奇它崭新的形式和素材, 而是应让人惊异它源自最平凡的生活。
 最新文章