欢迎大家踏入本期的《AI艺术周刊》。在这里,我们将一同探讨每周人工智能的最新进展,及其如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和在实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏🌟 本期要闻:
Adobe MAX 2024: 新的 Adobe 全家桶现已来袭https://blog.adobe.com/en/publish/2024/10/14/adobe-max-2024-more-power-creators |
在 Adobe MAX 2024 大会上,Adobe 发布了其软件套件的重大AI更新。以下是一些最令人兴奋的亮点:
Firefly:可以通过文本和图像生成视频及视觉效果
Photoshop:增强的干扰移除功能以及新的“生成相似”功能(类似于Midjourney的变体功能)
Premiere Pro:通过新的 Adobe Firefly 视频模型,实现无缝帧扩展的生成式扩展功能
Illustrator:现在可以在 3D 空间中旋转矢量
Project Neo:基于 Web 的 3D 编辑器,能够转换为 2D 矢量,或用于图像到图像的转换
注: Firefly 示例GS^3:使用三重高斯投影实现高效实时光照
https://gsrelight.github.io/ |
GS^3 通过三重高斯投影技术,能够对场景进行实时的光照调整。该方法可以从多张图像中生成高质量的光照效果和视角合成,并且在单个 GPU 上以每秒 90 帧的速度运行,性能极为出色注: GS^3 示例SceneCraft:基于布局引导的 3D 场景生成https://orangesodahub.github.io/SceneCraft/ |
SceneCraft 可以根据用户提供的布局和文本描述生成详细的室内 3D 场景。它能够将 3D 布局转化为 2D 地图,生成具有多样纹理和逼真视觉效果的复杂空间
注: SceneCraft 示例Long-LRM:广覆盖高斯投影的长序列大规模重建模型https://arthurhero.github.io/projects/llrm |
Long-LRM 能够从多达 32 张输入图像中快速重建大规模 3D 场景,图像分辨率为 960x540,并且在单个 A100 80G GPU 上仅需 1.3 秒即可完成重建
注: Long-LRM 示例https://exitudio.github.io/ControlMM-page/ |
ControlMM 通过在运动模型中使用空间控制信号,能够实时生成高质量的运动。其速度比其他方法快 20 倍,并且可以对身体部位、时间线进行控制,还能够避开障碍物注: ControlMM 示例InterMask:通过协同遮罩建模生成 3D 人类互动https://gohar-malik.github.io/intermask/ |
InterMask 能够根据文本描述生成高质量的 3D 人类互动场景。它可以捕捉两个人之间的复杂动作,同时允许生成反应动作,而无需更改模型注: InterMask 示例
HART:高效视觉生成的混合自回归 Transformer 模型https://hanlab.mit.edu/projects |
HART 是一种自回归 Transformer 模型,能够以比 SD3-Medium 快 3 倍的速度从文本生成高质量的 1024x1024 图像注: HART 示例
EfficientViT:用于高效高分辨率扩散模型的深度压缩自动编码器https://github.com/mit-han-lab/efficientvit |
EfficientViT 通过数据压缩(压缩比高达128)加速高分辨率扩散模型,同时保持良好的图像质量。与其他自动编码器相比,它在 ImageNet 512x512 数据集上的推理速度提升了 19.1 倍,训练速度提升了 17.9 倍注: EfficientViT 示例
https://github.com/xyfJASON/ctrlora |
CtrLoRA 能够在不到一小时的训练时间内,使用 1,000 对数据在单个 GPU 上适配基础的ControlNet 进行图像生成。它将可学习参数减少了 90%,大大简化了创建新的引导条件的过程注: CtrLoRA 示例
https://github.com/STomoya/MambaPainter |
MambaPainter 能够通过一次性预测超过 100 个笔触,将图像转化为油画风格注: MambaPainter 示例
SGEdit:基于场景图的图像编辑,将大语言模型与文本生成图像模型相结合https://bestzzhang.github.io/SGEdit/ |
SGEdit 能够在保持图像质量一致的情况下,添加、删除、替换和调整图像中的对象,实现高质量的场景图像编辑注: SGEdit 示例
UniCon Diffusion:统一扩散式条件生成图像的简易方法https://lixirui142.github.io/unicon-diffusion |
UniCon 能够通过一个统一框架处理不同的图像生成任务。它仅需增加约 15% 的额外参数即可适配预训练的图像扩散模型,并支持大多数基础 ControlNet 的转换操作注: UniCon 示例
FlexGen:灵活的多视角生成,支持文本和图像输入https://xxu068.github.io/flexgen.github.io/ |
FlexGen 能够根据单视角图像或文本提示生成高质量的多视角图像。它允许用户修改未见区域,并调整材质属性,如金属感和粗糙度,从而提升对最终图像的控制注: FlexGen 示例
Set AutoRegressive Modeling:定制你的视觉自回归生成方案https://poppuppy.github.io/sar.github.io/ |
Set AutoRegressive Modeling 是一种自回归建模技术,支持图像的局部修复(inpainting)和扩展(outpainting),并能够生成任意分辨率的逼真照片级图像注: Set AutoRegressive Modeling 示例
Tex4D:基于视频扩散模型的零样本 4D 场景纹理生成Tex4D 能够根据文本提示为未加纹理的网格序列生成 4D 纹理。它结合了 3D 几何与视频扩散模型,确保在不同视角和帧之间纹理的一致性注: Tex4D 示例
Depth Any Video:高分辨率视频深度图生成方案https://depthanyvideo.github.io/ |
Depth Any Video 能够为视频生成高分辨率的深度图。它使用了包含 40,000 个标注片段的大型数据集来提高准确性,并采用了一种方法,能够在多达 150 帧的序列中进行更精确的深度推断注: Depth Any Video 示例
Hallo2:音频驱动的长时高分辨率肖像动画生成方案https://fudan-generative-vision.github.io/hallo2/#/ |
Hallo2 能够生成由音频驱动的长时间、高分辨率(4K)的肖像动画。它允许用户使用简单的文本标签调整面部表情,提供更好的控制,并减少面部变化不一致和时间上的视觉问题注: Hallo2 示例
GAGAvatar:可泛化和动画化的高斯头像生成方案https://xg-chu.site/project_gagavatar/ |
GAGAvatar 能够从单张图像创建 3D 头像,并支持实时面部表情重现注: GAGAvatar 示例
DifFRelight:基于扩散模型的面部光照重建方案https://www.eyelinestudios.com/research/diffrelight.html |
DifFRelight 能够将平淡光照的面部捕捉转换为高质量图像和具有复杂光照效果的动态序列。它采用基于扩散的模型,实现精确的光照控制,能够逼真展现眼部反射和皮肤纹理等细节注: DifFRelight 示例
Progressive Autoregressive Video Diffusion Models (PA-VDM):渐进自回归视频扩散模型https://desaixie.github.io/pa-vdm/ |
PA-VDM 能够生成最高 1 分钟长、24 帧每秒的高质量视频注: PA-VDM 示例
F5-TTS:匹配生成自然且真实语音的文本转语音系统https://swivid.github.io/F5-TTS |
F5-TTS 是一个快速的文本转语音系统,能够生成自然流畅的语音。它支持多种语言,并能在不同语言之间平滑切换。该系统基于一个包含 10 万小时数据的大型数据集进行训练注: F5-TTS 示例
视频背景移除
这个 HuggingFace 空间可以将视频的背景替换为其他视频、颜色或图像https://huggingface.co/spaces/innova-ai/video-background-removal |
一支音乐视频,由 @shinraknives 制作https://www.youtube.com/watch?v=TAewOCXh1-A |
如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!
注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!