欢迎大家踏入本期的《AI艺术周刊》。在这里,我们一起探索人工智能的最新进展和它如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏🌟 本期要闻:
Stable Diffusion 3:研究论文发表https://stability.ai/news/stable-diffusion-3-research-paper?ref=aiartweekly |
Stability AI 于本周发表了 Stable Diffusion 3 的研究论文,并附带了一些额外的图像输出示例。其中,提示词的连贯性相当引人注目。注: Prompt: Beautiful pixel art of a Wizard with hovering text 'Achievement unlocked: Diffusion models can spell now
https://github.com/VAST-AI-Research/TripoSR?ref=aiartweekly |
Stability AI 联合 Tripo AI 本周发布了 TripoSR,这是一个 3D 重建模型,能够在不到 0.5 秒的时间内从单张图片生成 3D 网格模型。
注: TripoSR 示例MagicClay:使用生成神经场雕刻3D网格
https://amir90.github.io/MagicClay.github.io/?ref=aiartweekly |
虽然 TripoSR 能够从图片中生成网格,MagicClay 则可以编辑它们。这是一个对艺术家友好的工具,允许你通过文本提示来雕塑网格的特定区域,同时保持其他区域不变。注: MagicClay 示例PixArt-Σ:从弱到强训练扩散变换器以实现 4K 文本到图像生成https://pixart-alpha.github.io/PixArt-sigma-project/?ref=aiartweekly |
PixArt 模型家族迎来了新成员 PixArt-Σ。该模型能够直接生成 4K 分辨率的图片。与其前身PixArt-α 相比,它提供了更高保真度的图片,并且与文本提示的对齐性得到了改进。注: PixArt-Σ 示例ResAdapter:针对扩散模型的域一致性分辨率适配器https://res-adapter.github.io/?ref=aiartweekly |
还记得之前生成非 512x512 分辨率图片成为一件头疼事时吗?ResAdapter 为此带来了解决方案。它是一个专为扩散模型打造的域一致性适配器,能够自由生成任意分辨率和宽高比的图像。这一创新使得无需重复的去噪步骤和繁琐的后期处理,就可以高效地推理出多分辨率图像。注: ResAdapter 示例https://piecewise-rectified-flow.github.io/?ref=aiartweekly |
字节跳动发布了一种名为 PeRFlow 的新型低步骤方法,能够加速像 Stable Diffusion 这样的扩散模型更快地生成图像。PeRFlow 与各种经过微调的风格化 SD 模型兼容,同时也支持基于 SD 的生成/编辑流程,如 ControlNet、Wonder3D 等。注: PeRFlow 示例RealCustom:缩小真实文本字的范围,实现实时开放域文本到图像的定制https://corleone-huang.github.io/realcustom/?ref=aiartweekly |
RealCustom 是一种图像个性化方法。该方法能够在实时基础上,根据给定文本和单一图像中的任何主题,生成始终如一地贴合文本的逼真图像。注: RealCustom 示例
ViewDiff:使用文本或图像进行 3D 一致性模型生成https://lukashoel.github.io/ViewDiff/?ref=aiartweekly |
ViewDiff 是一种全新方法,它可以从单一文本提示或一张具有特定姿态的图片出发,生成高质量、多视角一致的真实世界 3D 物体图像,并且这些图像置于真实环境中。注: ViewDiff 示例
UniCtrl:无需训练的统一注意力控制,提升文本到视频扩散模型的时空一致性https://unified-attention-control.github.io/?ref=aiartweekly |
本周在视频领域,我们引入了 UniCtrl。它可用于提升文本到视频模型生成视频的语义一致性和运动质量,而无需额外训练。该方法具有普遍适用性,可用于增强各种文本到视频模型。注: UniCtrl 示例-左边没有 UniCtrl
https://hiteshk03.github.io/Pix2Gif/?ref=aiartweekly |
微软本周发布了 Pix2Gif。这是一个图像到视频的模型,能够从单张图片和文本提示中生成 GIF。他们声称该模型能够理解运动,虽然我们这里不是在讨论 Sora 级别的复杂度。但与我们习惯的慢动作视频相比,它在运动方面确实是一个进步。注: Pix2Gif 示例
Efficient LoFTR:
具有稀疏速度的半密集局部特征匹配
https://zju3dv.github.io/efficientloftr/?ref=aiartweekly |
DATTT:
零样本视频对象分割的深度感知测试时间训练
https://nifangbaage.github.io/DATTT/?ref=aiartweekly |
⚒️ 工具与教程:
@Norod78 分享了一个使用 TripoSR、MeshLab、Mixamo 和 Reality Converter 将 Midjourney 创建的角色引入 AR 的示例工作流程。https://twitter.com/Norod78/status/1765312783531258223?ref=aiartweekly |
我已经有一段时间没有在游戏中看到 AI 增强的 NPC 了。Mantella 是一款 Skyrim Mod,可让你使用 Whisper 进行语音转文本、LLM 进行文本生成以及 xVASynth 进行文本转语音与 NPC 对话。https://www.youtube.com/watch?v=UtvVn1TvNnA |
FaceChain 是一个用于生成数字孪生的深度学习工具链。只需至少一张肖像照片,你就可以创建自己的数字孪生,并开始在不同的设置下生成个人肖像。https://github.com/modelscope/facechain |
如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!