AI Art Weekly | AI 艺术周刊 #47

文摘   科技   2024-11-04 07:30   北京  

欢迎大家踏入本期的《AI艺术周刊》。在这里,我们将一同探讨每周人工智能的最新进展,及其如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和在实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。
* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏

🌟 本期要闻

Recraft: 发布了他们的新模型V3(代号:Red Panda)

https://www.recraft.ai/blog/recraft-introduces-a-revolutionary-ai-model-that-thinks-in-design-language

在 Hugging Face 的文本生成图像基准测试中名列前茅,超越了当前的顶尖模型如 FLUX 和 Midjourney。然而,需要谨慎看待这一结果,因为有用户反馈称这些基准测试结果存在挑选偏差。据 Recraft 介绍,该模型具备以下功能:
  • 无需LoRA训练即可实现多样化风格

  • 处理长文本的高级文本生成能力

  • 精确的文本定位和大小控制

  • 改进的解剖学准确性和提示理解

  • 矢量图像生成能力

我个人对其 SVG 生成能力最感兴趣。该模型的图像和 SVG 版本均可在 Replicate 上获取

https://replicate.com/recraft-ai/recraft-v3-svg

注: Recraft 示例

Oasis: 基于Transformer的实时交互式游戏世界生成模型

https://oasis-model.github.io/

Decart and Etched 本周发布了 Oasis 模型,这是一款实时生成交互式 Minecraft 游戏世界的 AI 模型。我今早试用了,感觉有些超现实,更像是一场梦。整个游戏完全由模型模拟,没有后台代码运行,仅有输入、模型生成的令牌和输出的帧,该模型具备以下功能:

  • 每秒20帧的实时游戏生成

  • 交互式物理、游戏规则和图形生成

  • 支持复杂的游戏机制(建筑、照明、库存管理)

  • 具有多样环境的动态世界

  • 通过创新的动态噪声技术实现时间稳定性

与其他需要 10-20 秒生成一秒视频的文本生成视频模型不同,Oasis 每 0.04 秒生成一帧,比当前替代方案快 100 倍,相关代码可以在 GitHub 上找到

https://github.com/etched-ai/open-oasis
注: Oasis 示例
Stable Diffusion 3.5 Medium
https://stability.ai/news/introducing-stable-diffusion-3-5

继上周发布 Stable Diffusion 3.5 Large 模型后,本周又推出了拥有 25 亿参数的 Medium 模型。Stability AI 声称该模型可在消费级硬件上“开箱即用”,即使在性能较低的设备上也能运行。不过,我尚未发现仅有9.9GB显存的设备,但这可能是我个人设备限制所致...

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
https://github.com/Stability-AI/sd3.5
注: Stable Diffusion 3.5 示例
MoGe:通过优化训练监督解锁开放域图像的精确单目几何估计
https://wangrc.site/MoGePage/
MoGe 可以将图像和视频转换为 3D 点图
注: MoGe 示例
PF3plat:无姿态前馈3D高斯散点技术
https://cvlab-kaist.github.io/PF3plat/
PF3plat 能够从未经校准的图像集合中生成逼真的图像和精确的相机位置
注: PF3plat 示例
FreCaS:通过频率感知的级联采样实现高效的高分辨率图像生成

https://github.com/xtudbxk/FreCaS

FreCaS 通过将图像生成过程分解为逐步增加细节的多个阶段,快速生成高分辨率图像。它生成 2048×2048 图像的速度比其他工具快约 2.86 至 6.07 倍,并显著提升了图像质量

注: FreCaS 示例

Factor Graph Diffusion:调整扩散模型以提升提示符合度和可控图像合成
https://deepaksridhar.github.io/factorgraphdiffusion.github.io/
Factor Graph Diffusion 可以生成高质量、更加符合提示的图像。该方法支持使用分割图和深度图等工具进行可控图像生成

注: Factor Graph Diffusion 示例

OmniSep:通过Query-Mixup实现统一的全模态声音分离

https://omnisep.github.io/

OmniSep 能够通过文本、图像和音频查询从混合音频中分离出清晰的音轨

注: OmniSep 示例

⚒️ 工具与教程:

《Whispers In The Dark - Descent Into Madness》

@BLVCKLIGHTai 发布了他的首部长篇电影,时长1小时42分钟。发现里面有一些相当不错的内容。推荐大家去看看

https://www.youtube.com/watch?v=arQmN0dk_dE

使用 Sonnet 3.5 创建像素着色器

@Westoncb 使用最新的 Sonnet 3.5 创建了一个像素着色器

https://claude.site/artifacts/18a0febc-37cf-48b6-87b4-23a813aa0ed3

如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!

注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态
▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!

设计师的自我修行
创意— 并非要让人惊奇它崭新的形式和素材, 而是应让人惊异它源自最平凡的生活。
 最新文章