AI Art Weekly | AI 艺术周刊 #31

文摘   科技   2024-06-17 07:30   北京  

欢迎大家踏入本期的《AI艺术周刊》。在这里,我们一起探索人工智能的最新进展和它如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。
* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏

🌟 本期要闻

Luma AI:梦幻机器
https://lumalabs.ai/dream-machine?ref=aiartweekly

Luma AI 本周推出的新视频生成模型 “梦幻机器” 在 AI 艺术社区引起了轰动。与 Sora 相比,这是目前你能使用的最先进的视频生成模型。它能够在 120 秒内生成 5 秒钟、120 帧的视频片段

注: Luma AI 示例

Stable Diffusion 3 Medium

https://stability.ai/news/stable-diffusion-3-medium?ref=aiartweekly
Stability AI 终于发布了 Stable Diffusion 3,不过有些不同。他们发布了一个名为 Stable Diffusion 3 Medium 的新模型,这是几周前展示的原始模型的简化版本。这个新模型在照片真实感、提示理解方面提供了整体质量的提升,并且能够在图像中生成文字
注: Stable Diffusion 3 Medium 示例
Midjourney:个性化偏好模型

https://docs.midjourney.com/docs/personalization?ref=aiartweekly

Midjourney 推出了一项全新的个性化偏好模型,彻底改变了 MJ 对提示词的理解方式。要启用此功能,你需要先对至少 200 张图像进行排名,然后在提示末尾添加 --p。我已经玩得不亦乐乎了,有需要教程的小伙伴可以点击下方的链接

👉 Midjourney 人工智能艺术创作从入门到精通·基础篇11:--p(Personalization)

注: Midjourney 个性化偏好模型示例
M-LRM:多视角大规模重建模型

https://murphylmf.github.io/M-LRM/?ref=aiartweekly

M-LRM 是另一种能够从单张或多张图像中重建高质量 3D 的模型
注: M-LRM 示例
Human 3Diffusion:通过显式 3D 一致扩散模型创建逼真头像

https://yuxuan-xue.com/human-3diffusion/?ref=aiartweekly

Human 3Diffusion 能够从单张图像中重建逼真的头像,在几何和外观上都能实现高保真
注: Human 3Diffusion 示例
WonderWorld:从单张图像生成交互式 3D 场景

https://wonderworld-2024.github.io/?ref=aiartweekly

WonderWorld 能够在不到 10 秒的时间内,通过单张图像和文字提示,在单块 A6000 GPU 上生成交互式 3D 场景

注: WonderWorld 示例

用3DGS照亮每一个黑暗角落:快速训练和实时渲染 HDR 视图合成方案

https://github.com/Srameo/LE3D?ref=aiartweekly

LE3D 能够将嘈杂的 RAW 图像转换为高斯喷射,并进行实时的新视图合成、HDR 渲染、重聚焦和色调映射调整

注: LE3D  示例

AvatarPopUp:使用图像扩散模型即时生成 3D 人像
https://www.nikoskolot.com/avatarpopup/?ref=aiartweekly
GoogleMind 的 AvatarPopUp 能够在短短 2 秒钟内,通过单张图像或文字提示生成高质量的绑定 3D 人像

注: AvatarPopUp 示例

IllumiNeRF:无需逆向渲染的 3D 重新照明技术
https://illuminerf.github.io/?ref=aiartweekly
同样来自 Google,IllumiNeRF 可以对图像进行重新照明。该方法使用基于照明条件的图像扩散模型,然后用这些重新照明的图像重建一个 NeRF,从而在目标照明下渲染新的视图

注: IllumiNeRF 示例

GGHead:快速且具有泛化能力的 3D 高斯头部生成方案
https://tobias-kirschstein.github.io/gghead/?ref=aiartweekly
GGHead 能够实时生成并渲染 1K 分辨率的 3D 头部

注:GGHead 示例

StableMaterials:通过半监督学习增强材料生成的多样性
https://gvecchio.com/stablematerials/?ref=aiartweekly
StableMaterials 能够在仅仅 4 个扩散步骤内,从文字提示或输入图像生成高分辨率的可平铺 PBR 材料

注 :StableMaterials 示例

Eye-for-an-eye:扩散模型中的语义对应外观迁移方案

https://wukailu.github.io/Unique3D/?ref=aiartweekly

Eye-for-an-eye 使扩散模型能够将参考图像中对象的外观迁移到目标图像上

注: Eye-for-an-eye 示例

DIRECT-3D:在大量噪声 3D 数据上学习直接文本到 3D 生成

https://direct-3d.github.io/?ref=aiartweekly

DIRECT-3D 可以根据文本提示在 12 秒内生成高质量的 3D 对象,具有准确的几何细节和多样的纹理,仅需一块 V100 显卡

注: DIRECT-3D 示例

Neural Gaffer:通过扩散模型对任意对象进行重新照明

https://neural-gaffer.github.io/?ref=aiartweekly

Neural Gaffer 能够在任何新的环境光照条件下,对图像中的任意对象进行重新照明。只需将图像生成器基于目标环境映射进行条件设置即可实现

注: Neural Gaffer 示例

Ctrl-X:无指导情况下控制文本生成图像的结构和外观
https://genforce.github.io/ctrl-x/?ref=aiartweekly
Ctrl-X 能够在文本生成图像和视频模型中实现结构和外观的控制,任何图像都可以作为输入!这使得可以生成具有一种图像结构和另一种图像外观的图像和视频

注: Ctrl-X 示例

FontStudio:形状自适应扩散模型,用于生成连贯一致的字体效果
https://font-studio.github.io/?ref=aiartweekly
FontStudio 能够为多语言字体生成文字效果。该模型能够解读给定的字体形状,并在不规则画布内战略性地规划像素分布

注: FontStudio 示例

Layered Vectorization:图像转化为分层矢量解决方案

https://szuviz.github.io/layered_vectorization/?ref=aiartweekly

Layered Vectorization 能够将图像转化为分层矢量,从粗略到精细通过多个层次表示原始图像

注: Layered Vectorization 示例

LLamaGen:用于可扩展图像生成的自回归模型

https://github.com/FoundationVision/LlamaGen?ref=aiartweekly

LLamaGen是一类新的图像生成模型,基于与大型语言模型(LLM)相同的方法。其最大的模型拥有31亿参数,能够生成256x256分辨率的图像

注: LLamaGen 示例

MimicBrush:零样本图像编辑与参考模仿方案

https://xavierchen34.github.io/MimicBrush-Page/?ref=aiartweekly

MimicBrush 可以通过参考图像编辑感兴趣的图像区域。它通过自监督方式捕捉不同图像之间的语义对应关系,从而实现图像编辑

注: MimicBrush 示例

CFG++:改进文本生成图像质量和可逆性的无分类器指导模型

https://cfgpp-diffusion.github.io/?ref=aiartweekly

CFG++ 解决了 CFG 在低指导尺度下的问题,提升了文本生成图像的质量和可逆性

注: CFG++ 示例

AsyncDiff:通过异步去噪实现扩散模型的并行化

https://github.com/czg1225/AsyncDiff?ref=aiartweekly

AsyncDiff 为扩散模型引入了并行处理,大幅提升推理速度,同时对生成质量影响极小

注: AsyncDiff 示例

EMMA:多模态文本生成图像模型

https://tencentqqgylab.github.io/EMMA/?ref=aiartweekly

EMMA 是一个新的图像生成模型,能够根据文本提示和额外的模态(如参考图像或肖像)生成图像。它在保持个人身份特征方面表现尤为出色

注: EMMA 示例

HOI-Swap:具有手-物体交互感知的视频物体交换

https://vision.cs.utexas.edu/projects/HOI-Swap/?ref=aiartweekly

HOI-Swap 能够在视频中交换物体,该模型特别关注由手进行交互的物体。用户只需提供一个指定的参考物体图像即可实现交换

注: HOI-Swap 示例

T2S-GPT:从文本生成手语视频

https://t2sgpt-demo.yinaoxiong.cn/?ref=aiartweekly

T2S-GPT 能够从文本生成手语视频,并可以控制手语的速度

注: T2S-GPT 示例

Action2Sound:基于自我视角视频的环境感知动作声音生成

https://vision.cs.utexas.edu/projects/action2sound/?ref=aiartweekly

Action2Sound 能够为视频中的人类互动生成逼真的动作声音。该模型能够将前景动作声音与环境背景声音分离,甚至可以为静音视频生成环境声音

注: Action2Sound 示例

📰 其它动态
  • Visual Words:

    跨模型理解视觉概念


    https://visual-words.github.io/?ref=aiartweekly

  • CLIPAway:

    通过扩散模型和谐聚焦嵌入或移除对象


    https://yigitekin.github.io/CLIPAway/?ref=aiartweekly

  • Weights2Weights:

    基于扩散模型特征的递归归一化切割零样本图像分割


    https://diffcut-segmentation.github.io/?ref=aiartweekly

  • CoNo:

    无需调整的长视频扩散一致性噪声注入方法


    https://wxrui182.github.io/CoNo.github.io/?ref=aiartweekly
  • AID:

    为指令引导的视频预测调整图像到视频的扩散模型


    https://chenhsing.github.io/AID/?ref=aiartweekly
  • MCM:

    通过解耦运动-外观蒸馏加速视频扩散


    https://yhzhai.github.io/mcm/?ref=aiartweekly


⚒️ 工具与教程:

AI 电影的时代越来越近了
@spiritform 使用 Luma 的 Dream Machine 和 Stable Audio,仅通过文本制作了一部 AI 短片,并添加了音效
https://twitter.com/spiritform?ref=aiartweekly

Midjourney到视频
@juliewdesign_ 也通过使用 Midjourney 图像作为输入,创作了一部 AI 短片
https://twitter.com/juliewdesign_?ref=aiartweekly
如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!

注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态
▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!

设计师的自我修行
创意— 并非要让人惊奇它崭新的形式和素材, 而是应让人惊异它源自最平凡的生活。
 最新文章