AI Art Weekly | AI 艺术周刊 #37

文摘   科技   2024-07-29 07:30   北京  

欢迎大家踏入本期的《AI艺术周刊》。在这里,我们一起探索人工智能的最新进展和它如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。
* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏

🌟 本期要闻

SV4D:多帧和多视角一致性下的动态 3D 内容生成
https://sv4d.github.io/?ref=aiartweekly

Stability 发布了 SV4D,这是一款全新的模型,可以从单个参考视频生成新颖的视角视频和 4D 对象

注: SV4D 示例

Temporal Residual Jacobians:无需骨架的运动转移技术

https://temporaljacobians.github.io/?ref=aiartweekly
Temporal Residual Jacobians 可以在无需骨架或中间形状关键帧的情况下,将运动从一个 3D 网格转移到另一个 3D 网格。该方法利用两个耦合神经网络来预测局部几何和时域变化,从而实现多样化且未见过的身体形态之间的逼真运动转移
注: Temporal Residual Jacobians 示例
DreamDissector:基于 2D 扩散模型实现解耦的文本到 3D 生成

https://chester256.github.io/dreamdissector/?ref=aiartweekly

DreamDissector 能够从多对象的文本到 3D NeRF 输入中,生成多个独立的纹理网格,并模拟它们之间的合理交互。这使得用户可以通过文本指导进行纹理和几何编辑
注: DreamDissector 示例
DreamCar:从自然环境中进行 3D 汽车重建

https://bernard0047.github.io/stylesplat/?ref=aiartweekly

DreamCar 能够从少量图像或单张图像中重建 3D 汽车模型。它采用评分蒸馏采样和姿态优化技术来增强纹理对齐和整体模型质量,显著优于现有方法
注: DreamCar 示例
HoloDreamer:从文本描述生成全景 3D 世界

https://zhouhyocean.github.io/holodreamer/?ref=aiartweekly

HoloDreamer 可以根据文本描述生成封闭的 3D 场景。它首先创建一个高质量的等矩形全景图,然后利用 3D 高斯点技术快速重建 3D 场景
注: HoloDreamer 示例
SGIA:单目视频中的快速可重光的动态人类重建

https://gs-ia.github.io/?ref=aiartweekly

SGIA 可以高效地从单目视频中重建可重光的动态穿衣人类头像。该方法能够准确建模 PBR 属性,实现逼真的光照和姿态操控

注: SGIA 示例

3D Gaussian Parametric Head Model:3D高斯参数化头部模型
https://yuelangx.github.io/gphm/?ref=aiartweekly
3D 高斯参数化头部模型可以生成高保真 3D 人类头部头像,并对身份和表情进行精确控制。它实现了实时高效的照片级渲染,并支持从单张图像无缝插值和重建人脸肖像

注: 3D Gaussian Parametric Head Model 示例

SparseCraft:通过立体视觉引导的几何线性化实现少样本神经重建
https://sparsecraft.github.io/?ref=aiartweekly
SparseCraft 能够从仅仅三张彩色图片中高效地重建 3D 形状和视角依赖的外观。它在从稀疏视角进行新视角合成和重建方面达到了业界领先水平,且无需任何预训练的先验知识,训练时间不超过 10 分钟

注: SparseCraft 示例

TRG:通过面部几何形状与头部姿态的双向交互实现

https://github.com/asw91666/TRG-Release?ref=aiartweekly

TRG 通过利用面部几何形状与头部姿态之间的协同作用,可以准确估计头部的六自由度(6DoF)平移和旋转

注: TRG 示例

ViPer:通过个体偏好学习实现生成模型的视觉个性化
https://viper.epfl.ch/?ref=aiartweekly
ViPer 通过用户对一组图片进行一次性评论的方式,捕捉到个别用户的偏好。这些偏好信息随后被用来指导文本到图片的生成模型,使得生成的图片更加贴合用户的视觉品味

注: ViPer 示例

Artist:无需训练的美学可控文本驱动风格化
https://diffusionartist.github.io/?ref=aiartweekly
Artist 通过文本提示对图像进行风格化处理,既保留了原始内容,又产生了高美学质量的结果。无需微调,无需使用 ControlNets,它可以直接与预训练的 StableDiffusion 模型配合使用

注 : Artist 示例

PartGLEE:一个用于识别和解析任何对象的基础模型
https://provencestar.github.io/PartGLEE-Vision/?ref=aiartweekly
PartGLEE 能够在图像中定位并识别对象及其各个部分。该方法采用了一个统一的框架,能够实现任何粒度上的检测、分割和定位

注: PartGLEE 示例

OutfitAnyone:适用于任何服装和任何人的超高质量虚拟试穿
https://humanaigc.github.io/outfit-anyone/?ref=aiartweekly
OutfitAnyone 能够为任何服装和任何人生成超高质量的虚拟试穿图像。它有效处理服装的形变,并保持在不同体型和风格上的细节一致性,适用于动漫和现实世界的图像,为用户提供极致的试穿体验

注: OutfitAnyone 示例

Text2Place:可感知场景功能的文本引导人物放置方案
https://rishubhpar.github.io/Text2Place/?ref=aiartweekly
Text2Place 能够将任何人或物体真实地置入多样的背景中。这使得场景幻觉成为可能,通过为给定的人物姿势生成兼容的场景、基于文本的人物编辑以及将多个人物置入同一场景中,实现场景的多功能整合与创新编辑

注: Text2Place 示例

Stable-Hair:通过扩散模型实现真实世界发型转移
https://xiaojiu-z.github.io/Stable-Hair.github.io/?ref=aiartweekly
Stable-Hair 能够稳健地将各种真实世界的发型转移到用户提供的面部上,用于虚拟发型试穿。它采用了两阶段流程,包括一个用于去除头发的秃头转换器和专门用于高保真发型转移的模块

注: Stable-Hair 示例

 Cinemo:通过运动扩散模型实现一致性和可控性图像动画
https://maxin-cn.github.io/cinemo_project/?ref=aiartweekly
Cinemo 能够从静态图像生成一致性和可控性的图像动画。通过学习运动残差和采用噪声细化技术等策略,它实现了增强的时间一致性和平滑性,允许用户精确控制运动的强度

注: Cinemo 示例

HumanVid:解析用于相机可控人物图像动画的训练数据

https://humanvid.github.io/?ref=aiartweekly

HumanVid 能够从人物照片生成视频,同时允许用户控制人物和相机的动作。它引入了一个大规模数据集,结合了高质量的真实世界数据和合成数据,实现了在相机可控人物图像动画领域的顶尖表现

注: HumanVid 示例

MovieDreamer:用于连贯长视觉序列的分层生成技术

https://aim-uofa.github.io/MovieDreamer/?ref=aiartweekly

MovieDreamer 能够生成长时段的视频,内容包含复杂的叙事和高视觉保真度。它有效地保持了跨场景的角色身份一致性,并显著扩展了生成内容的持续时间,超越了当前的技术能力

注: MovieDreamer 示例

Stable Audio Open:根据文本生成高质量立体声音频

https://stability-ai.github.io/stable-audio-open-demo/?ref=aiartweekly

Stability 公开了 Stable Audio Open 模型。该模型能够根据文本生成最长可达 47 秒、采样率为 44.1kHz 的立体声音频

注: Stable Audio Open 示例

MusiConGen:基于变压器的文本到音乐生成,具有节奏和和弦控制

https://musicongen.github.io/musicongen_demo/?ref=aiartweekly

MusiConGen 能够生成音乐曲目,并精确控制节奏和和弦。它允许用户通过符号和弦序列、每分钟节拍数(BPM)和文本提示来定义音乐特征

注: MusiConGen 示例

⚒️ 工具与教程:

实时直播肖像
@toyxyz3 在 OBS 中进行了实时捕捉的 LivePortrait 测试。这将为 VTubing 带来全新的层次!
https://x.com/toyxyz3/status/1816139853479960845?ref=aiartweekly
https://github.com/KwaiVGI/LivePortrait?tab=readme-ov-file


解决 AI 动画化产品图片的方法
@OnwardsProject 分享了一个巧妙的工作流程想法,通过将视觉修改后的起始帧和结束帧输入到 Luma 的 DreamMachine 中,可以使静态产品图片动起来
https://x.com/OnwardsProject/status/1815719805460033875?ref=aiartweekly

SVG 设计代码
@MengTo 与 Claude 合作开发了一个设计工具,允许你设计和动画化 SVG 图案,并将它们导出为矢量图、PNG、视频或 GIF
https://svg.designcode.io/

音乐视频的唇同步
@CoffeeVectors 分享了一个极具创意的工作流程,用于将现有视频镜头与音乐进行唇同步。简而言之:将人声从音乐中分离出来,将人声连同一张肖像图片输入到 Hedra Labs 中,再将动画化的唱歌头像作为动作驱动输入到 LivePortrait 中
https://x.com/CoffeeVectors/status/1814529457509617848?ref=aiartweekly
https://www.hedra.com/?ref=aiartweekly

高效音频标题总结解决方案
Efficient Audio Captioning 能够理解该音频内容,并为其生成对应的文本标题,不过遗憾的是目前只支持英文输出
https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning?ref=aiartweekly

如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!

注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态
▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!

设计师的自我修行
创意— 并非要让人惊奇它崭新的形式和素材, 而是应让人惊异它源自最平凡的生活。
 最新文章