AI Art Weekly | AI 艺术周刊 #43

文摘   科技   2024-09-30 06:35   北京  

欢迎大家踏入本期的《AI艺术周刊》。在这里,我们将一同探讨每周人工智能的最新进展,及其如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和在实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。
* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏

🌟 本期要闻

MaskedMimic:通过遮罩运动修复实现统一的物理角色控制
https://research.nvidia.com/labs/par/maskedmimic/

MaskedMimic 是一种基于物理的角色控制系统,能够为交互式角色生成多样化的动作。它支持关键帧、文本等多种输入方式,实现动作的平滑过渡,并适应复杂的环境

注: MaskedMimic

WiLoR:在真实环境中实现端到端 3D 手部定位与重建

https://rolpotamias.github.io/WiLoR/
WiLoR 能够从单张图像中实时定位并重建多只手部。借助包含超过200万张手部图像的大型数据集,它实现了高精度、平滑的3D手部跟踪
注: WiLoR 示例

3DTopia-XL:通过原始扩散技术实现高质量 3D 资产的规模化生成
https://3dtopia.github.io/3DTopia-XL/
3DTopia-XL 能够在短短5秒内,根据文本或图像输入生成高质量的3D PBR(物理基渲染)资产
注: 3DTopia-XL 示例
Architectural Co-LOD Generation:建筑协同生成解决方案

https://oliver-zrz-cyber.github.io/Co-LOD/

Architectural Co-LOD Generation 通过对建筑物的形状进行标准化,来管理建筑模型的细节层次(LOD)。这种方法确保了在单个模型和模型集合中都能实现高质量的细节和一致性
注: Architectural Co-LOD Generation 示例
DreamWaltz-G:通过骨架引导的2D扩散生成富有表现力的3D高斯头像

https://yukun-huang.github.io/DreamWaltz-G/

DreamWaltz-G 能够根据文本生成高质量的3D头像,并使用 SMPL-X 运动序列为其添加动画。它通过骨架引导的得分蒸馏(Skeleton-guided Score Distillation)提高了头像的一致性,非常适用于人像视频复现和创建包含多个主体的场景
注: DreamWaltz-G 示例
UniHair:面向单视角人像的统一3D头发重建
https://unihair24.github.io/?ref=aiartweekly
UniHair 能够从单视角人像生成3D头发模型,既适用于编辫子的发型,也适用于未编辫子的发型。它利用了大型数据集和先进技术,精确捕捉复杂的发型细节,并能很好地泛化到真实图像中

注: UniHair 示例

FlexiTex:通过视觉引导增强纹理生成
https://flexitex.github.io/FlexiTex/
FlexiTex 利用视觉引导为 3D 模型生成高质量的纹理,添加细节并确保一致性。它具备保留精细细节的特性,并改善纹理在不同摄像机角度下的呈现效果

注: FlexiTex 示例

Prompt Sliders:用于在扩散模型中精细控制、编辑和擦除概念的滑块
https://deepaksridhar.github.io/promptsliders.github.io/
Prompt Sliders 能够在扩散模型中控制和编辑概念。它允许用户只需为每个嵌入存储 3KB 的空间,就能调整概念的强度,比传统的 LoRA 方法快得多

注: Prompt Sliders 示例

StoryMaker:在文本到图像生成中实现整体一致的角色

https://github.com/RedAIGC/StoryMaker

StoryMaker 能够生成一系列图像,使角色在多张图像中保持一致。它保持相同的面部特征、服装、发型和体型,从而支持连贯的故事叙述

注: StoryMaker 示例

Reflecting Reality:让扩散模型生成真实的镜像反射

https://val.cds.iisc.ac.in/reflecting-reality.github.io/

Reflecting Reality 使用一种名为 MirrorFusion 的方法,能够生成逼真的镜像反射。它允许用户控制镜子的放置位置,并比其他方法实现更高质量的反射效果和几何精度

注: Reflecting Reality 示例

PortraitGen:由多模态生成先验驱动的人像视频编辑
https://ustc3dv.github.io/PortraitGen/
PortraitGen 能够使用多模态提示对人像视频进行编辑,同时保持视频的流畅性和一致性。它以每秒超过 100 帧的速度渲染,支持文本驱动、重新光照等多种风格,确保高质量和时序一致性

注: PortraitGen 示例

GMRW:通过对比随机游走实现自监督的任意点跟踪
https://www.ayshrv.com/gmrw
GMRW 能够利用自监督的全局匹配 Transformer,在视频中跟踪任意点

注: GMRW 示例

MIMO:通过空间分解建模实现可控的角色视频合成
https://menyifang.github.io/projects/MIMO/index.html
MIMO 能够从单张图像生成可控的角色视频。它通过将二维视频编码为三维空间代码,实现灵活的控制,使用户能够在真实场景中为角色添加复杂的动作

注: MIMO 示例

LVCD:利用扩散模型进行基于参考的线稿视频上色
https://luckyhzt.github.io/lvcd
LVCD 能够使用预训练的视频扩散模型为线稿视频进行上色。通过有效地从参考帧中传递颜色,它确保了运动的流畅性和高质量的视频效果

注: LVCD 示例

Skyeyes:利用航拍图像实现地面漫游
https://chaoren2357.github.io/website-skyeyes/
Skyeyes 能够根据航拍视角的图像输入,生成逼真的地面视角图像序列。即使在视角之间存在较大的差距,它也能确保图像的一致性和真实性,提供连贯且真实的视觉体验

注: Skyeyes 示例

AudioEditor:一个无需训练的基于扩散模型的音频编辑框架
https://github.com/NKU-HLT/AudioEditor
AudioEditor 能够在保持未编辑部分完好的情况下,通过添加、删除和替换音频片段来编辑音频。它利用了预训练的扩散模型,并采用了空文本反演(Null-text Inversion)和 EOT 抑制(EOT-suppression)等方法,确保高质量的编辑结果

注: AudioEditor 示例

AVSoundscape:自监督的音视频声景风格化
https://tinglok.netlify.app/files/avsoundscape/
AVSoundscape 能够改变语音的音效,使其听起来仿佛是在不同的场景中录制的。它利用视频中的示例和一种名为潜在扩散(latent diffusion)的方法,有效地传递声音属性,即使对于没有标签的视频也能实现

注: AVSoundscape 示例

⚒️ 工具与教程:

Everlasting Rhythm:将声波转化为粒子效果

由 Gideon 提交的 Everlasting Rhythm 是一个由 GPT-4 编写的项目,能够将声波转化为粒子效果。非常精妙

https://everlastingrhythm.com/?ref=aiartweekly

1X:“世界模型”和评估机制
机器人制造公司 1X Technologies 介绍了他们训练的“世界模型”和评估机制。这一世界模型是一种计算机程序,能够根据智能体的行为预测世界的演变,从同一起始图像序列中预测出不同的未来场景,包括刚体相互作用等物理现象。他们通过直接从原始传感器数据中学习模拟器,在数百万种场景中评估策略,并收集了数千小时的 EVE 人形机器人互动数据,训练出能够预测未来视频的模型。评估主要关注行动可控性、对象一致性和物理规律

https://www.1x.tech/discover/1x-world-model

如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!

注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态
▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!

设计师的自我修行
创意— 并非要让人惊奇它崭新的形式和素材, 而是应让人惊异它源自最平凡的生活。
 最新文章