欢迎大家踏入本期的《AI艺术周刊》。在这里,我们一起探索人工智能的最新进展和它如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏🌟 本期要闻:
SV4D:多帧和多视角一致性下的动态 3D 内容生成https://sv4d.github.io/?ref=aiartweekly |
Stability 发布了 SV4D,这是一款全新的模型,可以从单个参考视频生成新颖的视角视频和 4D 对象
注: SV4D 示例Temporal Residual Jacobians:无需骨架的运动转移技术
https://temporaljacobians.github.io/?ref=aiartweekly |
Temporal Residual Jacobians 可以在无需骨架或中间形状关键帧的情况下,将运动从一个 3D 网格转移到另一个 3D 网格。该方法利用两个耦合神经网络来预测局部几何和时域变化,从而实现多样化且未见过的身体形态之间的逼真运动转移注: Temporal Residual Jacobians 示例DreamDissector:基于 2D 扩散模型实现解耦的文本到 3D 生成https://chester256.github.io/dreamdissector/?ref=aiartweekly |
DreamDissector 能够从多对象的文本到 3D NeRF 输入中,生成多个独立的纹理网格,并模拟它们之间的合理交互。这使得用户可以通过文本指导进行纹理和几何编辑注: DreamDissector 示例DreamCar:从自然环境中进行 3D 汽车重建https://bernard0047.github.io/stylesplat/?ref=aiartweekly |
DreamCar 能够从少量图像或单张图像中重建 3D 汽车模型。它采用评分蒸馏采样和姿态优化技术来增强纹理对齐和整体模型质量,显著优于现有方法注: DreamCar 示例HoloDreamer:从文本描述生成全景 3D 世界https://zhouhyocean.github.io/holodreamer/?ref=aiartweekly |
HoloDreamer 可以根据文本描述生成封闭的 3D 场景。它首先创建一个高质量的等矩形全景图,然后利用 3D 高斯点技术快速重建 3D 场景注: HoloDreamer 示例https://gs-ia.github.io/?ref=aiartweekly |
SGIA 可以高效地从单目视频中重建可重光的动态穿衣人类头像。该方法能够准确建模 PBR 属性,实现逼真的光照和姿态操控注: SGIA 示例
3D Gaussian Parametric Head Model:3D高斯参数化头部模型https://yuelangx.github.io/gphm/?ref=aiartweekly |
3D 高斯参数化头部模型可以生成高保真 3D 人类头部头像,并对身份和表情进行精确控制。它实现了实时高效的照片级渲染,并支持从单张图像无缝插值和重建人脸肖像注: 3D Gaussian Parametric Head Model 示例
SparseCraft:通过立体视觉引导的几何线性化实现少样本神经重建https://sparsecraft.github.io/?ref=aiartweekly |
SparseCraft 能够从仅仅三张彩色图片中高效地重建 3D 形状和视角依赖的外观。它在从稀疏视角进行新视角合成和重建方面达到了业界领先水平,且无需任何预训练的先验知识,训练时间不超过 10 分钟注: SparseCraft 示例
https://github.com/asw91666/TRG-Release?ref=aiartweekly |
TRG 通过利用面部几何形状与头部姿态之间的协同作用,可以准确估计头部的六自由度(6DoF)平移和旋转注: TRG 示例
ViPer:通过个体偏好学习实现生成模型的视觉个性化https://viper.epfl.ch/?ref=aiartweekly |
ViPer 通过用户对一组图片进行一次性评论的方式,捕捉到个别用户的偏好。这些偏好信息随后被用来指导文本到图片的生成模型,使得生成的图片更加贴合用户的视觉品味注: ViPer 示例
https://diffusionartist.github.io/?ref=aiartweekly |
Artist 通过文本提示对图像进行风格化处理,既保留了原始内容,又产生了高美学质量的结果。无需微调,无需使用 ControlNets,它可以直接与预训练的 StableDiffusion 模型配合使用注 : Artist 示例
PartGLEE:一个用于识别和解析任何对象的基础模型https://provencestar.github.io/PartGLEE-Vision/?ref=aiartweekly |
PartGLEE 能够在图像中定位并识别对象及其各个部分。该方法采用了一个统一的框架,能够实现任何粒度上的检测、分割和定位注: PartGLEE 示例
OutfitAnyone:适用于任何服装和任何人的超高质量虚拟试穿https://humanaigc.github.io/outfit-anyone/?ref=aiartweekly |
OutfitAnyone 能够为任何服装和任何人生成超高质量的虚拟试穿图像。它有效处理服装的形变,并保持在不同体型和风格上的细节一致性,适用于动漫和现实世界的图像,为用户提供极致的试穿体验注: OutfitAnyone 示例
Text2Place:可感知场景功能的文本引导人物放置方案https://rishubhpar.github.io/Text2Place/?ref=aiartweekly |
Text2Place 能够将任何人或物体真实地置入多样的背景中。这使得场景幻觉成为可能,通过为给定的人物姿势生成兼容的场景、基于文本的人物编辑以及将多个人物置入同一场景中,实现场景的多功能整合与创新编辑注: Text2Place 示例
Stable-Hair:通过扩散模型实现真实世界发型转移https://xiaojiu-z.github.io/Stable-Hair.github.io/?ref=aiartweekly |
Stable-Hair 能够稳健地将各种真实世界的发型转移到用户提供的面部上,用于虚拟发型试穿。它采用了两阶段流程,包括一个用于去除头发的秃头转换器和专门用于高保真发型转移的模块注: Stable-Hair 示例
Cinemo:通过运动扩散模型实现一致性和可控性图像动画https://maxin-cn.github.io/cinemo_project/?ref=aiartweekly |
Cinemo 能够从静态图像生成一致性和可控性的图像动画。通过学习运动残差和采用噪声细化技术等策略,它实现了增强的时间一致性和平滑性,允许用户精确控制运动的强度注: Cinemo 示例
HumanVid:解析用于相机可控人物图像动画的训练数据https://humanvid.github.io/?ref=aiartweekly |
HumanVid 能够从人物照片生成视频,同时允许用户控制人物和相机的动作。它引入了一个大规模数据集,结合了高质量的真实世界数据和合成数据,实现了在相机可控人物图像动画领域的顶尖表现注: HumanVid 示例
MovieDreamer:用于连贯长视觉序列的分层生成技术https://aim-uofa.github.io/MovieDreamer/?ref=aiartweekly |
MovieDreamer 能够生成长时段的视频,内容包含复杂的叙事和高视觉保真度。它有效地保持了跨场景的角色身份一致性,并显著扩展了生成内容的持续时间,超越了当前的技术能力注: MovieDreamer 示例
Stable Audio Open:根据文本生成高质量立体声音频https://stability-ai.github.io/stable-audio-open-demo/?ref=aiartweekly |
Stability 公开了 Stable Audio Open 模型。该模型能够根据文本生成最长可达 47 秒、采样率为 44.1kHz 的立体声音频注: Stable Audio Open 示例
MusiConGen:基于变压器的文本到音乐生成,具有节奏和和弦控制https://musicongen.github.io/musicongen_demo/?ref=aiartweekly |
MusiConGen 能够生成音乐曲目,并精确控制节奏和和弦。它允许用户通过符号和弦序列、每分钟节拍数(BPM)和文本提示来定义音乐特征注: MusiConGen 示例
⚒️ 工具与教程:
@toyxyz3 在 OBS 中进行了实时捕捉的 LivePortrait 测试。这将为 VTubing 带来全新的层次!https://x.com/toyxyz3/status/1816139853479960845?ref=aiartweekly |
https://github.com/KwaiVGI/LivePortrait?tab=readme-ov-file |
@OnwardsProject 分享了一个巧妙的工作流程想法,通过将视觉修改后的起始帧和结束帧输入到 Luma 的 DreamMachine 中,可以使静态产品图片动起来https://x.com/OnwardsProject/status/1815719805460033875?ref=aiartweekly |
@MengTo 与 Claude 合作开发了一个设计工具,允许你设计和动画化 SVG 图案,并将它们导出为矢量图、PNG、视频或 GIFhttps://svg.designcode.io/ |
@CoffeeVectors 分享了一个极具创意的工作流程,用于将现有视频镜头与音乐进行唇同步。简而言之:将人声从音乐中分离出来,将人声连同一张肖像图片输入到 Hedra Labs 中,再将动画化的唱歌头像作为动作驱动输入到 LivePortrait 中https://x.com/CoffeeVectors/status/1814529457509617848?ref=aiartweekly |
https://www.hedra.com/?ref=aiartweekly |
Efficient Audio Captioning 能够理解该音频内容,并为其生成对应的文本标题,不过遗憾的是目前只支持英文输出https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning?ref=aiartweekly |
如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!
注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!