欢迎大家踏入本期的《AI艺术周刊》。在这里,我们一起探索人工智能的最新进展和它如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏🌟 本期要闻:
PhysDreamer: 基于物理的 3D 对象交互视频生成技术https://physdreamer.github.io/?ref=aiartweekly |
PhysDreamer 是一种基于物理的方法,它允许用户在虚拟 3D 环境中戳、推、拉和扔物体,这些物体将以物理上可信的方式作出反应
注: PhysDreamer 示例GScream:学习三维几何与特征一致的高斯扩散技术用于物体移除
https://w-ted.github.io/publications/gscream/?ref=aiartweekly |
GScream 是另一种用于 3D 场景中物体移除的方法。该方法采用高斯扩散技术更新辐射场,能够保持几何一致性和纹理连贯性注: GScream 示例NeRF-XL:使用多 GPU 实现任意规模的 NeRFhttps://research.nvidia.com/labs/toronto-ai/nerfxl/?ref=aiartweekly |
说到这里,不再只是关于高斯方法了。NVIDIA 的 NeRF-XL 是一种新的方法,它可以在多个 GPU 上分布 NeRF(神经辐射场),使得训练和渲染任意大容量的 3D 场景成为可能注:NeRF-XL 示例Interactive3D:通过互动式三维生成技术打造你想要的内容https://interactive-3d.github.io/?ref=aiartweekly |
Interactive3D 允许用户交互式地修改和引导 3D 对象的生成过程。这包括添加和移除组件、变形和刚性拖动、几何变换以及语义编辑等注: Interactive3D 示例Make-it-Real:释放大型多模态模型为三维对象绘制真实材质的能力https://sunzey.github.io/Make-it-Real/?ref=aiartweekly |
AI 将为三维艺术家在材质创造上提供极大的便利!Make-it-Real 利用 GPT-4V 识别和描述材料,允许构建详细的材料库。该模型能够精确地识别三维对象的相应组件并对其材料进行匹配,并将其作为新的 SVBRDF 材料生成的参考,显著增强其视觉真实感注: Make-it-Real 示例https://jtdong.com/tela_layer/?ref=aiartweekly |
TELA 能够根据文本描述创建穿着服装的三维人体模型。它允许你精确控制服装在模型上的显示方式,包括哪些层次先显示注: TELA 示例
https://tokenhmr.is.tue.mpg.de/?ref=aiartweekly |
TokenHMR 能够从单一图像中提取出人体的姿态和体型注: TokenHMR 示例
Hyper-SD:轨迹分割一致性模型,用于高效图像生成https://hyper-sd.github.io/?ref=aiartweekly |
字节跳动本周发布了 Hyper-SD,这是另一种考虑扩散的蒸馏算法,将高质量图像生成简化到单一推理步骤注: DG-Mesh 示例
ConsistentID:多模态细粒度身份保留的人像生成https://ssugarwh.github.io/consistentid.github.io/?ref=aiartweekly |
ConsistentID 可以仅使用一张图片,根据文本提示生成多样化的个性化身份证照片注: ConsistentID 示例
PuLID:通过对比对齐实现纯净和快速的身份证定制https://github.com/ToTheBeginning/PuLID?ref=aiartweekly |
PuLID 是一种无需调整的身份定制方法,用于文本到图像的生成。这种方法还可以通过添加或更改文本提示编辑模型生成的图像注:PuLID 示例
MultiBooth:通过文本生成集成多种概念的图像https://multibooth.github.io/?ref=aiartweekly |
MultiBooth 能够根据给定的文本提示,生成包含任意数量概念的图像,这些图像展现了多种风格、背景和布局关系注: MultiBooth 示例
ID-Aligner:利用奖励反馈学习提升图像的身份保真度和视觉效果https://idaligner.github.io/?ref=aiartweekly |
ID-Aligner 能够提高生成图像的身份保留性和视觉吸引力,可应用于 LoRA 和 Adapter 模型注: ID-Aligner 示例
CharacterFactory:使用 GAN 为扩散模型生成一致性角色https://qinghew.github.io/CharacterFactory/?ref=aiartweekly |
即将推出的 GAN CharacterFactory 能够创造无限多的具有一致身份的新角色,并且与多种模态的模型兼容,如 ControlNet 用于图像、ModelScope 用于视频以及 LucidDreamer 用于 3D 对象注: CharacterFactory 示例
https://ctrl-adapter.github.io/?ref=aiartweekly |
TF-GPH 是一种图像处理技术,可以自然地将具有不同风格的图片融合在一起,创造出和谐统一的视觉效果,而且使用时无需复杂的训练或特别的指令输入注: TF-GPH 示例
Editable Image Elements:让你自由调整图片https://jitengmu.github.io/Editable_Image_Elements/?ref=aiartweekly |
该技术可以让你在图片中自由调整物体的位置和大小,比如放大、缩小、移动或删除物体,甚至可以把多张图片合成一张新的图片。这样,你就可以按照自己的想法重新设计图片了注: Editable Image Elements 示例
https://idm-vton.github.io/?ref=aiartweekly |
IDM-VTON 能够生成高质量的穿衣人像图像,这些图像不仅真实,还保留了服装的原始设计。这种方法可以用来创建虚拟试衣间,改善在线购物体验,甚至用于生成时尚设计注: IDM-VTON 示例
https://maggie-matt.github.io/?ref=aiartweekly |
MaGGIe 是一种能够从简单的黑白图案中快速精确地提取人物图像的技术,适用于照片和视频。这项技术可以同时处理多个人物图像,而不会让电脑运行缓慢,特别适合需要即时处理的应用场景注: MaGGIe 示例
MotionMaster:无需训练的摄像机运动转移https://sjtuplayer.github.io/projects/MotionMaster/?ref=aiartweekly |
MotionMaster 能从单个或多个视频中提取摄像机的运动,并将这些运动应用到新视频中。这使得模型能以更灵活和可控的方式操作摄像机运动,生成的视频可以包含变速缩放、向左平移、向右平移、推拉变焦进、推拉变焦出等多种效果注: MotionMaster 示例
SVA:使用多模态大型语言模型进行语义一致的视频到音频生成https://huiz-a.github.io/audio4video.github.io/?ref=aiartweekly |
SVA 能够根据视频中的一个关键帧和文本提示,生成相应的音效和背景音乐。这样,视频制作者可以更精确地为视频场景配上合适的声音,增强观看体验注: SVA 示例
⚒️ 工具与教程:
哼唱一个旋律,人工智能可以根据该旋律生成一段音乐样本https://huggingface.co/spaces/nateraw/singing-songstarter?ref=aiartweekly |
还记得 Sora 的 “空头” 视频吗?@fxguidenews 发布了一个制作专访https://www.fxguide.com/fxfeatured/actually-using-sora/?ref=aiartweekly |
如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!