欢迎大家踏入本期的《AI艺术周刊》。在这里,我们一起探索人工智能的最新进展和它如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏🌟 本期要闻:
WE-GS: 自然环境中的高效 3D 高斯表示方法https://yuzewang1998.github.io/we-gs.github.io/?ref=aiartweekly |
WE-GS 可以从照片集合中重建高质量的 3D 高斯 Splats 场景,并支持动态光照条件
注: WE-GS 示例NPGA: 神经参数高斯头像
https://simongiebenhain.github.io/NPGA/?ref=aiartweekly |
NPGA 能够从多视角视频录制中创建高保真、可控的头像,并通过单张图片或视频输入来动画化这些头像注: NPGA 示例基于文本引导的可控网格优化用于交互式 3D 建模方案https://text-mesh-refinement.github.io/?ref=aiartweekly |
Text-Mesh-Refinement 可以通过文本提示为粗糙的 3D 网格输入添加几何细节。它首先生成一幅图像,然后优化网格,生成精细、详细的几何输出注: Text-Mesh-Refinement 示例Diff3DS: 通过可微分曲线渲染生成视图一致的 3D 草图https://yiboz2001.github.io/Diff3DS/?ref=aiartweekly |
Diff3DS 可以从文本或图像生成视图一致的 3D 草图注: Diff3DS 示例https://eth-ait.github.io/MultiPly/?ref=aiartweekly |
MultiPly 可以从单目自然视频中重建多人的 3D 模型。其结果相当不错,该方法能够处理人物之间的遮挡和互动注: MultiPly 示例PuzzleFusion++: 通过去噪和验证的自动聚合 3D 断裂装配https://puzzlefusion-plusplus.github.io/?ref=aiartweekly |
PuzzleFusion++ 是一种全新的3D断裂装配方法。它可以将一堆破碎的 3D 物体自动对齐并合并成一个完整的物体注: PuzzleFusion++ 示例
VividDream: 生成具有环境动态的 3D 场景https://vivid-dream-4d.github.io/?ref=aiartweekly |
VividDream 可以通过单张图片或文本提示生成可探索的 4D 场景,具有环境动态。该方法首先将输入图像扩展为静态 3D 点云,然后使用视频扩散模型生成一组动画视频。最终的 4D 场景使得用户可以自由地探索具有合理环境动态的 3D 场景注: VividDream 示例
GenWarp: 通过语义保留生成变形从单张图像生成新视角https://genwarp-nvs.github.io/?ref=aiartweekly |
GenWarp 可以从单张输入图像生成新视角,并在生成新视角时保留输入图像的语义。它同样适用于高度风格化的图像注: GenWarp 示例
ID-to-3D: 通过分数蒸馏采样生成个性化 3D 头像https://idto3d.github.io/?ref=aiartweekly |
ID-to-3D 可以从单张人物照片生成个性化的 3D 头像。它不仅能准确重建面部特征,还能重建配饰和头发,并将其网格化以提供可渲染的素材注: ID-to-3D 示例
https://sebulo.github.io/PuTT_website/?ref=aiartweekly |
PuTT 是一种新型的 3D 表示方法,能够将图像优化为高度紧凑的形式。这使得它们可以用于图像拟合、3D 拟合和新视角合成注:PuTT 示例
SuperGaussian:利用视频模型进行 3D 超分辨率提升https://supergaussian.github.io/?ref=aiartweekly |
SuperGaussian 可以通过重新利用现有的视频模型来提升 3D 模型的分辨率,添加几何和外观细节注 :SuperGaussian 示例
Unique3D:从单张图像生成高质量且高效的 3D 模型https://wukailu.github.io/Unique3D/?ref=aiartweekly |
Unique3D 是一种全新的图像到 3D 转换方法。它能够从单张图像生成高质量的 3D 网格,具备复杂的几何结构和精细的纹理注: Unique3D 示例
DIRECT-3D:在大量噪声 3D 数据上学习直接文本到 3D 生成https://direct-3d.github.io/?ref=aiartweekly |
DIRECT-3D 可以根据文本提示在 12 秒内生成高质量的 3D 对象,具有准确的几何细节和多样的纹理,仅需一块 V100 显卡注: DIRECT-3D 示例
Ouroboros3D:通过 3D 感知递归扩散实现图像到 3D 生成https://costwen.github.io/Ouroboros3D/?ref=aiartweekly |
Ouroboros3D 是一种全新的图像到 3D 转换方法,能够从单张图像生成高质量的 3D 对象注: Ouroboros3D 示例
https://cwchenwang.github.io/geco/?ref=aiartweekly |
GECO 能够在几秒钟的时间内从单张图像生成3D对象注: GECO 示例
E3Gen:高效、富有表现力且可编辑的头像生成方案https://olivia23333.github.io/E3Gen/?ref=aiartweekly |
E3Gen 能够生成多样且富有表现力的 3D 头像,支持全身姿态控制和编辑注: E3Gen 示例
Physics3D:通过视频扩散学习 3D 高斯物理特性https://liuff19.github.io/Physics3D/?ref=aiartweekly |
Physics3D 能够模拟各种材料,具有高保真度的能力。它可以预测材料的物理特性,并将这些特性融入行为预测过程中注: Physics3D 示例
https://matankleiner.github.io/slicedit/?ref=aiartweekly |
Slicedit 可以通过简单的文本提示编辑视频,在遵循目标文本的同时保留原视频的结构和运动注: Slicedit 示例
EASI-Tex:从单张图像进行边缘感知网格纹理化https://sairajk.github.io/easi-tex/?ref=aiartweekly |
EASI-Tex 能够在保留 3D 对象几何形状的同时,用单张图像的细节为其添加纹理注: EASI-Tex 示例
Topo4D:用于高保真 4D 头部捕捉的拓扑保留高斯散点https://xuanchenli.github.io/Topo4D/?ref=aiartweekly |
Topo4D 是一种全新的 4D 头像捕捉方法,可以从视频中生成高质量的动态面部网格和 8K 纹理注: Topo4D 示例
Vidu4D:使用动态高斯表面元从单个生成视频进行高保真 4D 重建https://vidu4d.github.io/?ref=aiartweekly |
Vidu4D 可以从单个生成的视频中重建高保真的4D表示。该方法能够捕捉随时间变化的运动和变形,并保留细微的外观细节注: Vidu4D 示例
https://sync4dphys.github.io/?ref=aiartweekly |
Sync4D 可以将参考视频中物体的运动转移到各种生成的3D高斯体上!它支持多种参考输入,包括人类、四足动物和关节物体注: Sync4D 示例
4Diffusion:用于 4D 生成的多视角视频扩散模型https://aejion.github.io/4diffusion/?ref=aiartweekly |
4Diffusion 能够从单个视频生成高质量的4D场景注: 4Diffusion 示例
MotionLLM:结合大语言模型的多模态动作-语言学习https://knoxzhao.github.io/MotionLLM/?ref=aiartweekly |
MotionLLM 通过微调预训练的大语言模型,能够生成单人、多人的动作以及动作描述注: MotionLLM 示例
https://moverseai.github.io/single-shot/?ref=aiartweekly |
MoverseAI 是一种新型运动合成方法,只需一次描述即可混合和合成动作,训练速度比其他方法快 6.8 倍注: MoverseAI 示例
Multi-Motion:文本驱动的多人动作合成方案https://shanmy.github.io/Multi-Motion/?ref=aiartweekly |
Multi-Motion 能够从视频输入和文本描述中重建自然且多样化的多人群体动作注: Multi-Motion 示例
https://szuviz.github.io/pixel-space-collage-technique/?ref=aiartweekly |
Packing Collage 可以将几何元素填充到指定形状中。该方法效率极高,能够轻松适应各种损失函数,因此适用于多种可视化应用注: Packing Collage 示例
https://zhipengcai.github.io/MMPano/?ref=aiartweekly |
L-MAGIC 能够从单张输入图像和文本提示生成 360 度全景场景。该方法可以扩散出场景的多个连贯视角,并且能够接受其他输入形式,如深度图、草图和彩色脚本注: L-MAGIC 示例
MultiEdits: 基于文本到图像扩散模型的同步多属性编辑https://mingzhenhuang.com/projects/MultiEdits.html?ref=aiartweekly |
MultiEdits 能够通过单个文本描述,同时对图像中的多个对象或属性进行编辑注: MultiEdits 示例
Flash Diffusion: 少步生成高质量图像https://huggingface.co/spaces/jasperai/flash-diffusion |
Flash Diffusion 是一种加速条件扩散模型的创新方法,仅需 5 步即可生成高质量图像。该方法适用多种任务,例如文本生成图像、图像修复、人脸替换以及图像超分辨率注: Flash Diffusion 示例
Phased Consistency Model: 多步图像和视频生成利器https://g-u-n.github.io/projects/pcm/?ref=aiartweekly |
Phased Consistency Model (PCM) 是一种新型的相位一致性模型,专为多步图像和视频生成而设计。它能够生成高达 16 步的高分辨率图像和视频,并且在 1 步生成方面,还能取得与以往方法(例如 LCM)相当甚至更优异的结果注: Phased Consistency Model 示例
https://github.com/hamadichihaoui/BIRD?ref=aiartweekly |
BIRD 是一种利用快速扩散反演技术进行盲图像复原的方法,能够修复高斯模糊、运动模糊以及 JPEG 压缩伪影等造成的图像损伤注: BIRD 示例
Stable-Pose: 融合 Transformer 带来更精准的姿态引导式文本到图像生成https://github.com/ai-med/StablePose?ref=aiartweekly |
Stable-Pose 是一种用于姿态引导式文本到图像生成的新方法,在性能上超越了 ControlNet。该方法通过将 Transformer 架构与预训练的扩散模型结合,能够更加精准地将文本描述中的姿态信息融入图像生成过程中注: Stable-Pose 示例
https://chaitron.github.io/SketchDeco/?ref=aiartweekly |
SketchDeco 是一种创新的图像着色方法,无需用户提供详细文本描述,仅通过黑白草图、区域蒙版和调色板,即可生成逼真彩色的图像。该方法巧妙结合了区域控制和色彩选择,使用户摆脱繁琐的手动上色或文本描述限制,实现高效直观的图像着色体验注: SketchDeco 示例
https://doubiiu.github.io/projects/ToonCrafter/?ref=aiartweekly |
ToonCrafter 是一款动画插帧工具,可通过用户提供的关键帧图像自动生成流畅的中间过渡画面。用户只需提供动画的起始帧和结束帧,ToonCrafter 就能利用预训练的模型,创作出衔接自然的中间动画帧注: ToonCrafter 示例
Human4DiT: 基于 4D 扩散变换器的自由视角人体视频生成技术https://human4dit.github.io/?ref=aiartweekly |
Human4DiT 是一种利用 4D 扩散变换器生成人体视频的技术。该方法仅需一张参考图像,即可生成高质量、时空一致的人体视频,并支持用户从任意视角观看注: Human4DiT 示例
UniAnimate: 统一视频扩散模型实现人物图像动画生成技术https://unianimate.github.io/?ref=aiartweekly |
UniAnimate 是一种利用统一视频扩散模型生成人物图像动画的技术。该方法仅需一张人物图像和一系列目标动作姿势,便可生成时长长达一分钟且高度连贯的动画视频。UniAnimate 成功控制了统一视频扩散模型,使其能够精准捕捉人物动作细节,并流畅地将这些动作衔接成完整的动画注: UniAnimate 示例
https://snap-research.github.io/SF-V/?ref=aiartweekly |
SF-V 是一种单步视频生成模型,能够生成兼具时间和空间依存的高质量视频。该模型可实现实时的视频合成和编辑注: SF-V 示例
Follow-Your-Emoji: 可精准操控表情丰富的自由式肖像动画https://follow-your-emoji.github.io/?ref=aiartweekly |
Follow-Your-Emoji 是一种能够为参考肖像赋予动画效果的创新方法,用户只需提供目标关键点序列即可进行操控。该方法适用于各种类型的自由式肖像,涵盖真人、卡通人物、雕塑甚至动物形象,让它们生动地展现指定的表情变化注: Follow-Your-Emoji 示例
MOFA-Video: 利用冻结图像到视频扩散模型中的生成运动场适配器https://myniuuu.github.io/MOFA_Video/?ref=aiartweekly |
MOFA-Video 是一种可控图像动画生成方法,可以利用单个图像以及额外的可控信号(例如人体关键点参考、手动轨迹、甚至另一段视频)或它们的组合来生成视频注: MOFA-Video 示例
InstructAvatar: 基于文本引导的情感与动作控制的头像生成方案https://wangyuchi369.github.io/InstructAvatar/?ref=aiartweekly |
InstructAvatar 是一种通过图像和文本描述生成具有丰富情感表达的二维头像模型。该模型不仅可以控制头像的情感,还能精准操控其面部动作注: InstructAvatar 示例
Part123:
单视图图像下的部件感知三维重建
https://liuar0512.github.io/part123_official_page/?ref=aiartweekly |
RoomTex:
基于迭代修复的室内场景组合纹理化
https://qwang666.github.io/RoomTex/?ref=aiartweekly |
DiffCut:
基于扩散模型特征的递归归一化切割零样本图像分割
https://diffcut-segmentation.github.io/?ref=aiartweekly |
MeshVPR:
基于 3D 网格的城市级视觉地点识别
https://mesh-vpr.github.io/?ref=aiartweekly |
Matching Anything:
通过分割实现通用匹配
https://matchinganything.github.io/?ref=aiartweekly |
Frieren:
基于修正流匹配的高效视频转音频生成
https://frieren-v2a.github.io/?ref=aiartweekly |
⚒️ 工具与教程:
@dooartsy 本周制作了一款有趣的沙盒小游戏!在游戏中,你扮演一位恶作剧之神,任务是召唤像素艺术物品来捉弄一位脾气暴躁的AI存在https://x.com/dooartsy/status/1798787625534541853?ref=aiartweekly |
@Martin_Haerlin 使用他自定义和自制的工作流程制作了一部非常酷的AI短片https://x.com/Martin_Haerlin/status/1795090318074806758?ref=aiartweekly |
如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!
注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!