AI Art Weekly | AI 艺术周刊 #15

文摘   科技   2024-02-12 06:30   北京  

🐲 祝各位小伙伴在新的一年里,万事顺遂,所愿皆实现,龙年大吉🧧 欢迎大家踏入本期的《AI艺术周刊》。在这里,我们一起探索人工智能的最新进展和它如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。
* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏

🌟 本期要闻

Video-LaVIT: 视频语言统一预训练技术
https://video-lavit.github.io/?ref=aiartweekly
Video-LaVIT 代表了视频与语言处理领域的一大进步,它通过独创的解耦视觉与运动标记化技术,实现了图像与视频内容的深入理解和创新生成,特别是在长视频生成方面展现出了卓越的能力。

注: Video-LaVIT 官方公告

ConsistI2V:增强视觉一致性的图像到视频生成技术
https://tiger-ai-lab.github.io/ConsistI2V/?ref=aiartweekly

ConsistI2V 是一种在图像到视频转换过程中,显著增强视觉一致性的方法。与其他技术相比,它能够更好地保持首帧的主题、背景和风格,同时确保视频内容的流畅逻辑发展,并支持长视频的生成及相机运动控制。

注: ConsistI2V 示例

Direct-a-Video:用户导向的相机与物体动态控制

https://direct-a-video.github.io/?ref=aiartweekly
在定制视频创作领域,Direct-a-Video 技术为用户提供了前所未有的操作自由度,使他们能够亲自指挥相机的运动轨迹和视频中物体的行动。这一技术意味着用户能够对视频制作的每一个细节进行精确的操控,无论是相机的横向移动、镜头的缩放,还是场景中物体的排布和移动,都能够根据个人偏好进行高度定制,营造出独一无二的视频创作体验。
注: Direct-a-Video 示例
Boximator:为视频合成生成丰富且可控的动态效果

https://boximator.github.io/?ref=aiartweekly

Boximator 通过在图像上勾画出边框约束和动态路径,使得将图像转换成视频的过程能够创造出既丰富又可控的运动效果。这项技术极大地增强了视频合成的灵活性与创新性,让静态图像向动态视频的转化不仅变得更为鲜活,还拓展了无限的可能性。
注: Boximator 示例
ConsiStory:免训练文本至图像一致性生成技术

https://consistory-paper.github.io/?ref=aiartweekly

继 InstantID 和 StableIdentity 之后,ConsiStory 成为四周内第三篇尝试实现无需微调即可保持主题一致性的论文。与其他方法相比,ConsiStory 能够成功遵循文本提示的同时,维持主题的一致性。该模型还支持多主题场景,并能够为常见对象实现无需训练的个性化定制,为文本到图像生成领域树立了新的标准。

如有小伙伴需要详细了解 InstantID 和 StableIdentity 可前往我们往期内容:

👉 AI Art Weekly | AI 艺术周刊·完整专辑

注: ConsiStory 示例
LGM:用于高分辨率 3D 内容创建的大型多视角高斯模型

https://me.kiui.moe/lgm/?ref=aiartweekly

LGM 模型能够从文本提示或单张图片生成高分辨率 3D 网格对象。该模型能在 5 秒内生成 3D 对象,同时将训练分辨率提升至 512,实现了高保真且高效的 3D 内容制作。
注: LGM 示例
Holo-Gen:基于几何条件的 PBR 图像生成协作控制

https://unity-research.github.io/holo-gen/?ref=aiartweekly

Unity 在本周发布了 Holo-Gen。这种方法可以为 3D 对象生成基于物理的渲染(PBR)材料属性。
注: Holo-Gen 示例
EmoSpeaker: 精准情绪调控的一键式说话面孔生成器

https://peterfanfan.github.io/EmoSpeaker/?ref=aiartweekly

EmoSpeaker 是又一款说话头像模型,能够通过输入音频、情感和源图像生成说话头像视频。它还可以通过调整细腻的情感强度,生成表现不同情绪强度的说话头像。
注: EmoSpeaker 示例
📰 其它动态
  • λ-ECLIPSE:

    利用 CLIP 潜空间实现多概念个性化文本到图像扩散模型


    https://eclipse-t2i.github.io/Lambda-ECLIPSE/?ref=aiartweekly

  • Minecraft-ify:

    通过文本引导的图像编辑实现 Minecraft 风格图像生成


    https://gh-bumsookim.github.io/Minecraft-ify/?ref=aiartweekly

  • NerfEmitter: 

    将 NeRF 用作基于物理的逆向渲染中的非远距离环境发射器


    https://nerfemitterpbir.github.io/?ref=aiartweekly

  • 基于图像渲染实现去噪扩散技术:


    https://anciukevicius.github.io/generative-image-based-rendering/?ref=aiartweekly

  • Rig3DGS:

    从单眼视频中创建可控肖像


    https://shahrukhathar.github.io/2024/02/05/Rig3DGS.html?ref=aiartweekly

  • InstructScene:

    采用语义图先验进行指令引导的 3D 室内场景创造技术


    https://chenguolin.github.io/projects/InstructScene/?ref=aiartweekly


⚒️ 工具与教程:

DynamiCrafter
DynamiCrafter 是一款视频生成模型,能够从图像生成视频。它还支持使用文本提示进行运动控制、循环视频生成和生成式帧插值。并且可通过 HuggingFace 进行演示体验
https://github.com/Doubiiu/DynamiCrafter?ref=aiartweekly

https://huggingface.co/spaces/Doubiiu/DynamiCrafter?ref=aiartweekly

MetaVoice-1B
FreeStyle 是一个稳定扩散XL插件,能够根据文本提示对现有图像进行风格转换。
https://github.com/metavoiceio/metavoice-src?ref=aiartweekly
RMBG-1.4
RMBG v1.4 是一款最新背景移除模型,旨在有效地从各种类别和图像类型中分离前景和背景。

https://huggingface.co/briaai/RMBG-1.4?ref=aiartweekly

https://huggingface.co/spaces/briaai/BRIA-RMBG-1.4?ref=aiartweekly

ComfyUI-3D-Pack
一个广泛的节点套件,使 ComfyUI 能够使用(如 3DGS、NeRF 等)处理 3D 输入(网格和 UV 纹理等)。

https://github.com/MrForExample/ComfyUI-3D-Pack/tree/main?ref=aiartweekly

如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!

注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态
▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!

设计师的自我修行
创意— 并非要让人惊奇它崭新的形式和素材, 而是应让人惊异它源自最平凡的生活。
 最新文章