AI Art Weekly | AI 艺术周刊 #38

文摘   科技   2024-08-05 07:40   北京  

欢迎大家踏入本期的《AI艺术周刊》。在这里,我们一起探索人工智能的最新进展和它如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。
* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏

🌟 本期要闻

Black Forest Labs 推出 FLUX.1 模型套件

https://blackforestlabs.ai/announcing-black-forest-labs/?ref=aiartweekly

Black Forest Labs 是一家由 Andreessen Horowitz 投资的新兴生成式 AI 公司,近日宣布推出其 FLUX.1 文本生成图像模型套件。以下是其关键亮点:

  • FLUX.1 采用多模态和并行扩散变压器块的混合架构

  • 模型参数扩展至 120 亿

  • 融合了流匹配、旋转位置嵌入和并行注意力层

  • 推出了三个变体:FLUX.1 [pro]、FLUX.1 [dev] 和 FLUX.1 [schnell]

  • 支持从 0.1 到 2.0 兆像素的多种纵横比和分辨率

BTL 称 FLUX.1 在图像合成领域树立了新的标杆,尤其是在视觉质量、提示符合性和输出多样性方面表现突出。FLUX.1 [dev] 和 [schnell] 变体是开放权重模型,分别可用于非商业和个人用途,而 FLUX.1 [pro] 则通过 Replicate、fal.ai 或其自有 API 提供商业应用的 API 访问

https://huggingface.co/black-forest-labs/FLUX.1-schnell?ref=aiartweekly

注: FLUX.1 示例

Midjourney v6.1 发布

https://www.midjourney.com/updates/version-6-1
Midjourney 发布了其图像生成模型的 6.1 版本,主要改进包括:
  • 增强了图像的连贯性,特别是在解剖特征和有机主体方面
  • 通过减少伪影和增强纹理,提高了图像质量
  • 提高了小图像细节的精确度
  • 新的放大器提升了纹理质量(非常称赞的效果 !!)
  • 标准图像处理速度提高了约 25%
  • 在提示中使用“引号”时,文本渲染的准确性得到了增强
  • 更新的个性化模型具有更好的细微差别和准确性
  • 引入了个性化代码版本控制
  • 新的 --q 2 模式,提供更丰富的纹理,但连贯性略有降低


注: Midjourney v6.1 示例
Stability AI 发布 Stable Fast 3D

https://stability.ai/news/introducing-stable-fast-3d?ref=aiartweekly

Stability AI 推出了 Stable Fast 3D,这是一款用于生成 3D 资产的新模型。其特点包括:
  • 从单张输入图像生成 3D 资产,仅需 0.5 秒
  • 生成 UV 展开网格、材质参数和反照率颜色
  • 可选四边形或三角形重建(增加 100-200 毫秒的处理时间)
  • 可在 7GB VRAM 的 GPU 上运行或通过 Stability AI API 运行

该模型性能优于之前版本,将推理时间从 10 分钟(SV3D)缩短至 0.5 秒,同时保持输出质量。设计旨在用于游戏、虚拟现实、零售、建筑和设计中的快速原型制作。权重和代码可在 Hugging Face 和 GitHub 上找到,并提供 Hugging Face 演示

https://huggingface.co/spaces/stabilityai/stable-fast-3d?ref=aiartweekly
注: Stable Fast 3D 示例
Meta 推出 SAM 2:先进的视频和图像分割模型

https://sam2.metademolab.com/?ref=aiartweekly

Meta 发布了 SAM 2(Segment Anything Model 2),这是一个用于视频和图像对象分割的新模型。其功能包括:
  • 视频和图像的统一分割
  • 视频帧中交互式对象选择和跟踪
  • 实时处理和流式推理
  • 在陌生内容上的强大零样本表现

SAM 2 在对象分割任务中表现优于现有模型,尤其是在对象部件的跟踪上。与其他交互式视频分割方法相比,它需要更少的交互时间。该模型的架构包括一个每次会话的内存模块,能够在对象暂时消失时继续跟踪。模型的权重和代码已开源,并发布了一个交互式网页演示,供用户试用该模型

https://github.com/facebookresearch/segment-anything-2?ref=aiartweekly

注: SAM 2 示例
ExAvatar:表情丰富的全身 3D 高斯模型解决方案

https://mks0601.github.io/ExAvatar/?ref=aiartweekly

ExAvatar 可以通过短时单目视频动画生成全身 3D 人体头像,捕捉面部表情、手部动作和身体姿态
注: ExAvatar 示例
Cycle3D:通过生成-重建循环实现高质量且一致的图像到3D生成

https://pku-yuangroup.github.io/Cycle3D/?ref=aiartweekly

Cycle3D 能够从单张无姿态图像生成高质量且一致的3D内容。这种方法增强了纹理一致性和多视图连贯性,大大提高了最终3D重建的质量

注: Cycle3D 示例

Perm:多风格3D发型建模的参数化表示
https://cs.yale.edu/homes/che/projects/perm/?ref=aiartweekly
Perm 可以生成和操控 3D 发型,支持 3D 发型参数化、发型插值、单视图发型重建以及基于发型的图像生成等应用

注: Perm 示例

ObjectCarver:3D 对象的半自动分割、重建与分离
https://objectcarver.github.io/?ref=aiartweekly
ObjectCarver 能够通过用户点击,从单一视角对 3D 对象进行分割、重建和分离,无需分割掩码

注: ObjectCarver 示例

XHand:实时生成的富有表现力的手部模型

https://github.com/agnJason/XHand?ref=aiartweekly

XHand 能够实时生成高保真的手部形状和纹理,为虚拟环境提供富有表现力的手部模型

注: XHand 示例

ClickDiff:通过点击生成语义接触图,实现可控的抓取生成模型
https://github.com/adventurer-w/ClickDiff?ref=aiartweekly
ClickDiff 能够为 3D 对象生成可控的抓取模型。它采用双重生成框架,根据用户指定或算法预测的接触图生成逼真的抓取效果

注: ClickDiff 示例

NIS-SLAM:用于 3D 场景一致性理解的神经隐式语义 RGB-D SLAM
https://zju3dv.github.io/nis_slam/?ref=aiartweekly
NIS-SLAM 能够从 RGB-D 帧中重建高保真度的表面和几何结构,同时在这一过程中学习 3D 一致的语义表示

注 : NIS-SLAM 示例

Bridging the Gap:通过单目摄像头捕捉生成工作室级头像模型

https://shahrukhathar.github.io/2024/07/22/Bridging.html?ref=aiartweekly

Bridging the Gap 能够从短时单目手机拍摄中生成具有工作室级照明效果的纹理图。这种方法可以创建逼真且光照均匀的头像,同时增强面部细节并解决传统手机扫描中常见的问题,如缺失区域和嵌入式光照

注: Bridging the Gap 示例

Matting by Generation:高质量的抠像解决方案

https://lightchaserx.github.io/matting-by-generation/?ref=aiartweekly

Matting by Generation 可以利用扩散模型生成高分辨率且逼真的 alpha 通道蒙版。此方法将图像抠图重新定义为生成建模的挑战,并在多个基准数据集上展现出卓越的性能

注: Matting by Generation 示例

Floating No More:从单张图像重建对象模型方案
https://yunzeman.github.io/ORG/?ref=aiartweekly
Floating No More(ORG)能够从单张图像中重建 3D 对象的几何形状,同时精确模拟对象、地面和相机之间的关系。此方法显著提升了阴影渲染和对象姿态操控,解决了 3D 图像编辑应用中常见的漂浮或倾斜对象问题

注: ORG 示例

Tora:用于视频生成的轨迹导向扩散变压器
https://ali-videoai.github.io/tora_video/?ref=aiartweekly
Tora 能够通过结合文本、视觉和轨迹条件来生成高质量视频,并对运动轨迹进行精确控制。它实现了高运动保真度,并支持多样化的视频时长、纵横比和分辨率,是一个多功能的视频生成工具

注: Tora 示例

FreeLong:通过光谱混合时间注意力实现免训练的长视频生成
https://yulu.net.cn/freelong/?ref=aiartweekly
FreeLong 可以通过在16帧视频上训练的短视频扩散模型,生成128帧的视频,而无需额外的训练。虽然不是最新的技术,但效果恰到好处,带着一丝魔性

注: FreeLong 示例

如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!

注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态
▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!

设计师的自我修行
创意— 并非要让人惊奇它崭新的形式和素材, 而是应让人惊异它源自最平凡的生活。
 最新文章