AI Art Weekly | AI 艺术周刊 #44

文摘   科技   2024-10-14 07:30   北京  

欢迎大家踏入本期的《AI艺术周刊》。在这里,我们将一同探讨每周人工智能的最新进展,及其如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和在实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。
* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏

🌟 本期要闻

我们,机器人: Optimus, Robotaxi and Robovan
https://www.youtube.com/watch?v=6v6dbxPlsXs

感觉自己仿佛置身于《We, Robot》的世界。近日特斯拉公布了他们对人类自动化未来的愿景:

  • Optimus:用于处理家务和跑腿的仿人机器人

  • Robotaxi:用于个人事务和通勤的自动驾驶汽车

  • Robovan:用于团体和货物运输的自动驾驶交通工具

当然,这些目前都还未真正面世,而且这些机器人现在很可能是由远程操控的。但即便如此,这仍然让我们对未来有了一个令人着迷的瞥见,尽管这一切也可能会出现严重的问题

注: We, Robot 现场演示

Trans4D:用于组合式文本到4D合成的真实感几何感知转换

https://github.com/YangLing0818/Trans4D/
Trans4D 可以生成具有丰富对象变形的真实 4D 场景过渡
注: Trans4D 示例

AvatarGO:零样本 4D 人物与物体交互生成和动画
https://yukangcao.github.io/AvatarGO/
AvatarGO 能够从文本生成 4D 的人物与物体交互场景。它使用大型语言模型(LLM)引导的接触重定向,实现精确的空间关系,并通过考虑对应性的运动优化,确保动画的流畅性
注: AvatarGO 示例
UniMuMo:统一的文本、音乐和动作生成
https://hanyangclarence.github.io/unimumo_demo/
UniMuMo 能够生成涵盖文本、音乐和动作的输出。它通过基于节奏模式对未配对的音乐和动作数据进行对齐,实现了这一功能
注: UniMuMo 示例
EgoAllo:在自感知世界中估计身体和手部运动
https://egoallo.github.io/
EgoAllo 能够使用头戴式设备的图像,估计3D人体姿态、身高和手部参数
注: EgoAllo 示例
SynTalker:在基于提示的语音同步动作生成中实现协同的全身控制

https://robinwitch.github.io/SynTalker-Page/

SynTalker 能够生成与语音和文本提示相匹配的逼真全身动作。它允许对动作进行精确控制,例如边走路边说话

注: SynTalker 示例

DART:一种基于扩散的自回归运动模型,用于实时文本驱动的运动控制

https://zkf1997.github.io/DART/

DART 能够实时生成高质量的人体动作,在单个 RTX 4090 GPU 上实现每秒超过 300 帧。它将文本输入与空间约束相结合,支持如到达路径点和与场景交互等任务

注: DART 示例

CLoSD:在仿真和扩散之间闭环,实现多任务角色控制

https://guytevet.github.io/CLoSD-page/

CLoSD 可以在基于物理的仿真环境中,通过文本提示控制角色。它能够按照简单的指令,导航到目标、击打物体,以及在坐下和站立之间切换

注: CLoSD 示例

Dessie:从图像中解耦可动的 3D 马匹形状和姿态估计

https://celiali.github.io/Dessie/

Dessie 能够从单张图像中估计马匹的 3D 形状和姿态。它也适用于其他大型动物,如斑马和牛

注: Dessie 示例

FabricDiffusion:从真实世界的服装图像中高保真纹理转移用于 3D 服装生成
https://humansensinglab.github.io/fabric-diffusion/
FabricDiffusion 能够将高质量的面料纹理从二维服装图像转移到任意形状的三维服装上

注: FabricDiffusion 示例

AniSDF:采用各向异性编码的融合粒度神经表面,用于高保真 3D 重建

https://g-1nonly.github.io/AniSDF_Website/

AniSDF 能够以改进的表面几何重建高质量的 3D 形状。它可以处理复杂的、发光的、反射的以及模糊的物体

注: AniSDF 示例

Flex3D:具有灵活重建模型和输入视图策划的前馈式 3D 生成

https://junlinhan.github.io/projects/flex3d/

Flex3D 能够从单张图像或文本提示生成高质量的 3D 资产

注: Flex3D 示例

DressRecon:从单目视频进行自由形式的 4D 人体重建

https://jefftan969.github.io/dressrecon/

DressRecon 能够从单个视频中创建 4D 人体模型(即三维形状随时间的动态变化)。它在处理宽松的衣物和物体方面表现出色,通过将通用的人体形状与特定视频的动作相结合,获得高质量的结果

注: DressRecon 示例

EdgeRunner:用于艺术网格生成的自回归自动编码器

https://research.nvidia.com/labs/dir/edgerunner/

EdgeRunner 能够从图像和点云生成高质量的 3D 网格,复杂度高达 4000 个面,空间分辨率为 512

注: EdgeRunner 示例

Disco4D:从单张图像中解耦的 4D 人体生成动画方案
https://disco-4d.github.io/
Disco4D 能够通过将服装与身体分离,从单张图像生成和动画化 4D 人体模型。它使用扩散模型来获取细节丰富的 3D 表示,并且可以对输入图像中不可见的部分进行建模

注: Disco4D 示例

SEMat:它通过增强网络设计和训练实现自然准确的图像抠图
https://github.com/XiaRho/SEMat/
SEMat 能够改进交互式图像抠图!它通过增强网络设计和训练,比 MAM 和 SmartMat 等方法在透明度、细节和准确性上表现更佳

注: SEMat 示例

AVSoundscape:自监督的音视频声景风格化
https://len-li.github.io/omnibooth-web/
AVSoundscape 能够改变语音的音效,使其听起来仿佛是在不同的场景中录制的。它利用视频中的示例和一种名为潜在扩散(latent diffusion)的方法,有效地传递声音属性,即使对于没有标签的视频也能实现

注: AVSoundscape 示例

OmniBooth:通过多模态指令学习潜在控制的图像合成方案
https://zhu-zhiyu.github.io/FLUX-IR/
FLUX-IR 可以通过强化学习优化路径,将低质量图像恢复为高质量图像

注: FLUX-IR 示例

ControlAR:使用自回归模型的可控图像生成方案
https://github.com/hustvl/ControlAR/
ControlAR 将边缘、深度和分割掩码等控制功能添加到像 LlamaGen 这样的自回归模型中

注: ControlAR 示例

DisEnvisioner:用于定制化图像生成的解耦和丰富视觉提示
https://disenvisioner.github.io/
DisEnvisioner 能够从单个视觉提示和额外的文本指令生成定制化的图像。它会过滤掉无关的细节,在无需额外调优的情况下,提供更好的图像质量和速度

注: DisEnvisioner 示例

FreeEdit:无需遮罩的图像编辑工具
https://freeedit.github.io/
FreeEdit 可以在不需要手动遮罩的情况下,编辑图像中的对象,比如添加、替换或删除。它使用特殊的方法,从参考图像中增强细节,使编辑结果更真实

注: FreeEdit 示例

Pyramid Flow:高效生成高质量视频的新方法
https://pyramid-flow.github.io/
Pyramid Flow 能够生成高质量的5到10秒视频,分辨率达到768p,帧率为24帧每秒。它采用了一种叫做金字塔式流匹配的统一算法,将视频的不同阶段连接起来,使视频创作更高效

注: Pyramid Flow 示例

PhysGen:从图片生成可控的逼真视频
https://stevenlsw.github.io/physgen/
PhysGen 可以从一张图片和用户设定的条件生成真实感很强的视频。它将物理模拟与视频生成相结合,让你能够精确控制物体的运动变化

注: PhysGen 示例

MimicTalk:几分钟内生成个性化、生动的3D说话人脸
https://mimictalk.github.io/
MimicTalk 能够在 15 分钟内生成专属的 3D 说话人脸。它使用一种特殊的音频转动作模型,模仿个人的说话风格,生成高质量的视频

注: MimicTalk 示例

ViBiDSampler:用双向扩散采样器提升视频插帧效果
https://vibid.github.io/
ViBiDSampler 可以使用双向采样策略,在两个关键帧之间生成高质量的帧。它能够在一块 3090 显卡上,仅用 195 秒就生成 25 帧分辨率为 1024x576 的图像,是关键帧插值的顶尖选择之一

注: ViBiDSampler 示例

TweedieMix:提升多概念融合的图像/视频生成

https://github.com/KwonGihyun/TweedieMix/

TweedieMix 可以生成融合多个个性化概念的图像和视频,让生成结果更具独特性和创意

注: TweedieMix 示例

VideoGuide:无需额外训练改进视频扩散模型效果的解决方案

https://github.com/KwonGihyun/TweedieMix/

VideoGuide 能够在不需额外训练的情况下,提升文本到视频模型生成的视频质量。它增强了动作的流畅度和图像的清晰度,使视频更加连贯且视觉上更具吸引力

注: VideoGuide 示例

TANGO:利用分层音频动作嵌入和扩散插值实现同步手势视频再现
https://pantomatrix.github.io/TANGO/
TANGO 可以从单个视频生成与语音音频同步的高质量身体手势视频。它通过修正音频与动作的不匹配,并使用扩散模型来实现平滑过渡,从而提升了视频的真实感和同步性

注: TANGO 示例

MonST3R:在运动中估计几何形状的简单方法
https://monst3r-project.github.io/
MonST3R 可以从视频中随时间估计三维形状,生成动态点云并跟踪摄像机位置。它在视频深度预估方面表现优异,比以往技术更有效地分离移动和静止的物体

注: MonST3R 示例

Loong:使用自回归语言模型生成分钟级长视频

https://epiphqny.github.io/Loong-video/

Loong 通过将文本和视频片段视为单一序列,能够生成时长达数分钟的视频

注: Loong 示例

Inverse Painting:重现绘画过程的逆向生成方案

https://inversepainting.github.io/

Inverse Painting 能够根据目标艺术作品,生成绘画过程的延时视频。它使用基于扩散的渲染器,学习真实艺术家的技法,在不同艺术风格下产生逼真的效果

注: Inverse Painting 示例

Stable Video Portraits:生成逼真的动态人脸视频

https://inversepainting.github.io/

Stable Video Portraits 利用文本到图像模型和 3D 可变形模型(3DMM),生成逼真的说话人脸视频。它可以根据特定人物创建专属头像,并将其转化为文本定义的名人形象,生成流畅且高质量的视频,无需额外的微调

注: Inverse Painting 示例

Presto!:通过简化步骤和层级加速音乐生成

https://presto-music.github.io/web/

Presto! 可以在 230 毫秒内生成 32 秒的高质量音乐,是目前最快的文本到音乐生成选项

注: Presto! 示例

⚒️ 工具与教程:

AI Dev Explainer

@atroyn 制作了一个通俗易懂的资源,帮助大家入门使用大型语言模型(LLM)构建 AI 应用

https://www.aiexplainer.dev/

FacePoke:简单拖放即可实现人脸替换
@flngr 创建了一个 Hugging Face Space,用户可以通过简单的拖放操作修改图像中的人脸特征

https://huggingface.co/spaces/jbilcke-hf/FacePoke

如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!

注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态
▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!

设计师的自我修行
创意— 并非要让人惊奇它崭新的形式和素材, 而是应让人惊异它源自最平凡的生活。
 最新文章