欢迎大家踏入本期的《AI艺术周刊》。在这里,我们将一同探讨每周人工智能的最新进展,及其如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和在实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏🌟 本期要闻:
我们,机器人: Optimus, Robotaxi and Robovanhttps://www.youtube.com/watch?v=6v6dbxPlsXs |
感觉自己仿佛置身于《We, Robot》的世界。近日特斯拉公布了他们对人类自动化未来的愿景:
当然,这些目前都还未真正面世,而且这些机器人现在很可能是由远程操控的。但即便如此,这仍然让我们对未来有了一个令人着迷的瞥见,尽管这一切也可能会出现严重的问题
注: We, Robot 现场演示Trans4D:用于组合式文本到4D合成的真实感几何感知转换
https://github.com/YangLing0818/Trans4D/ |
Trans4D 可以生成具有丰富对象变形的真实 4D 场景过渡注: Trans4D 示例AvatarGO:零样本 4D 人物与物体交互生成和动画https://yukangcao.github.io/AvatarGO/ |
AvatarGO 能够从文本生成 4D 的人物与物体交互场景。它使用大型语言模型(LLM)引导的接触重定向,实现精确的空间关系,并通过考虑对应性的运动优化,确保动画的流畅性
注: AvatarGO 示例https://hanyangclarence.github.io/unimumo_demo/ |
UniMuMo 能够生成涵盖文本、音乐和动作的输出。它通过基于节奏模式对未配对的音乐和动作数据进行对齐,实现了这一功能
注: UniMuMo 示例https://egoallo.github.io/ |
EgoAllo 能够使用头戴式设备的图像,估计3D人体姿态、身高和手部参数注: EgoAllo 示例SynTalker:在基于提示的语音同步动作生成中实现协同的全身控制https://robinwitch.github.io/SynTalker-Page/ |
SynTalker 能够生成与语音和文本提示相匹配的逼真全身动作。它允许对动作进行精确控制,例如边走路边说话注: SynTalker 示例
DART:一种基于扩散的自回归运动模型,用于实时文本驱动的运动控制https://zkf1997.github.io/DART/ |
DART 能够实时生成高质量的人体动作,在单个 RTX 4090 GPU 上实现每秒超过 300 帧。它将文本输入与空间约束相结合,支持如到达路径点和与场景交互等任务注: DART 示例
CLoSD:在仿真和扩散之间闭环,实现多任务角色控制https://guytevet.github.io/CLoSD-page/ |
CLoSD 可以在基于物理的仿真环境中,通过文本提示控制角色。它能够按照简单的指令,导航到目标、击打物体,以及在坐下和站立之间切换注: CLoSD 示例
Dessie:从图像中解耦可动的 3D 马匹形状和姿态估计https://celiali.github.io/Dessie/ |
Dessie 能够从单张图像中估计马匹的 3D 形状和姿态。它也适用于其他大型动物,如斑马和牛注: Dessie 示例
FabricDiffusion:从真实世界的服装图像中高保真纹理转移用于 3D 服装生成https://humansensinglab.github.io/fabric-diffusion/ |
FabricDiffusion 能够将高质量的面料纹理从二维服装图像转移到任意形状的三维服装上注: FabricDiffusion 示例
AniSDF:采用各向异性编码的融合粒度神经表面,用于高保真 3D 重建https://g-1nonly.github.io/AniSDF_Website/ |
AniSDF 能够以改进的表面几何重建高质量的 3D 形状。它可以处理复杂的、发光的、反射的以及模糊的物体注: AniSDF 示例
Flex3D:具有灵活重建模型和输入视图策划的前馈式 3D 生成https://junlinhan.github.io/projects/flex3d/ |
Flex3D 能够从单张图像或文本提示生成高质量的 3D 资产注: Flex3D 示例
DressRecon:从单目视频进行自由形式的 4D 人体重建https://jefftan969.github.io/dressrecon/ |
DressRecon 能够从单个视频中创建 4D 人体模型(即三维形状随时间的动态变化)。它在处理宽松的衣物和物体方面表现出色,通过将通用的人体形状与特定视频的动作相结合,获得高质量的结果注: DressRecon 示例
EdgeRunner:用于艺术网格生成的自回归自动编码器https://research.nvidia.com/labs/dir/edgerunner/ |
EdgeRunner 能够从图像和点云生成高质量的 3D 网格,复杂度高达 4000 个面,空间分辨率为 512注: EdgeRunner 示例
Disco4D:从单张图像中解耦的 4D 人体生成动画方案https://disco-4d.github.io/ |
Disco4D 能够通过将服装与身体分离,从单张图像生成和动画化 4D 人体模型。它使用扩散模型来获取细节丰富的 3D 表示,并且可以对输入图像中不可见的部分进行建模注: Disco4D 示例
SEMat:它通过增强网络设计和训练实现自然准确的图像抠图https://github.com/XiaRho/SEMat/ |
SEMat 能够改进交互式图像抠图!它通过增强网络设计和训练,比 MAM 和 SmartMat 等方法在透明度、细节和准确性上表现更佳注: SEMat 示例
AVSoundscape:自监督的音视频声景风格化https://len-li.github.io/omnibooth-web/ |
AVSoundscape 能够改变语音的音效,使其听起来仿佛是在不同的场景中录制的。它利用视频中的示例和一种名为潜在扩散(latent diffusion)的方法,有效地传递声音属性,即使对于没有标签的视频也能实现注: AVSoundscape 示例
OmniBooth:通过多模态指令学习潜在控制的图像合成方案https://zhu-zhiyu.github.io/FLUX-IR/ |
FLUX-IR 可以通过强化学习优化路径,将低质量图像恢复为高质量图像注: FLUX-IR 示例
ControlAR:使用自回归模型的可控图像生成方案https://github.com/hustvl/ControlAR/ |
ControlAR 将边缘、深度和分割掩码等控制功能添加到像 LlamaGen 这样的自回归模型中注: ControlAR 示例
DisEnvisioner:用于定制化图像生成的解耦和丰富视觉提示https://disenvisioner.github.io/ |
DisEnvisioner 能够从单个视觉提示和额外的文本指令生成定制化的图像。它会过滤掉无关的细节,在无需额外调优的情况下,提供更好的图像质量和速度注: DisEnvisioner 示例
https://freeedit.github.io/ |
FreeEdit 可以在不需要手动遮罩的情况下,编辑图像中的对象,比如添加、替换或删除。它使用特殊的方法,从参考图像中增强细节,使编辑结果更真实注: FreeEdit 示例
Pyramid Flow:高效生成高质量视频的新方法https://pyramid-flow.github.io/ |
Pyramid Flow 能够生成高质量的5到10秒视频,分辨率达到768p,帧率为24帧每秒。它采用了一种叫做金字塔式流匹配的统一算法,将视频的不同阶段连接起来,使视频创作更高效注: Pyramid Flow 示例
https://stevenlsw.github.io/physgen/ |
PhysGen 可以从一张图片和用户设定的条件生成真实感很强的视频。它将物理模拟与视频生成相结合,让你能够精确控制物体的运动变化注: PhysGen 示例
MimicTalk:几分钟内生成个性化、生动的3D说话人脸https://mimictalk.github.io/ |
MimicTalk 能够在 15 分钟内生成专属的 3D 说话人脸。它使用一种特殊的音频转动作模型,模仿个人的说话风格,生成高质量的视频注: MimicTalk 示例
ViBiDSampler:用双向扩散采样器提升视频插帧效果ViBiDSampler 可以使用双向采样策略,在两个关键帧之间生成高质量的帧。它能够在一块 3090 显卡上,仅用 195 秒就生成 25 帧分辨率为 1024x576 的图像,是关键帧插值的顶尖选择之一注: ViBiDSampler 示例
TweedieMix:提升多概念融合的图像/视频生成https://github.com/KwonGihyun/TweedieMix/ |
TweedieMix 可以生成融合多个个性化概念的图像和视频,让生成结果更具独特性和创意注: TweedieMix 示例
VideoGuide:无需额外训练改进视频扩散模型效果的解决方案https://github.com/KwonGihyun/TweedieMix/ |
VideoGuide 能够在不需额外训练的情况下,提升文本到视频模型生成的视频质量。它增强了动作的流畅度和图像的清晰度,使视频更加连贯且视觉上更具吸引力注: VideoGuide 示例
TANGO:利用分层音频动作嵌入和扩散插值实现同步手势视频再现https://pantomatrix.github.io/TANGO/ |
TANGO 可以从单个视频生成与语音音频同步的高质量身体手势视频。它通过修正音频与动作的不匹配,并使用扩散模型来实现平滑过渡,从而提升了视频的真实感和同步性注: TANGO 示例
https://monst3r-project.github.io/ |
MonST3R 可以从视频中随时间估计三维形状,生成动态点云并跟踪摄像机位置。它在视频深度预估方面表现优异,比以往技术更有效地分离移动和静止的物体注: MonST3R 示例
https://epiphqny.github.io/Loong-video/ |
Loong 通过将文本和视频片段视为单一序列,能够生成时长达数分钟的视频注: Loong 示例
Inverse Painting:重现绘画过程的逆向生成方案https://inversepainting.github.io/ |
Inverse Painting 能够根据目标艺术作品,生成绘画过程的延时视频。它使用基于扩散的渲染器,学习真实艺术家的技法,在不同艺术风格下产生逼真的效果注: Inverse Painting 示例
Stable Video Portraits:生成逼真的动态人脸视频https://inversepainting.github.io/ |
Stable Video Portraits 利用文本到图像模型和 3D 可变形模型(3DMM),生成逼真的说话人脸视频。它可以根据特定人物创建专属头像,并将其转化为文本定义的名人形象,生成流畅且高质量的视频,无需额外的微调注: Inverse Painting 示例
https://presto-music.github.io/web/ |
Presto! 可以在 230 毫秒内生成 32 秒的高质量音乐,是目前最快的文本到音乐生成选项注: Presto! 示例
AI Dev Explainer
@atroyn 制作了一个通俗易懂的资源,帮助大家入门使用大型语言模型(LLM)构建 AI 应用https://www.aiexplainer.dev/ |
@flngr 创建了一个 Hugging Face Space,用户可以通过简单的拖放操作修改图像中的人脸特征https://huggingface.co/spaces/jbilcke-hf/FacePoke |
如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!
注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!