AI Art Weekly | AI 艺术周刊 #42

文摘   科技   2024-09-23 06:58   北京  

欢迎大家踏入本期的《AI艺术周刊》。在这里,我们将一同探讨每周人工智能的最新进展,及其如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和在实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。
* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏

🌟 本期要闻

Runway 推出了全新 Gen-3 Alpha Video-to-Video 模型 
https://runwayml.com/

这是 Runway 最新一代的视频风格转换功能。与前几代相比,新的版本在画质、连贯性、动作捕捉和速度上都有显著提升。其主要特点包括:

  • 支持最长10秒的视频片段

  • 输出分辨率为720p,16:9的宽屏比例(1280x768)

  • 提供可定制的结构转换功能

  • 使用固定种子生成一致性结果
注: Gen-3 Alpha Video-to-Video

Luma 推出了 Luma Labs Dream Machine

https://lumalabs.ai/dream-machine/api
Runway 和 Luma 相继推出了全新的 AI 视频生成 API,让开发者和企业更容易接入先进的视频生成功能。虽然目前 Runway 的 API 仅对部分合作伙伴开放,但 Luma 的 Dream Machine API 已经进入测试阶段,提供 v1.6 版本的模型,收费标准为每 5 秒视频 40 美分,功能包括:
  • 文本生成视频和图片生成视频

  • 摄像机控制与视频扩展
  • 无缝循环视频制作
  • 可支持比例变化

注: Luma Labs Dream Machine 示例

DreamBeast 能够生成拥有不同身体部位的独特 3D 动物模型
https://dreambeast3d.github.io/
它采用了 Stable Diffusion 3 的技术,通过从多个视角快速生成详细的 “部位亲和图”,从而提升了模型的质量,同时有效减少了计算资源的消耗。这个方法使得创作者可以更加轻松地制作复杂精美的 3D 动物形象,为游戏、影视等领域带来了更丰富的创作素材和灵感
注: DreamBeast 示例
DrawingSpinUp:能够从单张2D角色图中生成3D动画

https://lordliang.github.io/DrawingSpinUp/

DrawingSpinUp 可以自动去除多余的线条,并采用基于骨架的算法,使角色能够进行旋转、跳跃和舞蹈等动态表现。这个技术为二维图像赋予了生动的三维生命,为动画制作和游戏开发提供了更加高效便捷的解决方案
注: DrawingSpinUp 示例
DreamHOI:够根据文本描述生成逼真的3D人类与物体交互场景(HOI)

https://dreamhoi.github.io/

通过调整带有皮肤的 3D 人类模型的姿势,使其与指定物体进行互动,而无需依赖庞大的数据集。该技术利用文本生成图像的扩散模型,创造出多样化的交互场景,为虚拟现实、游戏设计以及人机交互等领域带来了更加丰富的创作和应用可能性
注: DreamHOI 示例
ProbTalk3D:根据音频输入生成带有不同情感的3D面部动画
https://uuembodiedsocialai.github.io/ProbTalk3D/
ProbTalk3D 采用了两阶段的 VQ-VAE 模型,并结合 3DMEAD 数据集,实现了丰富多样的面部表情和精准的唇形同步。这项技术可以为虚拟角色赋予更加生动的情感表现,为影视制作、虚拟主播和人机交互等领域提供了更逼真的视觉效果和交互体验

注: ProbTalk3D 示例

MoRAG:一种多模态融合的检索增强生成技术
https://motion-rag.github.io/
MoRAG 通过改进运动扩散模型,实现了从文本生成和检索人类动作的功能。这项技术能够根据描述精准生成复杂的人体动作,为动画制作、虚拟角色驱动和游戏开发等领域提供了更高效、灵活的解决方案

注: MoRAG 示例

Phidias:根据文本、图像和3D参考条件快速生成高质量的3D模型
https://rag-3d.github.io/
采用了参考增强扩散(Reference-Augmented Diffusion)技术,大幅提升了生成效果和速度,在短短几秒内即可完成复杂的 3D 模型创建。该技术为游戏开发、影视制作以及虚拟现实等领域带来了更加高效、精细的 3D 内容创作工具

注: Phidias 示例

Generative Radiance Field Relighting:一种基于扩散模型的辐射场重光照方法

https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/

生成式辐射场重光照技术能够对仅在单一光源下捕捉的 3D 场景进行光照重建。它允许对光线方向进行真实感控制,并改善不同视角下的光照一致性,非常适合包含多个物体的复杂场景。这项技术为影视制作、虚拟现实以及 3D 场景的创作带来了更加灵活和逼真的光照调节能力

注: Generative Radiance Field Relighting 示例

LT3SD:用于3D场景扩散的潜在树结构

https://quan-meng.github.io/projects/lt3sd/

LT3SD 能够生成大规模的 3D 场景,它采用了一种既能捕捉基础形状又能呈现细节的生成方法。该技术支持灵活的输出尺寸,能够生成高质量的场景,并且可以补全场景中缺失的部分。这为建筑设计、游戏开发和虚拟现实等领域提供了更加精细和完整的 3D 场景创作工具,大幅提升了复杂场景的生成效率和效果

注: LT3SD 示例

SPARK:自监督个性化实时单目面部捕捉技术
https://kelianb.github.io/SPARK/
SPARK 可以从普通视频中生成高质量的 3D 面部头像,并实时跟踪表情和姿态。这项技术提升了 3D 面部重建的精度,适用于年龄变化模拟、面部替换和数字化妆等任务。SPARK 为虚拟形象创建、影视特效和增强现实等领域提供了更加精准和个性化的解决方案,使得 3D 面部捕捉变得更加便捷高效

注: SPARK 示例

DualGS:稳健的双高斯分布技术用于沉浸式人本体积视频
https://nowheretrix.github.io/DualGS
DualGS 技术能够在保持复杂 4D 人体表演实时播放的同时,将视频数据压缩至原来的 120 分之一。它通过分别使用皮肤和关节高斯模型来表示运动和外观,大大提升了虚拟现实中视频的画质。每帧数据仅需约 350KB 存储空间,极大地减少了存储需求,为 VR 体验中的高质量、流畅视频播放提供了强有力的支持。这项技术在虚拟现实、增强现实和沉浸式影视制作等领域展现出广阔的应用前景

注: DualGS 示例

TextBoost:通过微调文本编码器实现文本生成图像模型的一次性个性化
https://textboost.github.io/
TextBoost 能够通过微调文本编码器,实现文本生成图像模型的 “一次性” 个性化定制。它可以根据单张参考图像生成多样化的图像,同时有效减少过拟合和内存需求。该技术在保持生成效果多样性的同时,大幅提升了个性化定制的效率,为个性化内容创作、品牌营销和视觉设计等领域提供了更加灵活和高效的解决方案

注: TextBoost 示例

InstantDrag:提升基于拖拽图像编辑的交互体验
https://github.com/SNU-VGILab/InstantDrag
InstantDrag 能够通过拖拽指令快速编辑图像,无需使用遮罩或文本提示。它采用双网络系统学习运动动态,实现实时、逼真的图像编辑效果。该技术让用户能够更加直观、高效地进行图像调整,为图片编辑、视觉设计和创意制作带来了更便捷的交互体验

注: InstantDrag 示例

DreamMover:利用扩散模型先验进行大幅运动图像插值
https://dreamm0ver.github.io/
DreamMover 能够在图像对之间存在大幅运动的情况下,生成高质量的中间图像和短视频。它采用基于扩散模型的光流估计器,能够保留细节并确保各帧与输入图像之间的连贯性。该技术为动画制作、视觉效果生成和运动过渡场景创建提供了更精确和自然的解决方案,显著提升了大幅运动场景的图像插值质量

注: DreamMover 示例

STA-V2A:具备语义和时间对齐的视频生成音频技术
https://y-ren16.github.io/STAV2A/
STA-V2A 能够通过从视频中提取关键特征,并结合文本指导,生成高质量的音频。它采用潜在扩散模型(Latent Diffusion Model)进行音频创建,并引入了一种全新的指标 — Audio-Audio Align,用于评估音频与视频时间同步的匹配度。该技术在影视配音、自动化内容创作以及多媒体应用中,为视频与音频的高度融合提供了更加精准的解决方案,显著提升了视听内容的连贯性和体验感

注: STA-V2A 示例

METEOR:基于旋律感知的纹理可控符号管弦乐生成
https://dinhviettoanle.github.io/meteor/
METEOR 能够生成管弦乐音乐,并且允许用户控制伴奏的纹理。它实现了高质量的音乐风格迁移,使用户可以在小节和轨道层面上自由调整旋律和音乐纹理。该技术为音乐创作和编曲提供了更精细的控制和创作灵感,能够满足不同音乐风格和情感表达的需求,为作曲家和音乐爱好者带来了更加灵活的创作体验

注: METEOR 示例

SD-Codec:神经音频编码中的音源分离技术
https://xiaoyubie1994.github.io/sdcodec/
SD-Codec 能够将语音、音乐和音效等音频信号进行分离和重建,并为每种类型的音频信号使用不同的码书。这种方法不仅提升了我们对音频编解码技术的理解,还在保持高音质的前提下,实现了对音频生成的更好控制。该技术为音频编辑、音效合成以及多媒体应用提供了更加精细和精准的处理能力

注: SD-Codec 示例

Seed-Music:高质量可控音乐生成的统一框架
https://team.doubao.com/en/special/seed-music
Seed-Music 能够生成多语言的高质量人声音乐。用户可以通过文字描述和音频样本来控制音乐的风格和演唱表现,同时还支持对生成音频中的歌词和旋律进行精确编辑。这一技术为音乐创作提供了更多灵活性和创作自由,为作曲家和音乐制作人带来了更丰富的表达方式和创作工具

注: Seed-Music 示例

⚒️ 工具与教程:

在生成式AI时代的合成爱情故事

@FabianMosele 创作了一部18分钟长的合成爱情故事,背景设定在生成式AI的时代,故事中还融入了#shoggoth(修格斯)的元素。这个作品展示了AI技术在文学和艺术创作中的应用,打破了传统创作的界限,为观众带来了前所未有的视听体验

https://www.youtube.com/watch?v=6mf_HudEhFQhttps://x.com/ammaar/status/1834312398016074083?ref=aiartweekly

精美AI短片《Neon Nights》
@henrydaubrez 和他的团队与可口可乐合作制作了一部名为《Neon Nights》的AI短片。这可能是迄今为止最精致的AI电影作品之一 ~如果不提前告知,你可能根本不会察觉到这部电影是由AI创作的

https://x.com/henrydaubrez/status/1836075756851716231

Gen-3 视频转视频短片
@mrjonfinger 利用 Gen-3 最新的视频转视频功能,将他的真人实景拍摄素材转化为科幻场景,制作了一部AI短片。这项技术将现实画面与虚拟创作无缝融合,为视觉效果和故事呈现带来了全新的可能性

https://x.com/mrjonfinger/status/1836950204240581053

Gen-3 Vid2Vid + SAM2 遮罩测试
@CoffeeVectors 使用 Gen-3 的视频转视频功能和 SAM2 遮罩技术,对 Pexels 上的一些拳击视频进行了测试。通过这项技术,原始视频得到了新的视觉效果和风格呈现,为运动场景的后期制作提供了更多创意可能性

https://x.com/CoffeeVectors/status/1835889723077808610

Kling AI 1.5:动态画笔功能
本周,Kling AI 1.5 正式发布。@EHuanglu 展示了其全新的“动态画笔”功能,通过在图片或绘画上简单绘制,即可为静态图像和绘画添加动画效果。这项功能为创作者提供了更便捷的动态创作方式,让图像瞬间“动”起来,带来了更多创意表达的可能性

https://klingai.com/

如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!

注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态
▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!

设计师的自我修行
创意— 并非要让人惊奇它崭新的形式和素材, 而是应让人惊异它源自最平凡的生活。
 最新文章