AI Art Weekly | AI 艺术周刊 #42

文摘科技 2024-09-23 06:58 北京

欢迎大家踏入本期的《AI艺术周刊》。在这里，我们将一同探讨每周人工智能的最新进展，及其如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者，还是对这一领域充满好奇的新手，我们都将为你带来灵感的火花和在实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱，探索它的无限可能。

* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作，不妨在下方赠我一杯咖啡，可以令我保持思绪清晰与热情不减 🙏

🌟 本期要闻：

Runway 推出了全新 Gen-3 Alpha Video-to-Video 模型

https://runwayml.com/

这是 Runway 最新一代的视频风格转换功能。与前几代相比，新的版本在画质、连贯性、动作捕捉和速度上都有显著提升。其主要特点包括：

支持最长10秒的视频片段
输出分辨率为720p，16:9的宽屏比例（1280x768）
提供可定制的结构转换功能
使用固定种子生成一致性结果

注: Gen-3 Alpha Video-to-Video

Luma 推出了 Luma Labs Dream Machine

https://lumalabs.ai/dream-machine/api

Runway 和 Luma 相继推出了全新的 AI 视频生成 API，让开发者和企业更容易接入先进的视频生成功能。虽然目前 Runway 的 API 仅对部分合作伙伴开放，但 Luma 的 Dream Machine API 已经进入测试阶段，提供 v1.6 版本的模型，收费标准为每 5 秒视频 40 美分，功能包括：

文本生成视频和图片生成视频
摄像机控制与视频扩展
无缝循环视频制作
可支持比例变化

注: Luma Labs Dream Machine 示例

DreamBeast 能够生成拥有不同身体部位的独特 3D 动物模型

https://dreambeast3d.github.io/

它采用了 Stable Diffusion 3 的技术，通过从多个视角快速生成详细的 “部位亲和图”，从而提升了模型的质量，同时有效减少了计算资源的消耗。这个方法使得创作者可以更加轻松地制作复杂精美的 3D 动物形象，为游戏、影视等领域带来了更丰富的创作素材和灵感

注: DreamBeast 示例

DrawingSpinUp：能够从单张2D角色图中生成3D动画

https://lordliang.github.io/DrawingSpinUp/

DrawingSpinUp 可以自动去除多余的线条，并采用基于骨架的算法，使角色能够进行旋转、跳跃和舞蹈等动态表现。这个技术为二维图像赋予了生动的三维生命，为动画制作和游戏开发提供了更加高效便捷的解决方案

注: DrawingSpinUp 示例

DreamHOI：够根据文本描述生成逼真的3D人类与物体交互场景（HOI）

https://dreamhoi.github.io/

通过调整带有皮肤的 3D 人类模型的姿势，使其与指定物体进行互动，而无需依赖庞大的数据集。该技术利用文本生成图像的扩散模型，创造出多样化的交互场景，为虚拟现实、游戏设计以及人机交互等领域带来了更加丰富的创作和应用可能性

注: DreamHOI 示例

ProbTalk3D：根据音频输入生成带有不同情感的3D面部动画

https://uuembodiedsocialai.github.io/ProbTalk3D/

ProbTalk3D 采用了两阶段的 VQ-VAE 模型，并结合 3DMEAD 数据集，实现了丰富多样的面部表情和精准的唇形同步。这项技术可以为虚拟角色赋予更加生动的情感表现，为影视制作、虚拟主播和人机交互等领域提供了更逼真的视觉效果和交互体验

注: ProbTalk3D 示例

MoRAG：一种多模态融合的检索增强生成技术

https://motion-rag.github.io/

MoRAG 通过改进运动扩散模型，实现了从文本生成和检索人类动作的功能。这项技术能够根据描述精准生成复杂的人体动作，为动画制作、虚拟角色驱动和游戏开发等领域提供了更高效、灵活的解决方案

注: MoRAG 示例

Phidias：根据文本、图像和3D参考条件快速生成高质量的3D模型

https://rag-3d.github.io/

采用了参考增强扩散（Reference-Augmented Diffusion）技术，大幅提升了生成效果和速度，在短短几秒内即可完成复杂的 3D 模型创建。该技术为游戏开发、影视制作以及虚拟现实等领域带来了更加高效、精细的 3D 内容创作工具

注: Phidias 示例

Generative Radiance Field Relighting：一种基于扩散模型的辐射场重光照方法

https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/

生成式辐射场重光照技术能够对仅在单一光源下捕捉的 3D 场景进行光照重建。它允许对光线方向进行真实感控制，并改善不同视角下的光照一致性，非常适合包含多个物体的复杂场景。这项技术为影视制作、虚拟现实以及 3D 场景的创作带来了更加灵活和逼真的光照调节能力

注: Generative Radiance Field Relighting 示例

LT3SD：用于3D场景扩散的潜在树结构

https://quan-meng.github.io/projects/lt3sd/

LT3SD 能够生成大规模的 3D 场景，它采用了一种既能捕捉基础形状又能呈现细节的生成方法。该技术支持灵活的输出尺寸，能够生成高质量的场景，并且可以补全场景中缺失的部分。这为建筑设计、游戏开发和虚拟现实等领域提供了更加精细和完整的 3D 场景创作工具，大幅提升了复杂场景的生成效率和效果

注: LT3SD 示例

SPARK：自监督个性化实时单目面部捕捉技术

https://kelianb.github.io/SPARK/

SPARK 可以从普通视频中生成高质量的 3D 面部头像，并实时跟踪表情和姿态。这项技术提升了 3D 面部重建的精度，适用于年龄变化模拟、面部替换和数字化妆等任务。SPARK 为虚拟形象创建、影视特效和增强现实等领域提供了更加精准和个性化的解决方案，使得 3D 面部捕捉变得更加便捷高效

注: SPARK 示例

DualGS：稳健的双高斯分布技术用于沉浸式人本体积视频

https://nowheretrix.github.io/DualGS

DualGS 技术能够在保持复杂 4D 人体表演实时播放的同时，将视频数据压缩至原来的 120 分之一。它通过分别使用皮肤和关节高斯模型来表示运动和外观，大大提升了虚拟现实中视频的画质。每帧数据仅需约 350KB 存储空间，极大地减少了存储需求，为 VR 体验中的高质量、流畅视频播放提供了强有力的支持。这项技术在虚拟现实、增强现实和沉浸式影视制作等领域展现出广阔的应用前景

注: DualGS 示例

TextBoost：通过微调文本编码器实现文本生成图像模型的一次性个性化

https://textboost.github.io/

TextBoost 能够通过微调文本编码器，实现文本生成图像模型的 “一次性” 个性化定制。它可以根据单张参考图像生成多样化的图像，同时有效减少过拟合和内存需求。该技术在保持生成效果多样性的同时，大幅提升了个性化定制的效率，为个性化内容创作、品牌营销和视觉设计等领域提供了更加灵活和高效的解决方案

注: TextBoost 示例

InstantDrag：提升基于拖拽图像编辑的交互体验

https://github.com/SNU-VGILab/InstantDrag

InstantDrag 能够通过拖拽指令快速编辑图像，无需使用遮罩或文本提示。它采用双网络系统学习运动动态，实现实时、逼真的图像编辑效果。该技术让用户能够更加直观、高效地进行图像调整，为图片编辑、视觉设计和创意制作带来了更便捷的交互体验

注: InstantDrag 示例

DreamMover：利用扩散模型先验进行大幅运动图像插值

https://dreamm0ver.github.io/

DreamMover 能够在图像对之间存在大幅运动的情况下，生成高质量的中间图像和短视频。它采用基于扩散模型的光流估计器，能够保留细节并确保各帧与输入图像之间的连贯性。该技术为动画制作、视觉效果生成和运动过渡场景创建提供了更精确和自然的解决方案，显著提升了大幅运动场景的图像插值质量

注: DreamMover 示例

STA-V2A：具备语义和时间对齐的视频生成音频技术

https://y-ren16.github.io/STAV2A/

STA-V2A 能够通过从视频中提取关键特征，并结合文本指导，生成高质量的音频。它采用潜在扩散模型（Latent Diffusion Model）进行音频创建，并引入了一种全新的指标 — Audio-Audio Align，用于评估音频与视频时间同步的匹配度。该技术在影视配音、自动化内容创作以及多媒体应用中，为视频与音频的高度融合提供了更加精准的解决方案，显著提升了视听内容的连贯性和体验感

注: STA-V2A 示例

METEOR：基于旋律感知的纹理可控符号管弦乐生成

https://dinhviettoanle.github.io/meteor/

METEOR 能够生成管弦乐音乐，并且允许用户控制伴奏的纹理。它实现了高质量的音乐风格迁移，使用户可以在小节和轨道层面上自由调整旋律和音乐纹理。该技术为音乐创作和编曲提供了更精细的控制和创作灵感，能够满足不同音乐风格和情感表达的需求，为作曲家和音乐爱好者带来了更加灵活的创作体验

注: METEOR 示例

SD-Codec：神经音频编码中的音源分离技术

https://xiaoyubie1994.github.io/sdcodec/

SD-Codec 能够将语音、音乐和音效等音频信号进行分离和重建，并为每种类型的音频信号使用不同的码书。这种方法不仅提升了我们对音频编解码技术的理解，还在保持高音质的前提下，实现了对音频生成的更好控制。该技术为音频编辑、音效合成以及多媒体应用提供了更加精细和精准的处理能力

注: SD-Codec 示例

Seed-Music：高质量可控音乐生成的统一框架

https://team.doubao.com/en/special/seed-music

Seed-Music 能够生成多语言的高质量人声音乐。用户可以通过文字描述和音频样本来控制音乐的风格和演唱表现，同时还支持对生成音频中的歌词和旋律进行精确编辑。这一技术为音乐创作提供了更多灵活性和创作自由，为作曲家和音乐制作人带来了更丰富的表达方式和创作工具

注: Seed-Music 示例

⚒️ 工具与教程:

在生成式AI时代的合成爱情故事

@FabianMosele 创作了一部18分钟长的合成爱情故事，背景设定在生成式AI的时代，故事中还融入了#shoggoth（修格斯）的元素。这个作品展示了AI技术在文学和艺术创作中的应用，打破了传统创作的界限，为观众带来了前所未有的视听体验

https://www.youtube.com/watch?v=6mf_HudEhFQhttps://x.com/ammaar/status/1834312398016074083?ref=aiartweekly

精美AI短片《Neon Nights》

@henrydaubrez 和他的团队与可口可乐合作制作了一部名为《Neon Nights》的AI短片。这可能是迄今为止最精致的AI电影作品之一～如果不提前告知，你可能根本不会察觉到这部电影是由AI创作的

https://x.com/henrydaubrez/status/1836075756851716231

Gen-3 视频转视频短片

@mrjonfinger 利用 Gen-3 最新的视频转视频功能，将他的真人实景拍摄素材转化为科幻场景，制作了一部AI短片。这项技术将现实画面与虚拟创作无缝融合，为视觉效果和故事呈现带来了全新的可能性

https://x.com/mrjonfinger/status/1836950204240581053

Gen-3 Vid2Vid + SAM2 遮罩测试

@CoffeeVectors 使用 Gen-3 的视频转视频功能和 SAM2 遮罩技术，对 Pexels 上的一些拳击视频进行了测试。通过这项技术，原始视频得到了新的视觉效果和风格呈现，为运动场景的后期制作提供了更多创意可能性

https://x.com/CoffeeVectors/status/1835889723077808610

Kling AI 1.5：动态画笔功能

本周，Kling AI 1.5 正式发布。@EHuanglu 展示了其全新的“动态画笔”功能，通过在图片或绘画上简单绘制，即可为静态图像和绘画添加动画效果。这项功能为创作者提供了更便捷的动态创作方式，让图像瞬间“动”起来，带来了更多创意表达的可能性

https://klingai.com/

如果你也对 Midjourney 或艺术设计感兴趣，那么欢迎加入我们的社群！在这里，我们可以一起探讨有趣的设计话题，共同探索 Midjourney 所带来的无限可能性！

注：如果你与我一样热衷于紧跟人工智能与设计的最新趋势，那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息，让你的信息库始终保持最新状态

▲ 好了，以上这些就是本节的全部内容了～如果，你也对 AI 绘画感兴趣，不妨记得关注我！我们下期见！！

http://mp.weixin.qq.com/s?__biz=MzI5NDY3MTg5NA==&mid=2247495042&idx=1&sn=1f7c46047fc2b0be223d3ed64c31f2cc

设计师的自我修行

创意— 并非要让人惊奇它崭新的形式和素材，而是应让人惊异它源自最平凡的生活。

AI Art Weekly | AI 艺术周刊 #47

AI Art Weekly | AI 艺术周刊 #46

AI Art Weekly | AI 艺术周刊 #45

AI Art Weekly | AI 艺术周刊 #44

AI Art Weekly | AI 艺术周刊 #43

AI Art Weekly | AI 艺术周刊 #42

AI Art Weekly | AI 艺术周刊 #41

Midjourney 人工智能艺术创作从入门到精通·高级篇4：厌倦了"夸张的Midjourney风格?"五个技巧让你的作品更自然

AI Art Weekly | AI 艺术周刊 #40

AI Art Weekly | AI 艺术周刊 #39

AI Art Weekly | AI 艺术周刊 #38

AI Art Weekly | AI 艺术周刊 #37

AI Art Weekly | AI 艺术周刊 #36

Midjourney 人工智能艺术创作从入门到精通·进阶篇7：建筑设计

AI Art Weekly | AI 艺术周刊 #35

AI Art Weekly | AI 艺术周刊 #34

AI Art Weekly | AI 艺术周刊 #33

AI Art Weekly | AI 艺术周刊 #32

AI Art Weekly | AI 艺术周刊 #31

Midjourney 人工智能艺术创作从入门到精通·基础篇11：--p（Personalization）

AI Art Weekly | AI 艺术周刊 #30

Midjourney 人工智能艺术创作从入门到精通·进阶篇6：摄影术语

AI Art Weekly | AI 艺术周刊 #29

AI Art Weekly | AI 艺术周刊 #28

AI Art Weekly | AI 艺术周刊 #26

Midjourney 人工智能艺术创作从入门到精通·基础篇10：--sref random

AI Art Weekly | AI 艺术周刊 #26

Midjourney 人工智能艺术创作从入门到精通·高级篇3：如何创建一致的*多个*角色

AI Art Weekly | AI 艺术周刊 #25

AI Art Weekly | AI 艺术周刊 #24

AI Art Weekly | AI 艺术周刊 #23

AI Art Weekly | AI 艺术周刊 #22

AI Art Weekly | AI 艺术周刊 #21

AI Art Weekly | AI 艺术周刊 #20

Midjourney 人工智能艺术创作从入门到精通·基础篇9：--cref

AI Art Weekly | AI 艺术周刊 #19

AI Art Weekly | AI 艺术周刊 #18

AI Art Weekly | AI 艺术周刊 #17

AI Art Weekly | AI 艺术周刊 #16

AI Art Weekly | AI 艺术周刊 #15

AI Art Weekly | AI 艺术周刊 #14

Midjourney 人工智能艺术创作从入门到精通·基础篇8：Niji6 Alpha 与 --sref

Midjourney 人工智能艺术创作从入门到精通·高级篇2：标点符号使用终极指南

AI Art Weekly | AI 艺术周刊 #13

AI Art Weekly | AI 艺术周刊 #12

AI Art Weekly | AI 艺术周刊 #11

AI Art Weekly | AI 艺术周刊 #9

AI Art Weekly | AI 艺术周刊 #10

Midjourney 人工智能艺术创作从入门到精通·高级篇1：有效解决角色一致性问题的新方法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉