AI Art Weekly | AI 艺术周刊 #41

文摘   科技   2024-09-16 10:34   北京  

欢迎大家踏入本期的《AI艺术周刊》。在这里,我们将一同探讨每周人工智能的最新进展,及其如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和在实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。
* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏

🌟 本期要闻

OpenAI 推出全新 o1 模型
https://openai.com/o1/?ref=aiartweekly

上周热点无疑是 OpenAI 发布了他们的全新 o1 模型:o1-mini 和 o1-preview。这两个大型语言模型在 AI 推理能力方面取得了重大突破。它们通过强化学习,在回应查询前构建复杂的思维链,根据他们的内部评估,这些模型:

  • 在编程竞赛问题中排名达到了前 89 位

  • 在美国数学奥林匹克竞赛选拔中跻身全美前 500 名学生之列

  • 在物理、生物和化学问题上超过了博士级的准确度

  • 随着训练和思考时间的增加,性能有所提升

早期版本 o1-preview 和 o1-mini 现已向 ChatGPT Plus 用户开放,API 用户如果达到使用级别第 5 级(如果在他们的 API 上花费了 1000 美元,就会拥有此级别)也可以使用

注: 在具有挑战性的推理基准测试中,o1 相较于 GPT-4o 取得了显著提升

海罗视频模型

https://hailuoai.com/video?ref=aiartweekly
由阿里巴巴和腾讯支持的中国人工智能初创公司 MiniMax 发布了他们的文本生成视频模型 — 海螺 AI,旨在与 OpenAI 的 Sora、Runway 的 Gen-3 和 LumaLabs 的 DreamMachine 等展开竞争。不可否认,这是我目前在文本生成视频模型中见过的连贯性和动态范围最好的模型
  • 6 秒长视频:支持 1280x720 分辨率,25 帧每秒的高质量视频
  • 逼真的人物动作:生成真实的人体运动效果
  • 中英文提示词支持:兼容中文和英文的文本输入

注: 海螺 AI 示例

谷歌 GameNGen

https://jzbao03.site/projects/PIR/?ref=aiartweekly

谷歌开发了一种名为 GameNGen 的神经模型,能够以每秒超过 20 帧的速度实时模拟经典游戏《毁灭战士》。该模型高质量地预测下一帧画面,使人们几乎无法分辨真实游戏与模拟游戏的区别。简直令人难以置信
注: GameNGen 示例
GVHMR:基于重力视角坐标的世界对齐人体运动恢复

https://zju3dv.github.io/gvhmr/?ref=aiartweekly

GVHMR 能够通过在与重力和相机对齐的重力视角坐标系中估计人体姿态,从单目视频中恢复人体运动
注: GVHMR 示例
MeshFormer:基于 3D 引导重建模型的高质量网格生成

https://meshformer3d.github.io/?ref=aiartweekly

MeshFormer 能够在短短几秒内,仅凭几张二维图像,生成高质量的三维纹理网格
注: MeshFormer 示例
SPA-RP:从稀疏视角快速进行三维物体重建和姿态估计
https://chaoxu.xyz/sparp/?ref=aiartweekly
SPA-RP 能够从一张或几张二维图像中创建三维纹理网格并估计相机位置。它利用二维扩散模型快速理解三维空间,在大约 20 秒内即可生成高质量的结果

注: SPA-RP 示例

TransGS:用于可重光和可交互面部渲染的即时面部高斯转换器
https://dafei-qin.github.io/TransGS.github.io/?ref=aiartweekly
TransGS 能够将基于物理的面部素材即时转换为结构化的高斯表示,实现移动设备上以 1440p 分辨率、每秒 30 帧的实时渲染

注: TransGS 示例

Human-VDM:通过视频扩散模型从单张图像学习 3D 人体高斯散点
https://human-vdm.github.io/Human-VDM/?ref=aiartweekly
Human-VDM 能够从一张 RGB 图像中生成高质量的三维人体模型

注: Human-VDM 示例

MagicMan:利用三维感知扩散和迭代优化生成新的人体视角

https://thuhcsi.github.io/MagicMan/?ref=aiartweekly

MagicMan 能够从单张照片生成高质量的三维人体图像和法线贴图

注: MagicMan 示例

LayerPano3D:实现超沉浸式场景生成

https://ys-imtech.github.io/projects/LayerPano3D/?ref=aiartweekly

LayerPano3D 能够通过将二维全景图分解为深度层,只需一个文本提示,就生成沉浸式的三维场景

注: LayerPano3D 示例

Subsurface Scattering for Gaussian Splatting:用于3D高斯散点的次表面散射
https://sss.jdihlmann.com/?ref=aiartweekly
通过在高斯散点中引入次表面散射技术,可以实时渲染和重新照明半透明物体。它支持细致的材质编辑,并以约每秒 150 帧的速度实现高品质的视觉效果

注: SSS 示例

TEDRA:基于文本的动态逼真角色编辑
https://vcai.mpi-inf.mpg.de/projects/Tedra/?ref=aiartweekly
TEDRA 能够根据文本提示编辑动态的三维化身。它使用个性化的扩散模型,允许对服装风格进行细致的修改,同时确保高质量和流畅的动作表现

注: TEDRA 示例

One-DM:用于手写文本生成的单样本扩散模仿器
https://github.com/dailenson/One-DM?ref=aiartweekly
One-DM 能够从单个参考样本生成手写文本,精确模仿输入的书写风格。它捕捉了独特的书写模式,并在多种语言中表现出色

注: One-DM 示例

LinFusion:1 块 GPU,1 分钟,生成 16K 图像
https://github.com/dailenson/One-DM?ref=aiartweekly
LinFusion 能够仅用一块 GPU,在一分钟内生成高达 16K 分辨率的高质量图像。它提升了各种 Stable Diffusion 版本的性能,并且兼容 ControlNet 和 IP-Adapter 等预训练组件

注: LinFusion 示例

CSGO:文本到图像生成中的内容与风格组合
https://csgo-gen.github.io/?ref=aiartweekly
CSGO 可以执行基于图像的风格迁移和基于文本的风格化合成。它利用了一个包含 21 万张图像三元组的大型数据集,增强了图像生成中对风格的精确控制

注: CSGO 示例

Iterative Object Count Optimization:提升文本到图像扩散模型的计数准确性
https://ozzafar.github.io/count_token/?ref=aiartweekly
Iterative Object Count Optimization 可以有效提高文本到图像扩散模型中物体计数的准确性

注: Iterative Object Count Optimization 示例

MagicFace:提升文本到图像扩散模型的计数准确性
https://codegoat24.github.io/MagicFace/?ref=aiartweekly
MagicFace 能够在不需要额外训练的情况下,生成任意风格的高质量人像图像

注: MagicFace 示例

CrossViewDiff:用于卫星图像到街景合成的跨视角扩散模型
https://opendatalab.github.io/CrossViewDiff/?ref=aiartweekly
CrossViewDiff 能够利用跨视角扩散模型,从卫星视图图像生成高质量的街景图像

注: CrossViewDiff 示例

SwiftBrush v2:非常优秀的图像生成扩散模型
https://swiftbrushv2.github.io/?ref=aiartweekly
SwiftBrush v2 能够提升一步文本到图像扩散模型生成的图像质量。结果非常出色,而且据称在基准测试中,其表现优于所有基于 GAN 的模型和多步 Stable Diffusion 模型。不过,目前还没有代码发布

注: SwiftBrush v2 示例

MegaFusion:无需进一步调优的扩散模型实现更高分辨率图像生成方案
https://haoningwu3639.github.io/MegaFusion/?ref=aiartweekly
MegaFusion 能够扩展现有的扩散模型,用于高分辨率图像生成。通过在不同分辨率下增强去噪过程,它仅以原始计算成本的 40% 就能生成高达 2048x2048 分辨率的图像

注: MegaFusion 示例

ViewCrafter:实现高保真新视角合成
https://drexubery.github.io/ViewCrafter/?ref=aiartweekly
ViewCrafter 能够利用视频扩散模型,从单张或少量图像生成高质量的三维视图。它允许精确的相机控制,非常适用于实时渲染和将文本转换为三维场景

注: ViewCrafter 示例

Follow-Your-Canvas:伴随画布的高分辨率视频外延,实现丰富的内容生成
https://follow-your-canvas.github.io/?ref=aiartweekly
Follow-Your-Canvas 能够对视频进行高分辨率的外延,从 512x512 提升至 1152x2048,实现了更广泛的内容生成

注: Follow-Your-Canvas 示例

Tps-Inbetweens:基于插值的动画线稿中间帧生成方案
https://github.com/Tian-one/tps-inbetween?ref=aiartweekly
Tps-Inbetween 能够为动画线稿生成高质量的中间帧。对帧间关键点关系进行建模,有效地连接线条并填补缺失的细节,即使在快速运动的情况下也能保持较为出色的效果

注: Tps-Inbetween 示例

TVG:基于扩散模型的无需训练的过渡视频生成方法
https://sobeymil.github.io/tvg.com/?ref=aiartweekly
TVG 能够在无需训练的情况下,在两张图像之间生成平滑的过渡视频。它利用扩散模型和高斯过程回归,生成高质量的结果,并增加了对时间的控制,实现更精确的过渡效果

注: TVG 示例

PersonaTalk:一款优秀的视频配音方案
https://grisoon.github.io/PersonaTalk/?ref=aiartweekly
PersonaTalk 能够在保持说话者独特风格和面部细节的同时,实现高质量的视觉配音。无论是处理音频、参考视频,还是将配音转换为其他语言,它都能出色地完成任务

注: PersonaTalk 示例

PoseTalk:基于文本和音频的姿态控制与动作优化方案
https://junleen.github.io/projects/posetalk/?ref=aiartweekly
PoseTalk 能够从单张图像、音频和文本提示生成唇同步的说话人视频。它支持自由的头部姿态,并通过姿态潜在扩散模型创造多样化的姿势

注: PoseTalk 示例

Loopy:通过长时依赖控制音频驱动的人像动画方案
https://loopyavatar.github.io/?ref=aiartweekly
Loopy 能够根据音频输入生成逼真的视频人像。它无需动作模板即可捕捉非语言的面部动作和情感表达,生成高质量的动态视频

注: Loopy 示例

DepthCrafter:为开放世界视频生成一致的长深度序列
https://depthcrafter.github.io/?ref=aiartweekly
DepthCrafter 能够为视频生成长时间、高质量的深度图序列。它采用三阶段训练方法,结合预训练的图像到视频扩散模型,在视觉特效和视频生成中的深度估算方面表现出色

注: DepthCrafter 示例

Generative Inbetweening:适应图像到视频模型的关键帧插值
https://svd-keyframe-interpolation.github.io/?ref=aiartweekly
Generative Inbetweening 能够在两个关键帧之间生成平滑的视频序列

注: Generative Inbetweening 示例

CustomCrafter:保留运动和概念组合能力的定制视频生成模型
https://customcrafter.github.io/?ref=aiartweekly
CustomCrafter 能够根据文本提示和参考图像生成高质量视频。它通过动态加权视频采样策略提升了运动生成效果,并且无需额外的视频数据或微调即可实现更佳的概念组合

注: CustomCrafter 示例

TrackGo:灵活高效的可控视频生成方法
https://zhtjtcz.github.io/TrackGo-Page/?ref=aiartweekly
TrackGo 允许用户通过自由绘制的遮罩和箭头来移动对象,从而生成可控视频

注: TrackGo 示例

Draw an Audio:多指令驱动的视频到音频合成
https://yannqi.github.io/Draw-an-Audio/?ref=aiartweekly
Draw an Audio 能够通过绘制遮罩和音量信号生成与视频匹配的高质量音频

注: Draw an Audio 示例

Audio Match Cutting:在电影和视频中寻找并创建平滑的音频过渡
https://denfed.github.io/audiomatchcut/?ref=aiartweekly
Audio Match Cutting 能够自动查找并创建视频镜头之间的平滑音频过渡效果

注: Audio Match Cutting 示例

⚒️ 工具与教程:

一分钟内开发 3D 贪吃蛇
@ammaar 使用 OpenAI 的 o1 模型,仅通过一次性提示在 Replit 上快速开发了经典游戏贪吃蛇的 3D 版本,用时不到一分钟

https://x.com/ammaar/status/1834312398016074083?ref=aiartweekly

从图片到 threejs 动画场景
@tjcages 仅用大约 15 分钟,通过 Claude 将一张图片转化为一个酷炫的 threejs 动画场景

https://ddemos.com/branch/cm0v2nzhq00003fhj3dllm9h5 

打造属于你的《南方公园》3D角色
@techhalla 分享了一篇教程,教你如何创建自己的《南方公园》3D角色

https://x.com/ctatedev/status/1832085107877773554?ref=aiartweekly

一致帧生成的文本到图像网格技术
@fofrAI 分享了一条提示,可生成视频剪辑的连续帧网格。这些帧可以进行放大并用于进一步的视频处理。同样的技术也适用于在单次生成中,从不同角度生成一致的角色或场景

https://x.com/fofrAI/status/1828898672664281368?ref=aiartweekly

《森林永不沉睡》
@doopiidoop 创作了这部充满神秘氛围的 AI 音乐视频

https://x.com/doopiidoop/status/1824504319883837699?ref=aiartweekly

如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!

注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态
▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!

设计师的自我修行
创意— 并非要让人惊奇它崭新的形式和素材, 而是应让人惊异它源自最平凡的生活。
 最新文章