欢迎大家踏入本期的《AI艺术周刊》。在这里,我们将一同探讨每周人工智能的最新进展,及其如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和在实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏🌟 本期要闻:
https://openai.com/o1/?ref=aiartweekly |
上周热点无疑是 OpenAI 发布了他们的全新 o1 模型:o1-mini 和 o1-preview。这两个大型语言模型在 AI 推理能力方面取得了重大突破。它们通过强化学习,在回应查询前构建复杂的思维链,根据他们的内部评估,这些模型:
早期版本 o1-preview 和 o1-mini 现已向 ChatGPT Plus 用户开放,API 用户如果达到使用级别第 5 级(如果在他们的 API 上花费了 1000 美元,就会拥有此级别)也可以使用
注: 在具有挑战性的推理基准测试中,o1 相较于 GPT-4o 取得了显著提升海罗视频模型
https://hailuoai.com/video?ref=aiartweekly |
由阿里巴巴和腾讯支持的中国人工智能初创公司 MiniMax 发布了他们的文本生成视频模型 — 海螺 AI,旨在与 OpenAI 的 Sora、Runway 的 Gen-3 和 LumaLabs 的 DreamMachine 等展开竞争。不可否认,这是我目前在文本生成视频模型中见过的连贯性和动态范围最好的模型- 6 秒长视频:支持 1280x720 分辨率,25 帧每秒的高质量视频
注: 海螺 AI 示例https://jzbao03.site/projects/PIR/?ref=aiartweekly |
谷歌开发了一种名为 GameNGen 的神经模型,能够以每秒超过 20 帧的速度实时模拟经典游戏《毁灭战士》。该模型高质量地预测下一帧画面,使人们几乎无法分辨真实游戏与模拟游戏的区别。简直令人难以置信
注: GameNGen 示例GVHMR:基于重力视角坐标的世界对齐人体运动恢复https://zju3dv.github.io/gvhmr/?ref=aiartweekly |
GVHMR 能够通过在与重力和相机对齐的重力视角坐标系中估计人体姿态,从单目视频中恢复人体运动
注: GVHMR 示例MeshFormer:基于 3D 引导重建模型的高质量网格生成https://meshformer3d.github.io/?ref=aiartweekly |
MeshFormer 能够在短短几秒内,仅凭几张二维图像,生成高质量的三维纹理网格注: MeshFormer 示例SPA-RP:从稀疏视角快速进行三维物体重建和姿态估计https://chaoxu.xyz/sparp/?ref=aiartweekly |
SPA-RP 能够从一张或几张二维图像中创建三维纹理网格并估计相机位置。它利用二维扩散模型快速理解三维空间,在大约 20 秒内即可生成高质量的结果注: SPA-RP 示例
TransGS:用于可重光和可交互面部渲染的即时面部高斯转换器https://dafei-qin.github.io/TransGS.github.io/?ref=aiartweekly |
TransGS 能够将基于物理的面部素材即时转换为结构化的高斯表示,实现移动设备上以 1440p 分辨率、每秒 30 帧的实时渲染注: TransGS 示例
Human-VDM:通过视频扩散模型从单张图像学习 3D 人体高斯散点https://human-vdm.github.io/Human-VDM/?ref=aiartweekly |
Human-VDM 能够从一张 RGB 图像中生成高质量的三维人体模型注: Human-VDM 示例
MagicMan:利用三维感知扩散和迭代优化生成新的人体视角https://thuhcsi.github.io/MagicMan/?ref=aiartweekly |
MagicMan 能够从单张照片生成高质量的三维人体图像和法线贴图注: MagicMan 示例
https://ys-imtech.github.io/projects/LayerPano3D/?ref=aiartweekly |
LayerPano3D 能够通过将二维全景图分解为深度层,只需一个文本提示,就生成沉浸式的三维场景注: LayerPano3D 示例
Subsurface Scattering for Gaussian Splatting:用于3D高斯散点的次表面散射https://sss.jdihlmann.com/?ref=aiartweekly |
通过在高斯散点中引入次表面散射技术,可以实时渲染和重新照明半透明物体。它支持细致的材质编辑,并以约每秒 150 帧的速度实现高品质的视觉效果注: SSS 示例
https://vcai.mpi-inf.mpg.de/projects/Tedra/?ref=aiartweekly |
TEDRA 能够根据文本提示编辑动态的三维化身。它使用个性化的扩散模型,允许对服装风格进行细致的修改,同时确保高质量和流畅的动作表现注: TEDRA 示例
https://github.com/dailenson/One-DM?ref=aiartweekly |
One-DM 能够从单个参考样本生成手写文本,精确模仿输入的书写风格。它捕捉了独特的书写模式,并在多种语言中表现出色注: One-DM 示例
LinFusion:1 块 GPU,1 分钟,生成 16K 图像https://github.com/dailenson/One-DM?ref=aiartweekly |
LinFusion 能够仅用一块 GPU,在一分钟内生成高达 16K 分辨率的高质量图像。它提升了各种 Stable Diffusion 版本的性能,并且兼容 ControlNet 和 IP-Adapter 等预训练组件注: LinFusion 示例
https://csgo-gen.github.io/?ref=aiartweekly |
CSGO 可以执行基于图像的风格迁移和基于文本的风格化合成。它利用了一个包含 21 万张图像三元组的大型数据集,增强了图像生成中对风格的精确控制注: CSGO 示例
Iterative Object Count Optimization:提升文本到图像扩散模型的计数准确性https://ozzafar.github.io/count_token/?ref=aiartweekly |
Iterative Object Count Optimization 可以有效提高文本到图像扩散模型中物体计数的准确性注: Iterative Object Count Optimization 示例
MagicFace:提升文本到图像扩散模型的计数准确性https://codegoat24.github.io/MagicFace/?ref=aiartweekly |
MagicFace 能够在不需要额外训练的情况下,生成任意风格的高质量人像图像注: MagicFace 示例
CrossViewDiff:用于卫星图像到街景合成的跨视角扩散模型https://opendatalab.github.io/CrossViewDiff/?ref=aiartweekly |
CrossViewDiff 能够利用跨视角扩散模型,从卫星视图图像生成高质量的街景图像注: CrossViewDiff 示例
SwiftBrush v2:非常优秀的图像生成扩散模型https://swiftbrushv2.github.io/?ref=aiartweekly |
SwiftBrush v2 能够提升一步文本到图像扩散模型生成的图像质量。结果非常出色,而且据称在基准测试中,其表现优于所有基于 GAN 的模型和多步 Stable Diffusion 模型。不过,目前还没有代码发布注: SwiftBrush v2 示例
MegaFusion:无需进一步调优的扩散模型实现更高分辨率图像生成方案https://haoningwu3639.github.io/MegaFusion/?ref=aiartweekly |
MegaFusion 能够扩展现有的扩散模型,用于高分辨率图像生成。通过在不同分辨率下增强去噪过程,它仅以原始计算成本的 40% 就能生成高达 2048x2048 分辨率的图像注: MegaFusion 示例
https://drexubery.github.io/ViewCrafter/?ref=aiartweekly |
ViewCrafter 能够利用视频扩散模型,从单张或少量图像生成高质量的三维视图。它允许精确的相机控制,非常适用于实时渲染和将文本转换为三维场景注: ViewCrafter 示例
Follow-Your-Canvas:伴随画布的高分辨率视频外延,实现丰富的内容生成https://follow-your-canvas.github.io/?ref=aiartweekly |
Follow-Your-Canvas 能够对视频进行高分辨率的外延,从 512x512 提升至 1152x2048,实现了更广泛的内容生成注: Follow-Your-Canvas 示例
Tps-Inbetweens:基于插值的动画线稿中间帧生成方案https://github.com/Tian-one/tps-inbetween?ref=aiartweekly |
Tps-Inbetween 能够为动画线稿生成高质量的中间帧。对帧间关键点关系进行建模,有效地连接线条并填补缺失的细节,即使在快速运动的情况下也能保持较为出色的效果注: Tps-Inbetween 示例
https://sobeymil.github.io/tvg.com/?ref=aiartweekly |
TVG 能够在无需训练的情况下,在两张图像之间生成平滑的过渡视频。它利用扩散模型和高斯过程回归,生成高质量的结果,并增加了对时间的控制,实现更精确的过渡效果注: TVG 示例
https://grisoon.github.io/PersonaTalk/?ref=aiartweekly |
PersonaTalk 能够在保持说话者独特风格和面部细节的同时,实现高质量的视觉配音。无论是处理音频、参考视频,还是将配音转换为其他语言,它都能出色地完成任务注: PersonaTalk 示例
PoseTalk:基于文本和音频的姿态控制与动作优化方案https://junleen.github.io/projects/posetalk/?ref=aiartweekly |
PoseTalk 能够从单张图像、音频和文本提示生成唇同步的说话人视频。它支持自由的头部姿态,并通过姿态潜在扩散模型创造多样化的姿势注: PoseTalk 示例
Loopy:通过长时依赖控制音频驱动的人像动画方案https://loopyavatar.github.io/?ref=aiartweekly |
Loopy 能够根据音频输入生成逼真的视频人像。它无需动作模板即可捕捉非语言的面部动作和情感表达,生成高质量的动态视频注: Loopy 示例
DepthCrafter:为开放世界视频生成一致的长深度序列https://depthcrafter.github.io/?ref=aiartweekly |
DepthCrafter 能够为视频生成长时间、高质量的深度图序列。它采用三阶段训练方法,结合预训练的图像到视频扩散模型,在视觉特效和视频生成中的深度估算方面表现出色注: DepthCrafter 示例
Generative Inbetweening:适应图像到视频模型的关键帧插值https://svd-keyframe-interpolation.github.io/?ref=aiartweekly |
Generative Inbetweening 能够在两个关键帧之间生成平滑的视频序列注: Generative Inbetweening 示例
CustomCrafter:保留运动和概念组合能力的定制视频生成模型https://customcrafter.github.io/?ref=aiartweekly |
CustomCrafter 能够根据文本提示和参考图像生成高质量视频。它通过动态加权视频采样策略提升了运动生成效果,并且无需额外的视频数据或微调即可实现更佳的概念组合注: CustomCrafter 示例
https://zhtjtcz.github.io/TrackGo-Page/?ref=aiartweekly |
TrackGo 允许用户通过自由绘制的遮罩和箭头来移动对象,从而生成可控视频注: TrackGo 示例
Draw an Audio:多指令驱动的视频到音频合成https://yannqi.github.io/Draw-an-Audio/?ref=aiartweekly |
Draw an Audio 能够通过绘制遮罩和音量信号生成与视频匹配的高质量音频注: Draw an Audio 示例
Audio Match Cutting:在电影和视频中寻找并创建平滑的音频过渡https://denfed.github.io/audiomatchcut/?ref=aiartweekly |
Audio Match Cutting 能够自动查找并创建视频镜头之间的平滑音频过渡效果注: Audio Match Cutting 示例
⚒️ 工具与教程:
@ammaar 使用 OpenAI 的 o1 模型,仅通过一次性提示在 Replit 上快速开发了经典游戏贪吃蛇的 3D 版本,用时不到一分钟https://x.com/ammaar/status/1834312398016074083?ref=aiartweekly |
@tjcages 仅用大约 15 分钟,通过 Claude 将一张图片转化为一个酷炫的 threejs 动画场景https://ddemos.com/branch/cm0v2nzhq00003fhj3dllm9h5 |
@techhalla 分享了一篇教程,教你如何创建自己的《南方公园》3D角色https://x.com/ctatedev/status/1832085107877773554?ref=aiartweekly |
@fofrAI 分享了一条提示,可生成视频剪辑的连续帧网格。这些帧可以进行放大并用于进一步的视频处理。同样的技术也适用于在单次生成中,从不同角度生成一致的角色或场景https://x.com/fofrAI/status/1828898672664281368?ref=aiartweekly |
@doopiidoop 创作了这部充满神秘氛围的 AI 音乐视频https://x.com/doopiidoop/status/1824504319883837699?ref=aiartweekly |
如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!
注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!