欢迎大家踏入本期的《AI艺术周刊》。在这里,我们一起探索人工智能的最新进展和它如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏🌟 本期要闻:
https://openai.com/index/hello-gpt-4o/?ref=aiartweekly |
毫无疑问,本周 AI 圈的焦点当属 GPT-4o 的发布。此次更新主要提升了自然语言理解和生成能力,改进了对复杂对话的处理,增加了多模态功能,支持图像输入和生成,并优化了上下文保持和用户记忆功能。此外,GPT-4o 还拥有一些鲜为人知的卓越功能。让我们一起来看看吧!
视觉叙事
GPT-4o 可以通过纯文本提示或文本与图像结合生成视觉连贯的故事。这使得它不仅能够讲述引人入胜的故事,还能以视觉形式展示这些故事,使其更加生动和直观
注: GPT-4o 示例
图像创建与编辑
GPT-4o 能根据文本与图像结合生成和编辑设计作品,例如电影海报。这使得它在创意设计方面具备强大的能力,不仅能够从零开始创建作品,还可以对现有图像进行细致的编辑和优化,满足多样化的设计需求
注: GPT-4o 示例
诗意排版
GPT-4o 在生成文本方面的能力也是令人惊叹的。它不仅可以创建优美的诗歌和散文,还能将这些文字艺术化地排版,使其更具视觉吸引力和艺术性。这种独特的能力使其在文学创作和视觉设计领域都表现出色
注: GPT-4o 示例
图像风格化
GPT-4o 还能对现有图像进行风格化处理。这意味着它可以将普通的图像转化为具有艺术风格的作品,增强图像的视觉效果和艺术价值
注: GPT-4o 示例
3D 重建
GPT-4o 能够生成多视角图像,并将这些图像转化为3D对象
注: GPT-4o 示例
图像修复
GPT-4o 能在图像上修补并添加标志
注: GPT-4o 示例
CAT3D:使用多视图扩散模型创建 3D 对象
https://cat3d.github.io/?ref=aiartweekly |
除了 Gemini,谷歌本周还推出了 CAT3D。它可以将任意数量的图像转换为 3D 场景。生成的场景可以进行交互渲染,整个处理时间,包括视图生成和 3D 重建,仅需一分钟左右注: CAT3D 示例Dual3D:高效一致的双模多视图潜在扩散文本到 3D 生成技术https://dual3d.github.io/?ref=aiartweekly |
Dual3D 是另一种文本到 3D 的方法,能够在一分钟内根据文本提示生成高质量 3D 素材注: Dual3D 示例Coin3D:通过代理引导条件生成可控和交互的 3D 素材https://zju3dv.github.io/coin3d/?ref=aiartweekly |
Coin3D 能够从基本输入形状生成和编辑 3D 素材注: Coin3D 示例https://toon3d.studio/?ref=aiartweekly |
Toon3D 可以从两张或更多卡通画生成 3D 场景。虽然目前效果还不算完美,但已经相当酷了!注: Toon3D 示例https://jsnln.github.io/layga/index.html?ref=aiartweekly |
LayGA 是一种新的高斯头像展示方式,能够从多视角视频中将身体和衣物分离成不同层,并可以将衣物转移到不同的身体上注: LayGA 示例
https://intchous.github.io/T2V-NPR/?ref=aiartweekly |
T2V-NPR 可以从文本或图像生成矢量图形。该方法还能优化生成的 SVG,调整细节级别和不同风格,并根据描述所需动作的文本提示对其进行动画处理注: StableMoFusion 示例
Analogist:基于图像扩散模型的视觉上下文学习https://analogist2d.github.io/?ref=aiartweekly |
Analogist 使用灵活的上下文学习方法和预训练扩散模型,取代了为每个特定任务(如去模糊或上色)训练单独模型的做法。该方法只需少量示例即可处理各种视觉任务,包括去噪、低光增强、图像翻译、风格迁移、运动迁移、姿势迁移、图像修复等注: Analogist 示例
LogoMotion:基于视觉的内容感知动画代码生成技术https://vivian-liu.com/?ref=aiartweekly#/logomotion |
LogoMotion可以将分层 PDF 文件中的标志转化为内容感知的 HTML 画布动画。非常酷!注: LogoMotion 示例
https://blobgen-2d.github.io/?ref=aiartweekly |
BlobGEN 是 NVIDIA 推出的新型文本到图像生成模型,能够基于区域位置和形态生成图像。这些区域可以从场景中自动提取,然后用于引导图像生成过程注: BlobGEN 示例
https://soediff.github.io/?ref=aiartweekly |
你是否曾尝试在图像中修复较小的物体和细节?效果可能参差不齐。SOEDiff 专门针对这些情况进行训练,能够很好地完成这项任务注: SOEDiff 示例
Text Scene Motion:
从文本描述生成3D场景中的人物动作
https://zju3dv.github.io/text_scene_motion/?ref=aiartweekly |
SwapTalk:
伴奏生成技术
https://fastsag.github.io/?ref=aiartweekly |
⚒️ 工具与教程:
@VictorTaelin 编写了一个 GPT-4o 提示,可以将任何游戏转化为基于文本的模拟器https://gist.githubusercontent.com/VictorTaelin/832a30a18aae2623715f26d67fdac798/raw/52c52b647d34f93c4c4bec4a0ebb512f926bfdee/aiemu.txt?ref=aiartweekly |
https://github.com/pablovela5620/mini-dust3r?ref=aiartweekly |
一种图像超分辨率方法,能够从低分辨率和模糊图像生成高分辨率图像https://github.com/I2-Multimedia-Lab/CDFormer?ref=aiartweekly |
是一套先进的开放集对象检测模型,能够根据文本提示检测图像和视频中的对象https://github.com/IDEA-Research/Grounding-DINO-1.5-API?ref=aiartweekly |
如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!