欢迎大家踏入本期的《AI艺术周刊》。在这里,我们一起探索人工智能的最新进展和它如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏🌟 本期要闻:
InstantMesh:从单一图像生成高效 3D 模型,采用稀疏视角大模型重建技术https://github.com/TencentARC/InstantMesh?ref=aiartweekly |
InstantMesh 能够在 10 秒内从一张图片创建多样化的 3D 资产
注: InstantMesh 示例InstructHumans:使用文本提示编辑现有 3D 人体纹理
https://jyzhu.top/instruct-humans/?ref=aiartweekly |
InstructHumans 能够利用文本提示编辑现有的 3D 人体纹理。它很好地保持了头像的一致性,并且简化了动画制作过程注: InstructHumans 示例https://ttchengab.github.io/zest/?ref=aiartweekly |
ZeST 能够将图片中物体的材质更改为匹配指定的材质示例图片。它还可以在一张图片中执行多次材质编辑,并对纹理网格的渲染执行考虑光照的隐式编辑注: ZeST 示例https://janehwu.github.io/mcc-ho/?ref=aiartweekly |
MCC-HO 能够从单张 RGB 图片和预估的三维手模型中重建三维物体。为什么这会很有用呢?想象一下虚拟现实(VR)或增强现实(AR)的应用场景。这项技术将使得创建你手中持有物体的数字克隆成为可能,从而允许你和其他人在虚拟环境中与这些物体互动。注: MCC-HO 示例Key2Mesh:利用 2D 关键点进行 MoCap 至视觉域适配,高效估算人体三维网格https://key2mesh.github.io/?ref=aiartweekly |
谈到重建,Key2Mesh 是另一个专注于三维人体网格重建的模型。这一次,它通过使用 2D 人体姿态关键点作为输入,而不是依赖视觉数据,这主要是因为带有三维标签的图像数据集较为稀缺注: Key2Mesh 示例SphereHead:稳定的全头部 3D 生成技术https://lhyfst.github.io/spherehead/?ref=aiartweekly |
GANs 还未过时。SphereHead 能够从各个角度生成稳定且高质量的三维全头部人脸,与之前的方法相比,大幅减少了图像失真注: SphereHead 示例
TeFF:通过模板特征场从未定位图像学习感知三维的 GANshttps://xdimlab.github.io/TeFF/?ref=aiartweekly |
TeFF 是一种与SphereHead类似的方法,但它不仅支持人脸,还能从单张图像的360度视角重建三维物体注: TeFF 示例
PhysAvatar:基于视觉观测学习三维着装虚拟人物的物理特性https://qingqing-zhao.github.io/PhysAvatar?ref=aiartweekly |
PhysAvatar 能够将多视角视频转换为穿着宽松衣服的高质量三维化身。整个过程可以被动画化注: PhysAvatar 示例
NeRF2Physics:从语言嵌入特征场理解物理属性https://ajzhai.github.io/NeRF2Physics/?ref=aiartweekly |
NeRF2Physics 能够从一系列图片中预测物体的物理属性(质量、摩擦力、硬度、热导率和杨氏模量)。这使得在三维场景中模拟数字孪生物体的物理行为成为可能注: NeRF2Physic 示例
BeyondScene:利用预训练扩散模型生成高分辨率以人为中心的场景https://janeyeon.github.io/beyond-scene/?ref=aiartweekly |
BeyondScene 能够使用现有的预训练扩散模型,生成分辨率高达 8K 的以人为中心的场景,具有卓越的文字-图像对应性和自然感注: BeyondScene 示例
MuDI:用于文本到图像模型的多主题个性化身份解耦https://mudi-t2i.github.io/?ref=aiartweekly |
我们已经看到了无数的文本到图像的个性化方法。MuDI 是另一种方法,但它支持多主题个性化。这意味着你可以生成多个主题的图像,而不会出现身份混合注: MuDI 示例
Imagine Colorization:利用预训练扩散模型进行图像上色https://xy-cong.github.io/imagine-colorization/?ref=aiartweekly |
Imagine Colorization 使用预训练的扩散模型为图像上色,同时支持可控制和用户交互的功能注: Imagine Colorization 示例
GoodDrag:探索使用扩散模型进行拖拽编辑的良好实践https://gooddrag.github.io/?ref=aiartweekly |
我们之前已经看到了通过拖拽进行图像编辑的技术。GoodDrag 通过使用扩散模型,为拖拽编辑带来了稳定性和图像质量的改进注: gooddrag 示例
ControlNet++:通过高效一致性反馈改进条件控制https://liming-ai.github.io/ControlNet_Plus_Plus/?ref=aiartweekly |
字节跳动正在研发 ControlNet++。该技术通过显式优化生成图像与条件控制之间的像素级循环一致性,改进了可控图像生成。这些改进适用于多种条件控制,如分割掩模、线条艺术边缘、深度图、高清边缘和 Canny 边缘注: ControlNet++ 示例
PanFusion:驯服稳定扩散技术以生成文本到 360° 全景图像https://chengzhag.github.io/publication/panfusion/?ref=aiartweekly |
PanFusion 能够根据文本提示生成 360 度全景图像。该模型能够整合额外的约束条件,如房间布局,以定制全景图像输出注: PanFusion 示例
https://littlepure2333.github.io/MindBridge/?ref=aiartweekly |
MindBridge 能够从功能性磁共振成像(fMRI)信号重建图像,并且能够仅通过一个模型泛化到多个主体注: MindBridge 示例
https://henry123-boy.github.io/SpaTracker/?ref=aiartweekly |
到目前为止,我只见过二维平面上的像素追踪器。SpaTracker 能够在三维空间中追踪任意二维像素,这使得它能更好地处理遮挡和平面外旋转问题注: SpaTracker 示例
SGM-VFI:用于大运动视频帧插值的稀疏全局匹配https://sgm-vfi.github.io/?ref=aiartweekly |
SGM-VFI 是一种新的视频帧插值方法,能够处理视频中的大运动。该方法采用稀疏全局匹配技术,将全局信息引入到估算的中间帧中,从而获得更准确、更详细的输出注: SGM-VFI 示例
⚒️ 工具与教程:
Udio 是一款AI音乐生成器,类似于Suno v3,能够根据文本提示生成音轨。它支持人声,并且可以向前或向后延伸音频片段https://www.udio.com/?ref=aiartweekly |
@AIWarper 发布了这个病毒式的Viggle AI实验。包括工作流程https://twitter.com/AIWarper/status/1777351783477563452?ref=aiartweekly |
@Donversationz 展示了将AR技术与实体纸张结合用于商品设计的未来https://twitter.com/Donversationz/status/1777379763541168495?ref=aiartweekly |
Magnus Dahl 在 linkedin 上分探讨分享了她使用 Midjourney 和 Dalle 等 AI 工具进行创作过程时的思考https://www.linkedin.com/pulse/un-guide-midjourney-magnus-dahl-adauf/?ref=aiartweekly |
如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!