欢迎大家踏入本期的《AI艺术周刊》。在这里,我们一起探索人工智能的最新进展和它如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏🌟 本期要闻:
https://mp.weixin.qq.com/s/lyPaZO325VpAf3KvlvHRFg |
Midjourney 最近推出了角色一致性特性,这是用户最期待的功能之一,为此我们还写了一个使用教程。该功能允许您使用 --cref <图片网址> 添加角色参考图片,模型将尝试在生成图像时保持角色特征的一致性。通过使用 --cw 0-100,可以定义应保留角色特征的程度。低值仅保留面部特征,而高值还将保留衣物和其他特征。总的来说,这是一个相当酷的更新。注: Midjourney 角色一致性示例
https://ella-diffusion.github.io/?ref=aiartweekly |
ELLA 是一种轻量级方法,旨在通过为现有基于 CLIP 的扩散模型配备大语言模型(LLMs),以改善对提示的理解,并使文本到图像模型能够理解长而密集的文本。
注: ELLA 与 SDXL 和 DALL-E 3 的比较DEADiff:一种高效的具有解耦表示的风格化扩散模型
https://tianhao-qi.github.io/DEADiff/?ref=aiartweekly |
DEADiff 是另一种风格转换方法。它能够控制风格化的程度,并且可以用于风格混合、生成风格化的参考对象,还可以与 ControlNet 和 LoRAs 结合使用。注: DEADiff 与 IPAdapter 的比较Follow-Your-Click: 通过简短提示实现开放域区域图像动画https://follow-your-click.github.io/?ref=aiartweekly |
Follow-Your-Click 能够通过用户的简单点击和简短的动作提示,对图像的特定区域进行动画处理,并允许控制动画的速度。注: Follow-Your-Click 示例DragAnything: 使用轨迹线进行任何多事物的运动控制https://weijiawu.github.io/draganything_page/?ref=aiartweekly |
DragAnything 是另一种可以使用用户输入来动画化图像的方法。这种方法能够仅通过绘制轨迹线,同时且独特地控制多个对象的运动。注: DragAnything 示例VideoElevator: 使用多功能的文本到图像扩散模型提升视频生成质量https://videoelevator.github.io/?ref=aiartweekly |
VideoElevator 是一种无需训练、即插即用的方法,可以通过使用文本到图像模型来增强文本到视频模型的时间一致性,并添加更多照片般真实的细节。注: 使用和不使用 SD 1.5 的 ZeroScope 比较https://lzhangbj.github.io/projects/asva/asva.html?ref=aiartweekly |
虽然图像到视频很酷,但图像+音频到视频怎么样?ASVA 能够使用音频片段为静态图像添加动画,同时保持帧和声音提示同步。请注意,这只在 SD 1.5 上进行了训练。真的很期待看到一年后他们将在这方面取得什么成就。注: ASVA 示例
CRM:使用卷积重建模型将单张图像转换为 3D 纹理网格https://ml.cs.tsinghua.edu.cn/~zhengyi/CRM/?ref=aiartweekly |
感觉我们现在每周都能得到一种图像到 3D 的方法。CRM 又是一种可以从单张图像生成 3D 对象的方法。这种方法能够在短短 10 秒内创建出高保真的纹理网格和可交互的表面。结果令人惊叹!注: CRM 示例
SplattingAvatar: 使用网格嵌入式高斯喷涂技术实现逼真实时人类化身https://initialneil.github.io/SplattingAvatar?ref=aiartweekly |
SplattingAvatar 能够通过在三角形网格上嵌入高斯喷涂技术,生成逼真的实时人类化身。这项技术能够在现代 GPU 上以超过 300fps 的速度渲染化身,在移动设备上则能达到 30fps。注: SplattingAvatar 示例
StyleGaussian: 使用高斯喷涂技术进行即时 3D 风格转换https://kunhao-liu.github.io/StyleGaussian/?ref=aiartweekly |
StyleGaussian 能够在保持严格多视图一致性的同时,以 10fps 的速度实现任何图像风格到 3D 场景的即时转换。注: StyleGaussian 示例
https://enriccorona.github.io/vlogger/?ref=aiartweekly |
仅凭一张人物的照片和一些音频,VLOGGER 就可以生成不同长度的说话人视频。类似于 HeyGen2,这种方法还支持视频翻译,即将生成的视频翻译成另一种语言,同时自动编辑嘴唇和面部区域,使其与新音频保持一致。注: VLOGGER 示例
SM(^4)Depth:
通过一个模型实现多个相机和场景下的无缝单目测距
https://xuefeng-cvr.github.io/SM4Depth?ref=aiartweekly |
S-DyRF:
基于参考的动态场景风格化辐射场
https://xingyi-li.github.io/s-dyrf/?ref=aiartweekly |
V3D:
高效生成3D内容的视频扩散模型
https://heheyas.github.io/V3D/?ref=aiartweekly |
AesopAgent:
基于代理的故事到视频制作进化系统
https://aesopai.github.io/?ref=aiartweekly |
FontCLIP:
用于多语言字体应用的语义化排版视觉语言模型
https://yukistavailable.github.io/fontclip.github.io/?ref=aiartweekly |
⚒️ 工具与教程:
@MartinNebelong 通过将 Photoshop 与 Krea 的实时图像到图像功能相结合来 “增强” Photoshop 的一种很酷的方式。https://twitter.com/MartinNebelong/status/1767677973031743964?ref=aiartweekly |
@HugoDuprez 向我们展示了使用 3D 高斯创建游戏地图的未来。很快,孩子们就会扫描外面,这样他们就可以在里面😅玩耍了!https://twitter.com/HugoDuprez/status/1766019907769000229?ref=aiartweekly |
@RyanMorrisonJer 分享了 Pika Labs 在超人玩偶上的新口型同步功能示例。https://twitter.com/HugoDuprez/status/1766019907769000229?ref=aiartweekly |
@blizaine 分享了如何使用上周的 TripoSR 在 Vision Pro 中轻松地将 2D 图像转换为 3D。https://twitter.com/blizaine/status/1765434684450742764?ref=aiartweekly |
如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!