欢迎大家踏入本期的《AI艺术周刊》。在这里,我们一起探索人工智能的最新进展和它如何重新定义艺术创作的边界。无论你是 AI 艺术的狂热爱好者,还是对这一领域充满好奇的新手,我们都将为你带来灵感的火花和实践中的深刻见解。让我们共同揭开 AI 艺术的神秘面纱,探索它的无限可能。* 每周我需要花费大约 8-12 小时来整理这些周刊内容。如果你喜欢我的工作,不妨在下方赠我一杯咖啡,可以令我保持思绪清晰与热情不减 🙏🌟 本期要闻:
MagicVideo-V2:多阶段高美感视频生成技术https://magicvideov2.github.io/?ref=aiartweekly |
字节跳动宣布推出一款新型的文本到视频模型 — MagicVideo-V2。这款模型能够生成多达 94 帧的视频,产生的视频分辨率高达 1048×1048,展示了既具有高美感又流畅连续的时间性质。字节跳动拥有庞大的数据集,用于训练视频模型,这一创新技术的发展方向值得关注。注: MagicVideo-V2 示例
ReplaceAnything:极致高质量内容替换技术https://aigcdesigngroup.github.io/replace-anything/?ref=aiartweekly |
ReplaceAnything 是一种“图像修补”框架,可用于人物替换、服装替换、背景替换等多种场景。其生成的效果令人赞叹,展现了极高的图像质量。
注: ReplaceAnything 示例PALP:针对单一提示的文本到图像模型个性化调优方法
https://prompt-aligned.github.io/?ref=aiartweekly |
PALP 是谷歌推出的一种全新的文本到图像微调技术,专注于单一提示的个性化方法。与其他方法相比,PALP 生成的结果展现了卓越的效果,支持艺术灵感、单图像及多主题的个性化。注: PALP 示例Dubbing for Everyone:高效视觉配音技术https://dubbingforeveryone.github.io/?ref=aiartweekly |
一种新型的视觉配音方法,它能够仅使用4秒的数据生成视频中演员的唇动,以与给定音频同步。这种方法基于数据高效的神经渲染技术,能够在没有进一步训练的情况下为任何视频配上任何音频,并能捕捉到人物特定的特征,减少视觉上的不自然之处。注: Dubbing for Everyone 示例FMA-Net:基于流引导的动态滤波和迭代特征精炼的多重注意力机制,用于联合视频超分辨率和去模糊处理https://kaist-viclab.github.io/fmanet-site/?ref=aiartweekly |
FMA-Net 是一种新颖的视频处理技术,能够将模糊、低质量的视频转化为清晰、高质量的影像。它通过精确预测视频中的退化和恢复过程,结合对运动模式的高级学习,实现了这一目标。FMA-Net 采用了流引导的动态滤波(FGDF)和迭代特征精炼的多重注意力(FRMA)技术,有效处理了视频超分辨率和去模糊(VSRDB)中的大幅运动。此外,FMA-Net 通过堆叠的 FRMA 模块和创新的时间锚(TA)损失训练,以迭代方式对特征进行粗到细的精炼。注: FMA-Net 示例Audio2Photoreal:从音频到逼真肖像的转化https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/?ref=aiartweekly |
Audio2Photoreal 是一项能够根据双方对话动态生成全身逼真的虚拟人物形象的技术。仅凭给定的语音音频,该模型就能输出个体的多种肢体动作可能性,包括面部、身体和手部动作。这些结果是高度逼真的虚拟人物,能够表现出对话中细微的手势差异,如嘲笑、微笑等。注: Audio2Photoreal 示例InseRF和GO-NeRF:将3D对象插入神经辐射场https://mohamad-shahbazi.github.io/inserf/?ref=aiartweekly |
https://daipengwa.github.io/GO-NeRF/?ref=aiartweekly |
InseRF 和 GO-NeRF 都是将 3D 对象插入 NeRF 场景中的方法。GO-NeRF 提出了一种新方法,可以利用场景上下文生成高质量和和谐的 3D 对象。该方法采用了组合渲染公式,使生成的 3D 对象能够利用学习到的 3D 感知不透明度图无缝地融入现有场景中,而不会引入意外的场景修改。GO-NeRF 的有效性通过在不同数据集上的广泛实验得到验证,与其他方法相比,它在生成与文本提示高度一致的虚拟对象方面表现出色。注: InseRF 示例FPRF:大规模3D神经辐射场中的前馈式逼真风格转换https://kim-geonu.github.io/FPRF/?ref=aiartweekly |
FPRF 是一种用于大规模 3D 神经辐射场的前馈式逼真风格转换方法。它能够使用多个参考图像对大规模 3D 场景进行风格化,无需额外优化,同时保持多视角外观的一致性。注: FPRF 示例SonicVisionLM:用视觉语言模型播放声音https://yusiissy.github.io/SonicVisionLM.github.io/?ref=aiartweekly |
SonicVisionLM 是一种能够为视频生成音效的技术,与其他方法不同,它使用视觉语言模型(VLMs)来识别视频中的事件,并生成与视频内容匹配的声音。这种方法利用 VLMs 的高级分析能力,能够精准地辨识视频中的具体场景和动作,并根据这些信息生成适配的声效,提升视频的观看体验。SonicVisionLM 通过这种创新技术,为视频提供了更加丰富和真实的声音层面的表达。注: SonicVisionLM 流程图
📰 其它动态:
jeanne-wang:
对话头像的跳剪辑平滑处理
https://jeanne-wang.github.io/jumpcutsmoothing/?ref=aiartweekly |
MAGNeT:
使用单个非自回归变换器的遮蔽音频生成技术
https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT/?ref=aiartweekly |
⚒️ 工具与教程:
由 @BennyKokMusic 开发的 ComfyDeploy 工具能够帮助用户将 ComfyUI 工作流部署为 API,并允许通过本地或云端机器进行连接。https://www.comfydeploy.com/?ref=aiartweekly |
它以稳定视频扩散技术为基础,能够根据指定路径来为图片添加动画效果。https://github.com/ProjectNUWA/DragNUWA?ref=aiartweekly |
PixArt LCM(或PixArt-Delta):潜在一致性模型的文本到图像合成框架PixArt LCM(或称为PixArt-Delta)是一种文本到图像合成框架,它将潜在一致性模型(LCM)和 ControlNet 集成到先进的 PixArt-Alpha 模型中,以提高图像合成的效果和控制性。https://huggingface.co/spaces/PixArt-alpha/PixArt-LCM?ref=aiartweekly |
CCSR:提升基于扩散模型的图像超分辨率稳定性和内容一致性CCSR 是一种新的图像超分辨率方法,与现有基于扩散模型的方法(如 StableSR)相比,它能生成更稳定且内容上更加一致的结果。https://github.com/csslc/CCSR?ref=aiartweekly |
一种直接应用于图像编辑的新型技术,它无需预先学习即可实现图像间的转换。https://github.com/MirrorDiffusion/MirrorDiffusion?ref=aiartweekly |
如果你也对 Midjourney 或艺术设计感兴趣,那么欢迎加入我们的社群!在这里,我们可以一起探讨有趣的设计话题,共同探索 Midjourney 所带来的无限可能性!注:如果你与我一样热衷于紧跟人工智能与设计的最新趋势,那么我强烈推荐你试用下我们精心打造的这款应用 — 设计原力。这款应用能够让你随时了解到最前沿的信息,让你的信息库始终保持最新状态▲ 好了,以上这些就是本节的全部内容了 ~ 如果,你也对 AI 绘画感兴趣,不妨记得关注我!我们下期见!!