[ComfyUI]Enhance-A-Video:免费提升生成视频的质量
🌹大家好!欢迎来到破狼公众号。感谢大家的支持与鼓励。在AIGC探索道路上,我将与你一路同行。喜欢就星标关注破狼公众号或文末扫码加入交流群 !
Enhance-A-Video简介
今天介绍一款由新加坡国立大学、上海人工智能实验室、德克萨斯大学奥斯汀分校联合推出的Enhance-A-Video,这能够免费改善AI视频的生成质量!
Diffusion Transformers (DiTs) 架构的出现为视频生成开启了一个新时代。尽管如此,现有模型在捕捉关键细节方面存在困难。视频增强可以被视为一种直观的方法,其中考虑两个目标:1. 保持一致性;2. 提高视觉质量。时间注意力在确保帧之间的一致性中起着至关重要的作用,进一步保留了细节。为了更好地理解时间注意力的效果,研究团队在各个块之间可视化了时间注意力模式。可视化结果揭示了一个关键观察:帧之间的注意力权重(非对角线)明显低于沿对角线的权重,这可能导致帧之间的不一致。
帧之间的一致性类似于LLMs中令牌之间的一致性。在LLMs中,Temperature parameter(tau)pre-softmax被用来控制注意力分布,以平衡聚焦和多样化令牌选择。
受到上述分析的启发,研究团队首次发现时间注意力的Temperature决定了跨帧相关性的强度,更高的值使能够更广泛地关注时间上下文。调整时间注意力输出作为一种无需训练的增强,可以直接应用于现有的视频模型。
具体来说,研究团队设计了一个增强模块作为并行分支。该分支计算时间注意力图的非对角线元素的平均值作为跨帧强度(CFI)。一个增强的Temperature参数乘以CFI以增强时间注意力输出。
• 项目主页:https://oahzxl.github.io/Enhance_A_Video/
• Github:https://github.com/NUS-HPC-AI-Lab/Enhance-A-Video
性能评估
以下案例以HunyuanVideo作为演示,关于CogVideoX-2B、Open-Sora v1.2 可参见项目主页:https://oahzxl.github.io/Enhance_A_Video/
Enhance-A-Video混元视频ComfyUI体验
在最新的ComfyUI-HunyuanVideoWrapper插件中 @kijai大佬已经集成了Enhance-A-Video视频增强能力。在之前的文章中已经介绍过ComfyUI-HunyuanVideoWrapper安装,详情参加:模型下载和安装指南参考之前文章(注意文中链接有变化,参考置顶评论),详情内容:[ComfyUI]腾讯混元视频:虚实完美融合创意无极限!130亿大杯&影视级画质&导演级运镜&原生切镜&遵循物理运动&连续动作
• ComfyUI-HunyuanVideoWrapper插件 :https://github.com/kijai/ComfyUI-HunyuanVideoWrapper
• 模型可文末网盘获取或参见之前文章下载链接。
Flux文生图工作流
• F.1-绮梦流光-水湄凝香:
https://www.liblib.art/modelinfo/134c6dd95aef48e98a22b24e003e026b
• 工作流-Flux文|图生图+LORA+提示反推一键切换工作流:
https://www.liblib.art/modelinfo/782aacd70f604da39e83368c696a02a8
Enhance-A-Video混元视频工作流
Enhance-A-Video混元视频工作流已上传LIBLIB平台:
https://www.liblib.art/modelinfo/433fbf0bd2a8484d8e32d9e32258f378?versionUuid=eda1476a82fb4f21ad0a2b809f5b43a6
注意:
• 本文核心增加节点为HunyuanVideo Enhance A Video该节点连接到采样器节点。并且 @kijai大佬提到:在过去几周里,混元模型的发展非常迅速。官方发布了fp8量化权重模型,插件已支持。另外,通过Enhance-A-Video几乎免费提升质量,这对推理速度有非常轻微的影响,对内存使用没有影响,初步测试表明绝对值得使用。 • 能够明显看出使用了Enhance-A-Video增强节点视频中的主体动作会更加丰富,幅度也会更大一些。插件节点参数权重设置建议2-4之间不易过大,结束步数为0.8或1。 • 另外,性能上并无显著变化,如下图所示:
01. 猫咪
a white cat balancing on a bamboo stick , full body, no_crop. there's a waterfall in the background
增强后的猫咪动作会更丰富。
无增强 | |
有增强 |
02. 吹泡泡
look at viewer,close-up,Asian beauty blowing bubbles, dragging on the floor in a long pink dress
有增强 |
03.持剑
look at viewer,a blonde woman in a yellow jumpsuit holding a sword in front of her face.
有增强 |
04.弓箭手
look at viewer,An agile elf archer sprinting through an enchanted glade, bow raised and arrow nocked, capturing movement with flowing locks and clothing. The base features a swirling stream with translucent resin to simulate water, supported by a sturdy metal post hidden among the trees. Made from durable polyresin, the figure stands at 8 inches tall with a proportionate 5-inch base, designed for a frontal view that highlights the character's expression. Assembly points include the arms, bow, and grass elements to allow for easy customization.
如果觉得文章不错,就请赞、在看与转发三连