WXRedian | AIGC Studio

Face2QR:可根据人脸图像生成二维码，还可以扫描，以后个人名片就这样用了！

文摘 2024-12-18 00:00 江苏

今天给大家介绍的是一种专为生成个性化二维码而设计的新方法Face2QR，可以将美观、人脸识别和可扫描性完美地融合在一起。下图展示为Face2QR 生成的面部图像（第一行）和 ...

Flux LoRA | Then and Now：可将历史照片和现代场景融合，实现不同时间点的对比展示。

文摘 2024-12-18 00:00 江苏

今天给大家推荐一个我最近发现的特别棒的概念 LoRA 模型-Then and Now，能生成过去和现在的照片相匹配的图像，可将历史照片和现代场景融合在一个画面中，实现不同时 ...

AI生成大片，Movie Gen可以生成长视频并配上完美的音效，带给观众更好的观看体验。

文摘 2024-12-18 00:00 江苏

之前的文章中已经给大家介绍了一些关于长视频生成相关的技术，AI生成大片已经越来越近了。感兴趣的小伙伴可以点击下面链接阅读~《泰坦尼克号》AI大片重生！浙大&阿里发布 ...

英伟达提出ComfyGen：通过LLM来生成匹配文本的工作流。

文摘 2024-12-18 00:00 江苏

ComfyGen的核心在于通过LLM来匹配给定的文本提示与合适的工作流程。该方法从500个来自用户的多样化提示生成图像，随后使用一系列美学预测模型对生成结果进行评分。这些评 ...

谷歌DeepMind重磅推出多视角视频扩散模型CAT4D，单视角视频也能转换多视角了。

文摘 2024-12-17 00:01 江苏

单目视觉4D重建再突破！谷歌DeepMind推出多视角视频扩散模型CAT4D，单视角视频也能转换多视角了。单目视觉4D重建再突破！谷歌DeepMind等团队，推出了多视角 ...

文本转视频模型Allegro，可以生成长达 6 秒、15 FPS 和 720p 分辨率的高质量视频。

文摘 2024-12-17 00:01 江苏

Allegro 是一个强大的文本转视频模型，可以通过简单的文本输入生成长达 6 秒、15 FPS 和 720p 分辨率的高质量视频。主要特点• 开源：完整的模型权重和代码可 ...

可控视频合成框架MIMO：可以模拟复杂运动并进行物体交互。

文摘 2024-12-17 00:01 江苏

阿里提出的MIMO是一种可控视频合成的通用模型，可以模拟任何地方任何人的复杂运动，并进行物体交互。给定参考图像，MIMO 可以通过几分钟的推理合成可动画的头像。它不仅可以通 ...

港大和字节提出长视频生成模型Loong，可生成一分钟具有一致外观、动态和场景过渡的视频。

文摘 2024-12-17 00:01 江苏

HKU, ByteDance｜⭐️港大和字节联合提出长视频生成模型Loong，该模型可以生成外观一致、运动动态大、场景过渡自然的分钟级长视频。选择以统一的顺序对文本标记和视 ...

一图看尽AI文生图未来，北大发布文生图十年综述：超440项工作回顾。

文摘 2024-12-16 00:02 江苏

今天给大家介绍的文章来自北大发布的文生图十年综述，文章回顾了超过440项相关工作，重点探讨了生成对抗网络（GAN）、自回归模型（AR）和扩散模型（DM）在T2I任务中的应用 ...

多模态图像生成模型Qwen2vl-Flux，利用Qwen2VL视觉语言能力增强FLUX，可集成ControlNet

文摘 2024-12-16 00:02 江苏

Qwen2vl-Flux 是一种先进的多模态图像生成模型，它利用 Qwen2VL 的视觉语言理解能力增强了 FLUX。该模型擅长根据文本提示和视觉参考生成高质量图像，提供卓 ...

OminiControl：一个新的FLUX通用控制模型，单个模型实现图像主题控制和深度控制。

文摘 2024-12-16 00:02 江苏

之前的文章中和大家介绍过Flux团队开源了一系列工具套件，感兴趣的小伙伴可以点击下面链接阅读~AI图像编辑重大升级！FLUX.1 Tools发布，为创作者提供了更强大的控制 ...

文生图像编辑来了！英伟达提出Add-it，无需训练，可根据文本提示向图像添加对象。

文摘 2024-12-16 00:02 江苏

Nvidia提出了Add-it，这是一种无需训练的方法，可根据文本提示向图像添加对象。Add-it 适用于真实图像和生成的图像。该方法利用现有的文本转图像模型 (FLUX. ...

Mistral AI 开源 Pixtral 12B 多模态 LLM，多场景能力理解，支持中文指令遵循！

文摘 2024-12-15 00:08 江苏

Mistral AI 开源了 Pixtral 12B 多模态 LLM。具有自然场景理解，代码生成，图像转代码，图像理解，多图指令跟随，图表理解与分析以及复杂图形推理等多项能 ...

EAFormer：场景文本分割新SOTA，图像文本擦除无痕迹！

文摘 2024-12-15 00:08 江苏

文章链接：https://arxiv.org/pdf/2407.17020 git链接：https://hyangyu.github.io/EAFormer/亮点直击为了在 ...

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

文摘 2024-12-15 00:08 江苏

北大和港中文联合腾讯人工智能实验室提出了 ViewCrafter，这是一种利用视频扩散模型的先验从单个或稀疏图像合成一般场景的高保真新视图的新方法。可以简单理解为将复杂的图 ...

ConsisID实现无缝身份一致的文本到视频生成（北大&鹏城实验室）

文摘 2024-12-14 00:00 江苏

点击下方卡片，关注“AIGC Studio”文章链接: https://arxiv.org/abs/2411.17440项目链接: https://pku-yuangrou ...

AI也能自然的说话！MDT-A2G：可根据语音同步生成手势！

文摘 2024-12-14 00:00 江苏

复旦&腾讯优图等提出MDT-A2G，这是一个专门用来生成与语音同步手势的先进模型。想象一下，当我们说话时，身体自然会做出手势。这个模型的目的是让计算机也能像人类一样 ...

AI也能生成电影大片！MovieDreamer：纯AI生成电影引爆热议！

文摘 2024-12-14 00:00 江苏

视频生成领域的最新进展主要利用了短时内容的扩散模型。然而，这些方法往往无法对复杂的叙事进行建模，也无法在较长时间内保持角色的一致性，而这对于电影等长篇视频制作至关重要。对此 ...

一个LoRA同时处理内容和风格？UIUC提出UnZipLoRA，可同时训练两个LoRA，与原有LoRA兼容。

文摘 2024-12-14 00:00 江苏

一个LoRA可以同时处理内容和风格了？UIUC提出UnZipLoRA，可将元素从单个图像中分离出来同时训练两个LoRA，与原有LoRA兼容。伊利诺伊大学厄巴纳-香槟分校 ...

数字服装生成模型AIpparel, 可根据文本和图像等多模态输入生成复杂、多样、高质量的缝纫图案。

文摘 2024-12-13 00:00 江苏

多模态数字服装生成模型AIpparel, 可根据文本和图像等多模态输入生成复杂、多样、高质量的缝纫图案。斯坦福大学和苏黎世联邦理工学院提出一种数字服装的多模态生成模型AI ...