点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
01
Imagine yourself: Tuning-Free Personalized Image Generation
扩散模型在各种图像到图像的任务中展示了显著的有效性。在本研究中,作者介绍了“想象你自己”(Imagine yourself),这是一个最先进的模型,专为个性化图像生成而设计。与传统的基于调整的个性化技术不同,“想象你自己”作为一个无需调整的模型,使用户能够利用共享框架而无需个性化调整。此外,先前的工作在平衡身份保持、遵循复杂提示和保持良好视觉质量方面遇到了挑战,导致模型在参考图像上有很强的复制粘贴效果。因此,它们很难生成需要对参考图像进行重大更改的提示的图像,例如,改变面部表情、头部和身体姿势,且生成图像的多样性较低。为了解决这些限制,本文提出的方法引入了1)一种新的合成配对数据生成机制,以鼓励图像多样性,2)一个完全并行的注意力架构,配备三个文本编码器和一个完全可训练的视觉编码器,以提高文本忠实度,以及3)一种新颖的粗到细的多阶段微调方法,逐渐推动视觉质量的边界。本研究证明了“想象你自己”超越了最先进的个性化模型,展现了在身份保持、视觉质量和文本对齐方面的卓越能力。该模型为各种个性化应用奠定了坚实的基础。人类评估结果验证了该模型在所有方面(身份保持、文本忠实度和视觉吸引力)与以前的个性化模型相比的SOTA优越性。
文章链接:
https://arxiv.org/pdf/2409.13346
02
YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models
理解讽刺和幽默即使是对当前的视觉-语言模型来说也是一个挑战。在本研究中,作者提出了讽刺图像检测(判断一张图像是否具有讽刺意味)、理解(生成图像具有讽刺意味的原因)和完成(给定图像的一半,从两个给定选项中选择另一半,使得完整的图像具有讽刺意味)等具有挑战性的任务,并发布了一个高质量的数据集YesBut,包含2547张图像,其中1084张为讽刺性图像,1463张为非讽刺性图像,涵盖了不同的艺术风格,用于评估这些任务。数据集中的每张讽刺图像都描绘了一个正常场景和一个有趣或讽刺的冲突场景。尽管当前视觉-语言模型在视觉问答和图像字幕等多模态任务上取得了成功,但本研究的基准实验表明,这些模型在YesBut数据集上针对提出的任务在零样本设置下的表现不佳,无论是自动评估还是人类评估。此外,作者还发布了一个包含119张真实讽刺照片的数据集,以供进一步研究。
文章链接:
https://arxiv.org/pdf/2409.13592
03
Portrait Video Editing Empowered by Multimodal Generative Priors
传统的人像视频编辑方法通常在处理三维和时间一致性方面存在困难,而且在渲染质量和效率方面通常不足。为了解决这些问题,本研究将人像视频帧提升到一个统一的动态三维高斯场,这确保了帧之间的结构和时间连贯性。此外,作者设计了一种新颖的神经高斯纹理机制,它不仅支持复杂的风格编辑,而且实现了超过100FPS的渲染速度。本研究的方法通过从大规模二维生成模型中提取的知识,结合了多模态输入。本系统还结合了表情相似性指导和面部感知的人像编辑模块,有效减轻了与迭代数据集更新相关的降级问题。广泛的实验证明了本方法在时间一致性、编辑效率和卓越渲染质量方面的优势。通过各种应用,包括文本驱动的编辑、图像驱动的编辑和重新照明,展示了所提出方法的广泛适用性,突显了其在推进视频编辑领域的巨大潜力。
文章链接:
https://arxiv.org/pdf/2409.13591
04
SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer
在本研究中,作者介绍了SoloAudio,这是一种新颖的基于扩散的生成模型,用于目标声音提取(TSE)。本研究的方法在音频上训练潜在扩散模型,用具有跳跃连接的变换器替换了以前的U-Net主干网络,该变换器在潜在特征上进行操作。SoloAudio通过使用CLAP模型作为目标声音的特征提取器,支持面向音频和面向语言的TSE。此外,SoloAudio利用最先进的文本到音频模型生成的合成音频进行训练,展现出对领域外数据和未见过的声音事件的强大泛化能力。作者在FSD Kaggle 2018混合数据集和AudioSet的真实数据上评估了这种方法,SoloAudio在领域内和领域外数据上都取得了最先进的结果,并展现了令人印象深刻的零样本和少样本能力。
文章链接:
https://arxiv.org/html/2409.08425v1
05
Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation
使用基于扩散的模型进行视频生成受到每帧迭代扩散过程的高计算成本的限制。本研究提出了一种名为Diffusion Reuse MOtion(Dr. Mo)的网络,以加速潜在视频的生成。作者的关键发现是,在早期去噪步骤中,粗粒度噪声在连续视频帧之间表现出高度的运动一致性。基于这一观察,Dr. Mo通过结合精心设计的轻量级帧间运动,将这些粗粒度噪声传播到下一帧,消除了帧间扩散模型中的大量计算冗余。更敏感和细粒度的噪声仍然通过后期去噪步骤获得,这对于保持视觉质量至关重要。因此,在效率和质量之间的关键权衡中,决定哪些中间步骤应该从基于运动的传播转换为去噪是一个至关重要的问题。Dr. Mo采用了一个名为Denoising Step Selector(DSS)的元网络,以动态确定视频帧中理想的中间步骤。在视频生成和编辑任务上的广泛评估表明,Dr. Mo可以显著加速视频任务中的扩散模型,并提高视觉质量。
文章链接:
https://arxiv.org/pdf/2409.12532
06
A Controlled Study on Long Context Extension and Generalization in LLMs
广泛的文本理解和上下文学习需要能够利用完整文档上下文的语言模型。由于直接训练长上下文模型的实现挑战,已经提出了许多方法来扩展模型以处理长上下文。然而,由于数据和模型类别的差异,比较这些方法一直很具挑战性,导致如何评价长上下文性能以及它是否与标准评估不同存在不确定性。在本研究中,作者实现了一个控制协议,用于扩展方法的标准化评估,利用一致的基础模型和扩展数据。本研究提供了对长上下文行为的几点见解。首先,作者重申了困惑度作为通用性能指标的关键作用,即使在更长上下文任务中也是如此。其次,作者发现当前的近似注意力方法在长上下文任务中系统性地表现不佳。最后,作者确认,基于精确微调的方法通常在其扩展范围内有效,而外推仍然是一个挑战。
文章链接:
https://arxiv.org/pdf/2409.12181
07
LLMs + Persona-Plug = Personalized LLMs
个性化在许多语言任务和应用中扮演着关键角色,因为即使有相同需求的用户也可能基于他们个人的兴趣偏好不同的输出。这促进了各种个性化方法的发展,旨在使大型语言模型(LLMs)适应用户偏好,生成定制化的输出。其中一些方法涉及为每个用户微调一个独特的个性化LLM,这对于广泛应用来说成本过高。其他替代方法通过检索用户的相关历史文本作为示例,以即插即用的方式引入个性化信息。然而,这种基于检索的策略可能会打断用户历史的连续性,无法捕捉用户的整体风格和模式,从而导致次优的性能。为了应对这些挑战,本文提出了一个新颖的个性化LLM模型,PPlug。它通过一个轻量级的插件用户嵌入模块,模拟所有用户的历史上下文,为每个个体构建一个用户特定的嵌入。通过将这个嵌入附加到任务输入上,LLMs可以更好地理解和捕捉用户的习惯和偏好,从而在不调整自身参数的情况下产生更加个性化的输出。在语言模型个性化(LaMP)基准的各个任务上进行的广泛实验表明,所提出的模型显著优于现有的个性化LLM方法。
文章链接:
https://arxiv.org/pdf/2409.11901
本期文章由陈研整理
往期精彩文章推荐
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。
我知道你
提出观点,表达想法,欢迎
点击 阅读原文 查看更多!