Big Model weekly | 第43期

文摘   2024-11-03 10:02   意大利  

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!


01

SimpleStrat: Diversifying Language Model Generation with Stratification

从大型语言模型(LLMs)生成多样化的回应对于规划/搜索和合成数据生成等应用至关重要,因为在这些应用中,多样性可以在不同生成中提供不同的答案。先前的方法依赖于提高温度来增加多样性。然而,与普遍的看法相反,本研究不仅表明这种方法随着温度的升高会产生质量较低的个体生成,而且还依赖于模型的下一个标记概率与答案的真实分布相似。本文提出了SimpleStrat,这是一种替代方法,它使用语言模型本身将空间划分为不同的层。在推理时,随机选择一个层,并从层内抽取样本。为了衡量多样性,本文介绍了CoverageQA,这是一个包含多个同样合理的答案的未指定问题的数据库,并通过测量输出分布与有效真实答案上的均匀分布之间的KL散度来评估多样性。由于为专有模型计算每个回应/解决方案的概率是不切实际的,本文通过测量真实解决方案上的召回率来衡量。评估表明,使用SimpleStrat的方法比GPT-4o提高了0.05的召回率,与Llama 3相比,KL散度平均降低了0.36。




文章链接:

https://arxiv.org/pdf/2410.09038

02

Parameter-Efficient Fine-Tuning of Large Language Models using Semantic Knowledge Tuning

近年来,大型语言模型(LLMs)因其较低的计算成本而在使用提示的专门任务中越来越受欢迎。像前缀调整这样的标准方法使用了缺乏语义含义的可修改标记,并且需要大量的训练才能达到最佳性能,但通常效果不佳。在这种情况下,本文提出了一种名为语义知识调整(Semantic Knowledge Tuning,简称SK-Tuning)的新颖方法,用于提示和前缀调整,该方法使用有意义的单词而不是随机标记。这种方法涉及使用固定的LLM通过零样本能力来理解和处理提示的语义内容。之后,它将处理过的提示与输入文本集成,以提高模型在特定任务上的性能。实验结果表明,与其他调整方法相比,SK-Tuning展现了更快的训练时间、更少的参数和在文本分类和理解等任务上的优越性能。这种方法为优化LLMs处理语言任务的效率和效果提供了一种有前景的方法。




文章链接:

https://arxiv.org/pdf/2410.08598

03

Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation

检索增强生成(Retrieval-Augmented Generation,RAG)通过引入外部知识,减轻了大型语言模型(LLMs)在开放领域问答任务(OpenQA)中产生的事实错误和幻觉输出的问题。然而,对于复杂的问答任务,现有的RAG方法使用LLMs主动预测检索时机,并直接使用检索到的信息进行生成,而不考虑检索时机是否准确反映了实际信息需求,或是否充分考虑了先前检索到的知识,这可能导致信息收集和交互不足,从而产生低质量的答案。为了解决这些问题,本文提出了一种适用于复杂问答任务的通用RAG方法,称为自适应笔记增强RAG(Adaptive-Note),它包括迭代信息收集器、自适应记忆审查器和任务导向生成器,同时遵循新的检索器和记忆范式。具体来说,Adaptive-Note引入了知识增长的总体视角,以笔记的形式迭代收集新信息,并将其更新到现有的最佳知识结构中,增强了高质量的知识交互。此外,本文采用了一种自适应的、基于笔记的停止探索策略来决定“检索什么以及何时停止”,以鼓励充分的知识探索。作者在五个复杂的问答数据集上进行了广泛的实验,结果证明了本文方法及其组成部分的优越性和有效性。



文章链接:

https://arxiv.org/pdf/2410.08821

04

Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content

随着视觉生成技术的不断进步,视频数据集的规模迅速扩大,而这些数据集的质量对视频生成模型的性能至关重要。作者认为,时间分割、详细字幕和视频质量过滤是决定数据集质量的三个关键因素。然而,现有的数据集在这些方面存在各种局限性。为了应对这些挑战,本文介绍了Koala-36M,这是一个大规模、高质量的视频数据集,特点是准确的时间分割、详细的字幕和优质的视频质量。本研究的核心方法在于提高细粒度条件与视频内容之间的一致性。具体来说,作者采用了一个线性分类器对概率分布进行处理,以增强过渡检测的准确性,确保更好的时间一致性。然后,作者为分割后的视频提供了结构化的字幕,平均长度为200个单词,以提高文本与视频的对齐。此外,作者开发了一个视频训练适宜性评分(Video Training Suitability Score,VTSS),该评分整合了多个子指标,使作者能够从原始语料库中筛选出高质量的视频。最后,作者将几个指标纳入生成模型的训练过程中,进一步完善了细粒度条件。实验结果证明了所提出的Koala-36M数据集的处理流程的有效性和数据集的质量。



文章链接:

https://arxiv.org/pdf/2410.08260

05

Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models

视觉-语言模型(VLMs)的安全对齐能力容易受到与视觉模块集成的影响,与其大型语言模型(LLM)主干相比可能会降低。在本研究中,作者调查了这一现象,称之为“安全对齐退化”,并表明这一挑战源于将视觉模态引入VLMs时出现的表征差距。特别是,作者展示了多模态输入的表征从仅文本输入的分布中移开,而LLM主干正是针对这种分布进行了优化。同时,最初在文本嵌入空间内发展起来的安全对齐能力并没有成功地转移到这一新的多模态表征空间。为了减少安全对齐退化,作者引入了跨模态表征操作(Cross-Modality Representation Manipulation,CMRM),这是一种在推理时进行表征干预的方法,用于恢复VLMs的LLM主干固有的安全对齐能力,同时保持VLMs的功能能力。实证结果表明,该框架显著恢复了从LLM主干继承的对齐能力,对预训练VLMs的流畅性和语言能力影响最小,甚至无需额外训练。具体来说,LLaVA-7B在多模态输入上的不安全率可以从61.53%降低到仅3.15%,仅通过推理时的干预即可实现。



文章链接:

https://arxiv.org/pdf/2410.09047

06

VIBES -- Vision Backbone Efficient Selection

本研究解决了为特定目标任务高效选择高性能预训练视觉主干的挑战。尽管在有限的主干集合中进行穷尽搜索可以解决这个问题,但对于大型数据集和主干池来说,这变得不切实际。为了解决这个问题,作者引入了视觉主干高效选择(Vision Backbone Efficient Selection,简称VIBES),其目标是快速找到适合的主干,可能会为了效率而牺牲最优性。作者提出了几种简单但有效的启发式方法来解决VIBES,并在四个不同的计算机视觉数据集上评估了它们。结果表明,这些方法能够识别出比从通用基准测试中选择的主干表现更好的主干,即使是在单GPU上有限的一小时搜索预算内。作者认为VIBES标志着从基准测试到特定任务优化的范式转变。



文章链接:

https://arxiv.org/pdf/2410.08592

07

Flex-MoE: Modeling Arbitrary Modality Combination via the Flexible Mixture-of-Experts

多模态学习在各个领域变得越来越重要,它提供了整合来自不同来源的数据的能力,如图像、文本和个性化记录,这些在医疗领域经常观察到。然而,在某些模态缺失的场景中,许多现有框架难以适应任意模态组合,通常严重依赖单一模态或完整数据。这种对潜在模态组合的忽视限制了它们在现实世界情境中的适用性。为了应对这一挑战,本文提出了Flex-MoE(灵活的混合专家)框架,旨在灵活地整合任意模态组合,同时对缺失数据保持鲁棒性。Flex-MoE的核心思想是首先使用一个新的缺失模态库来解决缺失模态问题,该库将观察到的模态组合与相应的缺失模态结合起来。紧随其后的是独特设计的稀疏MoE框架。具体来说,Flex-MoE首先使用具有所有模态的样本训练专家,通过广义路由器(G-Router)注入通用知识。然后,S-Router专门处理较少模态组合,通过将顶级1门分配给对应于观察到的模态组合的专家。作者在包含四个模态的ADNI数据集上评估了Flex-MoE,该数据集涉及阿尔茨海默病领域,以及MIMIC-IV数据集。结果证明了Flex-MoE的有效性,突出了其在多样化的缺失模态场景中建模任意模态组合的能力。





文章链接:

https://arxiv.org/pdf/2410.08245

本期文章由陈研整理


往期精彩文章推荐




 关于AI TIME 


AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。


迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 

我知道你

在看


提出观点,表达想法,欢迎

留言


点击 阅读原文 查看更多!

AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
 最新文章