微软提出新型注意力机制SeerAttention;清华、智谱团队提出“预训练蒸馏”|大模型日报

学术   2024-10-22 17:31   北京  
今日值得关注的大模型前沿论文

  • 清华、智谱团队提出“预训练蒸馏”
  • Hugging Face 提出开源、无代码工具/库 AutoTrain
  • Pangea:横跨 39 种语言的完全开放多语言多模态大语言模型
  • 具有世界模型的网络智能体:在网络导航中学习和利用环境动态
  • Mini-Omni2:具有视觉、语音和双工功能的“开源 GPT-4o”
  • 微软提出新型注意力机制 SeerAttention
  • MIT 团队:利用混合自回归 Transformer 实现高效视觉生成
  • 字节团队推出多模态扩散蛋白质语言模型 DPLM-2
  • 语言模型可以通过“自省”了解自己
  • 劝说平衡训练:保护大模型不受劝说影响的第一步

想要第一时间获取每日最新大模型热门论文? 
点击阅读原文,查看“2024必读大模型论文”

ps:我们日常会分享日报、周报,后续每月也会出一期月报,敬请期待~


清华、智谱团队提出“预训练蒸馏”

知识提炼(KD)旨在将知识从大型教师模型转移到小型学生模型。以往在大语言模型(LLM)领域应用知识蒸馏的工作通常集中在后训练阶段,即学生 LLM 直接从教师模型生成的指令和相应的回复中学习。

在这项工作中,来自清华大学和智谱的研究团队将知识提炼扩展到 LLM 的预训练阶段,即预训练蒸馏(PD)。他们首先使用 GLM-4-9B 作为教师 LLM,对 1.9B 参数的学生 LLM 进行了初步实验,验证了 PD 的有效性。考虑到蒸馏的关键影响因素,他们从四个方面系统地探索了 PD 的设计空间:对数处理、损失选择、scaling law 以及离线或在线对数。他们进行了大量实验来探索 PD 的设计空间,并发现了更好的配置和有趣的结论,比如较大的学生 LLM 一般能从 PD 中获益更多,而较大的教师 LLM 并不一定能保证更好的结果。他们希望,他们对设计空间的探索能为未来的 PD 实践提供参考。

论文链接:
https://arxiv.org/abs/2410.16215



Hugging Face 提出开源、无代码工具/库 AutoTrain

随着开源模型的发展,在定制数据集上训练(或微调)模型已成为开发针对特定工业或开源应用的解决方案的关键部分。然而,目前还没有一种工具可以简化不同类型模态或任务的训练过程。

在这项工作中,Hugging Face 团队提出了一个开源、无代码的工具/库 AutoTrain(又名 AutoTrain Advanced),其可用于训练(或微调)不同类型任务的模型,例如:大语言模型(LLM)微调、文本分类/回归、token 分类、序列到序列任务、句子 transformers 微调、视觉语言模型(VLM)微调、图像分类/回归,甚至是表格数据的分类和回归任务。AutoTrain Advanced 是一个开源库,提供在自定义数据集上训练模型的最佳实践。AutoTrain 可完全在本地模式下使用,也可在云计算机上使用,并可与 Hugging Face Hub 上共享的数万个模型及其变体一起使用。

论文链接:
https://arxiv.org/abs/2410.15735
GitHub 地址:
https://github.com/huggingface/autotrain-advanced



Pangea:横跨 39 种语言的完全开放多语言多模态大语言模型

尽管多模态大语言模型(MLLMs)近来取得了一些进展,但其开发主要集中在以英语和西方为中心的数据集和任务上,世界上大多数语言和不同文化背景都没有得到充分的体现。

在这项工作中,卡内基梅隆大学团队推出了多语言多模态大语言模型(LLM)Pangea,其在 PangeaIns 上训练,PangeaIns 是一个横跨 39 种语言的 600 万指令数据集,其特点是 1)高质量的英文指令;2)经过精心机器翻译的指令;3)与文化相关的多模态任务,以确保跨文化覆盖范围。为了严格评估模型的能力,他们提出了一个整体评估套件 PangeaBench,其包含 14 个数据集,涵盖 47 种语言。

结果表明,在多语言环境和不同文化背景下,Pangea 明显优于现有的开源模型。消融研究进一步揭示了英语数据比例、语言流行程度和多模态训练样本数量对总体性能的重要性。

论文链接:
https://arxiv.org/abs/2410.16153
项目地址:
https://neulab.github.io/Pangea/



具有世界模型的网络智能体:在网络导航中学习和利用环境动态

最近,大语言模型(LLM)在构建自主智能体方面获得了广泛关注。然而,目前基于 LLM 的网络智能体在长期任务中的表现远非最佳,经常出现错误,如重复购买不可退票的机票。相比之下,人类可以避免这种不可挽回的错误,因为我们对自己行为的潜在结果(如损失金钱)有一定的认识,这也被称为“世界模型”。

在这项工作中,延世大学团队首先从初步分析入手,证实当前的 LLM(如 GPT-4o、Claude-3.5-Sonnet 等)中缺乏世界模型。然后,他们提出了 World-model-augmented(WMA)网络智能体,它可以模拟其行动的结果,以便更好地做出决策。

为了克服将 LLM 训练成预测下一步观察结果的世界模型所面临的挑战,例如观察结果中的重复元素和长 HTML 输入,他们提出了一种以过渡为重点的观察抽象,其中的预测目标是自由形式的自然语言描述,专门突出时间步骤之间的重要状态差异。在 WebArena 和 Mind2Web 上进行的实验表明,他们的世界模型无需训练即可改进整体的策略选择,并证明他们的智能体与最近基于树搜索的智能体相比具有成本和时间效率。

论文链接:
https://arxiv.org/abs/2410.13232



Mini-Omni2:具有视觉、语音和双工功能的“开源 GPT-4o”

GPT-4o 的推出,是多模态大语言模型发展的一个里程碑。它能理解视觉、听觉和文本模态,直接输出音频,并支持灵活的双工交互。开源社区的模型通常能实现 GPT-4o 的某些功能,如视觉理解和语音聊天。然而,由于多模态数据、复杂的模型架构和训练过程的复杂性,训练一个包含所有模态的统一模型极具挑战性。

在这项工作中,来自启元世界和清华大学的研究团队推出了 Mini-Omni2,它是一种视觉-听觉助手,能够为视觉和听觉查询提供实时、端到端的语音响应。通过整合预训练的视觉和听觉编码器,Mini-Omni2 可以保持在不同模态下的性能。他们提出了一个三阶段训练过程来对齐模态,使语言模型能够在有限的数据集上训练后处理多模态输入和输出。在交互方面,他们提出了基于命令的中断机制,使与用户的交互更加灵活。

论文链接:
https://arxiv.org/abs/2410.11190



微软提出新型注意力机制 SeerAttention

注意力是现代大语言模型(LLM)的基石。然而,它的二次复杂度限制了 LLM 的效率和可扩展性,尤其是对于那些具有长上下文窗口的 LLM。解决这一限制的一个可行方法是利用注意力的稀疏性。然而,现有的基于稀疏性的解决方案主要依赖于预定义模式或启发式方法来近似稀疏性。这种做法无法完全捕捉到基于语言的任务中注意力稀疏性的动态本质。

来自香港大学、华盛顿大学和微软研究院的研究团队及其合作者认为,注意力稀疏性应该是学习出来的,而不是预先定义的。为此,他们设计了一种新的注意力机制——SeerAttention,它通过一个可学习的门,自适应地选择注意力地图中的重要区块,并将其余区块视为稀疏区块,从而增强了传统注意力。这种块级稀疏性有效地平衡了准确性和速度。为了高效地学习门控网络,他们开发了一种定制的 FlashAttention 实现方法,它能以最小的开销提取块级注意力图的基本事实。SeerAttention 不仅适用于后期训练,而且在长期上下文微调方面表现出色。

结果表明,在后训练阶段,SeerAttention 明显优于基于静态或启发式的稀疏注意力 SOTA 方法,同时在适应不同上下文长度和稀疏比率方面也更加灵活多变。在使用 YaRN 进行长上下文微调时,SeerAttention 可以在 32k 上下文长度下达到 90% 的稀疏率,同时将困惑度损失降到最低,与 FlashAttention-2 相比,速度提高了 5.67 倍。

论文链接:
https://arxiv.org/abs/2410.13276



MIT 团队:利用混合自回归 Transformer 实现高效视觉生成

来自麻省理工学院的研究团队及其合作者推出了混合自回归 Transformer(HART),这是一种自回归视觉生成模型,能够直接生成 1024×1024 图像,其图像生成质量可与扩散模型相媲美。现有的 AR 模型由于其离散 Tokenizer 的图像重建质量较差,以及生成 1024px 图像所需的训练成本过高而面临局限性。

为了应对这些挑战,他们提出了混合 Tokenizer,它将来自自动编码器的连续潜像分解成两个部分:代表大图像的离散 token 和代表离散 token 无法代表的残余部分的连续 token。离散部分由一个可扩展分辨率的离散自回归模型建模,而连续部分则由一个仅有 3700 万个参数的轻量级残差扩散模块学习。
与纯离散 VAR Tokenizer 相比,他们的混合方法在 MJHQ-30K 上将重构 FID 从 2.11 提高到 0.30,将生成 FID 从 7.85 提高到 5.38,提高了 31%。HART 在 FID 和 CLIP 分数上也优于 SOTA 扩散模型,吞吐量提高了 4.5-7.7 倍,MAC 降低了 6.9-13.4 倍。 

论文链接:
https://arxiv.org/abs/2410.10812
GitHub 地址:
https://github.com/mit-han-lab/hart



字节团队推出多模态扩散蛋白质语言模型 DPLM-2

蛋白质是由氨基酸序列定义的重要大分子,氨基酸序列决定了蛋白质的三维结构,进而决定了蛋白质在所有生物体内的功能。因此,蛋白质的生成建模需要一种多模式方法来同时建模、理解和生成序列和结构。然而,现有的方法通常对每种模态使用单独的模型,限制了它们捕捉序列和结构之间复杂关系的能力。这就导致了在需要同时理解和生成两种模态的任务中表现不佳。

在这项工作中,来自南京大学和字节跳动的研究团队推出了 DPLM-2,这是一种多模态蛋白质基础模型,它扩展了离散扩散蛋白质语言模型(DPLM),以同时容纳序列和结构。为了利用语言模型进行结构学习,他们使用基于免查找量化的 tokenizer 将三维坐标转换为离散 token。通过在实验和高质量合成结构上进行训练,DPLM-2 可以学习序列和结构的联合分布,以及它们的边际和条件。

他们还实施了一种高效的 warm-up 策略,以利用大规模进化数据与预先训练的基于序列的蛋白质语言模型的结构归纳偏差之间的联系。经验评估表明,DPLM-2 可以同时生成高度兼容的氨基酸序列及其相应的三维结构,而无需两阶段生成方法。此外,DPLM-2 还在各种条件生成任务(包括折叠、反向折叠和多模态主题输入的支架)中展示了极具竞争力的性能,并为预测任务提供了结构感知表征。

论文链接:
https://arxiv.org/abs/2410.13782



语言模型可以通过“自省”了解自己

人类通过观察外部世界获取知识,同时也通过内省获取知识。内省使人有特权了解自己当前的心理状态(如思想和情感),而外部观察者则无法了解这些状态。大语言模型(LLM)可以内省吗?

来自加州大学圣迭戈分校和 Truthful AI 的研究团队及其合作者,将内省定义为获取不包含在训练数据中或从训练数据中获取的知识,而这些知识源自内部状态。这种能力可以提高模型的可解释性,可以简单地询问模型的信念、世界模型和目标,而不是费力地分析模型的内部运作。更具推测性的是,一个内省模型可能会自我报告它是否拥有某些内部状态,如主观感受或欲望,这可以让人们了解这些状态的道德状况。这种自我报告并不完全由模型的训练数据决定。

他们通过对 LLM 进行微调来研究内省,从而预测假设情景下 LLM 自身行为的属性。例如,“给定输入 P,你的输出会倾向于短期还是长期选择?”如果一个模型 M1 可以进行自省,那么它在预测 M1 行为方面的表现就应该优于另一个模型 M2,即使 M2 是根据 M1 的地面实况行为训练出来的。其原理是,M1 有特权了解自己的行为倾向,这使它能比 M2 更好地预测自己的行为(即使 M2 总体上更强)。

在使用 GPT-4、GPT-4o 和 Llama-3 模型(每个模型都经过微调以预测自身)进行的实验中,他们发现模型 M1 在预测自身方面优于 M2,这为自省提供了证据。值得注意的是,即使有意修改了 M1 的 ground-truth 行为,它仍能准确预测自己的行为。然而,虽然他们在简单任务中成功地诱发了内省,但在更复杂的任务或需要分布外概括的任务中却没有成功。

论文链接:
https://arxiv.org/abs/2410.13787



劝说平衡训练:保护大模型不受劝说影响的第一步

大语言模型(LLM)很容易受到劝说的影响,当模型面对敌对的对话者时,这可能会带来风险。北卡罗来纳大学教堂山分校团队迈出了保护模型不受劝说影响的第一步,同时他们还认为,保护模型不受对抗性(即负面)劝说影响只是问题的一半:模型还应该能够接受有益的(即正面)劝说,以改进它们的回答。

研究表明,只为一方优化模型会导致另一方性能低下。为了平衡正面和负面劝说,他们提出了劝说平衡训练(PBT),它利用多智能体递归对话树来创建数据,并通过偏好优化来训练模型,使其在适当的时候接受劝说。PBT 能够持续提高对错误信息的抵抗力和面对挑战的复原力,同时还能在包含正面和负面劝说的整体数据上实现最佳的整体性能。

最重要的是,他们证明了 PBT 模型在多智能体辩论中是更好的队友。他们发现,如果没有 PBT,一对较强和较弱的模型的表现并不稳定,模型提出答案的顺序决定了团队是获得较强模型的表现还是较弱模型的表现。而 PBT 则能带来更好、更稳定的结果,而且顺序依赖性更小,更强的模型能持续拉升较弱的模型。

论文链接:
https://arxiv.org/abs/2410.14596



整理:李雯靖
如需转载或投稿,请直接在公众号内留言

点击阅读原文」,查看“2024必读大模型论文

学术头条
致力于学术传播和科学普及,重点关注AI4Science/大模型等前沿科学进展。
 最新文章