小语言模型SLM综述|大模型论文日报

学术   2024-10-31 18:09   北京  

今日值得关注的大模型前沿论文


  • SocialGPT:贪婪分段提示优化实现社会关系推理

  • 机器人预训练机器人:以操纵为中心的机器人表征 MCR

  • Flow-DPO:通过在线多智能体学习改进 LLM 数学推理

  • 用于乳腺癌综合预后的多模态人工智能

  • Kandinsky-3:一种新型文生图扩散模型

  • Meta 推出 MarDini:用于大规模视频生成的掩码自回归扩散

  • 用于分子-靶标和特性预测的多视图生物医学基础模型

  • 综述:人工智能生成视频评估

  • 小语言模型 SLM 综述

  • 马里兰大学推出新型视频 tokenizer LARP


想要第一时间获取每日最新大模型热门论文? 

点击阅读原文,查看“2024必读大模型论文”


ps:我们日常会分享日报、周报,后续每月也会出一期月报,敬请期待~



SocialGPT:贪婪分段提示优化实现社会关系推理


社会关系推理旨在从图像中识别朋友、配偶和同事等关系类别。虽然目前的方法采用了使用标注图像数据端到端训练专用网络的模式,但这些方法在通用性和可解释性方面受到了限制。


为了解决这些问题,来自哈佛大学的研究团队及其合作者首先提出了一个名为 SocialGPT 的简单但精心设计的框架,它在一个模块化框架内结合了视觉基础模型(VFMs)的感知能力和大语言模型(LLMs)的推理能力,为社会关系识别提供了一个强大的 baseline。


具体来说,他们指导视觉基础模型将图像内容转化为文本社交故事,然后利用大语言模型进行基于文本的推理。他们引入了系统的设计原则,以分别适应 VFM 和 LLM,并弥合它们之间的差距。无需额外的模型训练,它就能在两个数据库上实现有竞争力的零样本结果,同时提供可解释的答案,因为 LLM 可以为决策生成基于语言的解释。LLM 在推理阶段的手动提示设计过程非常繁琐,因此需要一种自动提示优化方法。由于他们实质上是将视觉分类任务转换为 LLM 的生成任务,因此自动提示优化会遇到一个独特的长提示优化问题。


为了解决这个问题,他们进一步提出了贪婪分段提示优化(Greedy Segment Prompt Optimization,GSPO),通过利用分段级的梯度信息来执行贪婪搜索。实验结果表明,GSPO 显著提高了性能,而且他们的方法还适用于不同的图像风格。


论文链接:

https://arxiv.org/abs/2410.21411

GitHub 地址:

https://github.com/Mengzibin/SocialGPT




机器人预训练机器人:以操纵为中心的机器人表征 MCR


视觉表征的预训练提高了机器人学习的效率。由于缺乏大规模的领域内机器人数据集,先前的研究利用 in-the-wild 人类视频来预训练机器人视觉表征。尽管取得了可喜的成果,但来自人类视频的表征不可避免地会受到分布偏移的影响,并且缺乏对完成任务至关重要的动态信息。


来自加州大学、同济大学、上海交通大学的研究团队及其合作者首先评估了各种预训练表征与下游机器人操纵任务的相关性(即操纵中心性)。有趣的是,他们发现“操纵中心性”是下游任务成功率的有力指标。根据这些发现,他们提出了“以操纵为中心的表征”(Manipulation Centric Representation,MCR)这一基础表征学习框架,它既能捕捉视觉特征,又能捕捉操纵任务的动态信息,如动作和本体感觉,从而提高操纵中心性。


具体来说,他们在 DROID 机器人数据集上预训练视觉编码器,并利用机器人本体感觉状态和动作等运动相关数据。他们提出了一种新的对比损失(contrastive loss),将视觉观察与机器人的本体感觉状态-动作动态相协调,并结合类似行为克隆(BC)的 actor loss 来预测预训练期间的动作,同时还引入了时间对比损失(time contrastive loss)。


4 个模拟域 20 项任务的实证结果证明,MCR 比最强的 baseline 方法高出 14.8%。此外,在 3 个真实世界任务中,MCR 将使用 UR5e 机械臂进行 data-efficient 学习的性能提高了 76.9%。


论文链接:

https://arxiv.org/abs/2410.22325

项目地址:

https://robots-pretrain-robots.github.io/




Flow-DPO:通过在线多智能体学习改进 LLM 数学推理


数学推理是大语言模型(LLM)的一项重要能力,然而生成详细而准确的推理轨迹仍然是一项重大挑战。


来自加州大学和微软研究院的研究团队推出了一种利用在线学习 Flow 生成用于 LLM 微调的高质量推理轨迹的新方法。他们的方法采用了增量输出生产流程(incremental output production Flow),其中各组件 LLM 通过迭代通信协作构建解决方案。他们使用在线 DPO 学习与 rollouts 来训练 Flow,为每个训练示例生成 DPO 对,并实时更新模型。


他们直接比较了他们的方法和直接模型推理所生成的推理轨迹的质量,证明了他们的方法在提高数学推理任务中的 LLM 性能方面的有效性。


论文链接:

https://arxiv.org/abs/2410.22304




用于乳腺癌综合预后的多模态人工智能


乳腺癌的治疗选择以分子亚型和临床特征为指导。复发风险评估在个性化治疗中起着至关重要的作用。包括基因组检测在内的现有方法准确性和临床实用性有限,导致许多患者无法做出最佳决定。


来自 Ataraxis AI 的研究团队及其合作者利用开发了一种基于数字病理学和临床特征的乳腺癌患者分层测试。具体来说,他们利用基于 vision transformer 的泛癌症基础模型,通过自监督学习训练,从数字化的 H&E 染色切片中提取特征。这些特征与临床数据相结合,形成了预测癌症复发和死亡的多模态人工智能测试。


该测试的开发和评估使用了来自 7 个国家 15 个队列共 8161 名乳腺癌患者的数据。其中,来自五个队列的 3502 名患者专门用于评估,其余患者用于训练。他们的测试准确预测了五个外部队列的主要疗效指标-无病生存期(C-指数:0.71 [0.68-0.75],HR:3.63 [3.02-4.37,p<0.01])。


在直接比较中(858 人),人工智能检测比标准 21 基因检测 Oncotype DX 更准确,C 指数分别为 0.67 [0.61-0.74] 和 0.61 [0.49-0.73]。此外,在多变量分析中,人工智能检验还为 Oncotype DX 增加了独立信息(HR:3.11 [1.91-5.09,p<0.01)])。该检验在包括 TNBC 在内的所有主要乳腺癌亚型中都表现出了很高的准确性(C 指数:0.71 [0.62-0.81],HR:3.81 [2.35-6.17,p=0.02]),而目前临床指南并未推荐任何诊断工具。


这些结果表明,他们的人工智能检测可以提高准确性,适用于更广泛的患者,并提高治疗选择工具的可及性。


论文链接:

https://arxiv.org/abs/2410.21256



Kandinsky-3:一种新型文生图扩散模型


文生图(T2I)扩散模型是引入图像处理方法的常用模型,如编辑、图像融合、图像修复等。同时,图生视频(I2V)和文生视频(T2V)模型也建立在 T2I 模型之上。来自 SberAI 的研究团队及其合作者推出了一种基于潜在扩散的新型 T2I 模型——Kandinsky 3,其具有很高的质量和逼真度。


新架构的主要特点是简单高效,可适应多种类型的生成任务。他们针对各种应用扩展了基础 T2I 模型,并创建了一个多功能生成系统,其中包括文本引导的补画/扩画、图像融合、文本图像融合、图像变化生成、I2V 和 T2V 生成。他们还提出了经过提炼的 T2I 模型版本,在不降低图像质量的情况下,在反向流程的 4 个步骤中对推理进行评估,速度比基本模型快 3 倍。他们部署了一个用户友好型演示系统,所有功能都可以在公共领域进行测试。


此外,他们还发布了 Kandinsky 3 和扩展模型的源代码和检查点。人工评估结果显示,Kandinsky 3 是开源生成系统中质量得分最高的系统之一。


论文链接:

https://arxiv.org/abs/2410.21061

GitHub 地址:

https://github.com/ai-forever/Kandinsky-3




Meta 推出 MarDini:用于大规模视频生成的掩码自回归扩散


来自 Meta 和阿卜杜拉国王科技大学的研究团队推出了 MarDini,一种新的视频扩散模型系列,将掩码自回归(MAR)的优势整合到统一的扩散模型(DM)框架中。在这里,MAR 处理时间规划,而 DM 侧重于非对称网络设计中的空间生成:基于 MAR 的规划模型包含大部分参数,使用低分辨率输入为每个屏蔽帧生成规划信号;轻量级生成模型使用这些信号,通过扩散去噪生成高分辨率帧。


MarDini 的 MAR 可以在任意帧位置的任意屏蔽帧数量上生成视频:一个模型可以处理视频插值(如屏蔽中间帧)、图生视频生成(如从第二帧开始屏蔽)和视频扩展(如屏蔽一半帧)。高效的设计将大部分计算资源分配给了低分辨率规划模型,从而使计算成本高昂但重要的时空注意机制在规模上变得可行。MarDini 为视频插帧技术设置了新SOTA;同时,只需几个推理步骤,它生成视频的效率可媲美价格昂贵得多的先进图生视频模型。


论文链接:

https://arxiv.org/abs/2410.20280

项目地址:

https://mardini-vidgen.github.io/




用于分子-靶标和特性预测的多视图生物医学基础模型


应用于生物分子空间的基础模型有望加速药物发现。分子表征是建立此类模型的关键。以往的研究通常只关注分子的单一表征或视图。


来自 IBM、克利夫兰医学中心的研究团队及其合作者开发了一种多视图基础模型方法,它整合了图形、图像和文本的分子视图。单视图基础模型分别在多达 2 亿个分子的数据集上进行预训练,然后聚合成组合表征。他们的多视图模型在 18 个任务的不同集合上进行了验证,包括配体-蛋白质结合、分子溶解度、代谢和毒性。


研究表明,多视图模型表现出鲁棒性,能够平衡特定视图的优缺点。然后,他们将该模型应用于针对大量(大于 100 个靶点)G 蛋白偶联受体(GPCR)的化合物筛选。从这个靶点库中,他们确定了 33 个与阿尔茨海默病有关的靶点。在这一子集上,他们采用该模型来识别强结合体,并通过基于结构的建模和关键结合基团的识别对其进行验证。


论文链接:

https://arxiv.org/abs/2410.19704



综述:人工智能生成视频评估


人工智能生成视频内容的能力日益增强,这给有效评估这些视频带来了重大挑战。与静态图像或文本不同,视频内容涉及复杂的时空动态,需要对其内容进行更全面、更系统的评估,如视频呈现质量、语义信息传递、与人类意图的一致性,以及虚拟现实与物理世界的一致性等方面。


该调查确定了人工智能生成视频评估(AIGVE)这一新兴领域,强调了评估人工智能生成视频与人类感知的一致性以及满足特定指令的重要性。加州大学团队对可能用于评估人工智能生成视频的现有方法进行了结构化分析。通过概述当前方法的优势和不足,他们主张开发更强大、更细致的评估框架,以应对视频内容的复杂性,其中不仅包括传统的基于度量的评估,还包括当前的人工参与评估以及未来的以模型为中心的评估。这次调查旨在为学术界研究人员和业界从业人员建立一个基础知识库,促进人工智能生成的视频内容评估方法的未来发展。


论文链接:

https://arxiv.org/abs/2410.19884





小语言模型 SLM 综述


小语言模型(SLM)凭借高效率和高性能以最少的计算资源执行各种语言任务,使其成为包括端侧、移动、边缘设备等各种环境的理想选择,因而变得越来越重要。


来自俄勒冈大学、美国东北大学和卡内基梅隆大学的研究团队及其合作者对 SLM 进行了全面调查,重点关注其架构、训练技术和模型压缩技术。他们提出了一种新的分类法,用于对优化 SLM 的方法进行分类,包括模型压缩、剪枝和量化技术。他们总结了有助于对 SLM 进行基准测试的 benchmark 数据集以及常用的评估指标。此外,他们还强调了尚待解决的关键挑战。他们的调查旨在为有兴趣开发和部署小型高效语言模型的研究人员和从业人员提供宝贵的资源。


论文链接:

https://arxiv.org/abs/2410.20011




马里兰大学推出新型视频 tokenizer LARP


马里兰大学推出了一种新型视频 tokenizer——LARP,旨在克服当前自回归(AR)生成模型视频 tokenization 方法的局限性。与直接将局部视觉 patch 编码为离散 token 的传统 patchwise tokenizer 不同,LARP 引入了一种整体 tokenization 方案,利用一组 learned holistic queries 从视觉内容中收集信息。这种设计使 LARP 能够捕捉到更多的全局和语义表征,而不是局限于局部 patch-level 信息。


此外,它还提供了灵活性,支持任意数量的离散 token,可根据任务的具体要求实现自适应和高效的 tokenization。为了使离散 token 空间与下游 AR 生成任务保持一致,LARP 集成了一个轻量级 AR  transformer,作为 training-time prior 模型,在其离散潜空间上预测下一个 token。通过在训练过程中加入 prior 模型,LARP 可以学习一个潜空间,该潜空间不仅针对视频重建进行了优化,其结构也更有利于自回归生成。


此外,这一过程还为离散 token 定义了顺序,在训练过程中逐步将它们推向最佳配置,确保在推理时生成更平滑、更准确的自回归。综合实验证明了 LARP 的强大性能,它在 UCF101 类条件视频生成 benchmark 上实现了 SOTA FVD。LARP 增强了 AR 模型与视频的兼容性,为建立统一的高保真多模态大语言模型(MLLM)提供了可能。


论文链接:

https://arxiv.org/abs/2410.21264

项目地址:

https://hywang66.github.io/larp/



整理:阮文韵

如需转载或投稿,请直接在公众号内留言


点击阅读原文」,查看“2024必读大模型论文




学术头条
致力于学术传播和科学普及,重点关注AI4Science/大模型等前沿科学进展。
 最新文章