Meta提出思维偏好优化TPO;谷歌推出可穿戴基础模型LSM|大模型论文日报

学术   2024-10-18 16:08   北京  
今日值得关注的大模型前沿论文

  • Meta 提出思维偏好优化 TPO
  • 谷歌推出可穿戴基础模型 LSM
  • Meta 推出媒体生成基础模型 Movie Gen
  • 康奈尔大学团队:从交互中回溯学习
  • AgentOccam:基于 LLM 的网络智能体
  • MLLM 能否理解中文图像背后的深意?
  • 可高效私密推理的纯 Softmax 大语言模型


想要第一时间获取每日最新大模型热门论文? 
点击阅读原文,查看“2024必读大模型论文”
ps:我们日常会分享日报、周报,后续每月也会出一期月报,敬请期待~

Meta 提出思维偏好优化 TPO

大语言模型(LLM)通常经过训练,能够回答用户问题或遵循指令,与人类专家的回答方式类似。然而,在标准对齐框架中,它们缺乏在回答前进行明确思考的基本能力。思考能力对于需要推理和规划的复杂问题非常重要,但也可用于任何任务。

在这项工作中,来自 Meta 的研究团队及其合作者提出了思维偏好优化(TPO)方法,让现有的 LLM 具备这种思维能力,从而在不使用额外人类数据的情况下,进行一般指导。为此,他们采用迭代搜索和优化程序,探索可能的思维生成空间,让模型在没有直接监督的情况下学习如何思考。对于每条指令,候选思维都会使用一个法官模型进行评分,从而评估它们的反应,然后通过偏好优化进行优化。

研究结果表明,这种方法能在 AlpacaEval 和 Arena-Hard 考试中取得优异成绩,而且除了更传统的推理和问题解决任务外,还能在市场营销、健康和常识等非推理类别的思考中发挥作用。

论文链接:
https://arxiv.org/abs/2410.10630



谷歌推出可穿戴基础模型 LSM

由于具有各种健康跟踪功能,可穿戴传感器已变得无处不在。日常生活中的连续和纵向测量产生了大量数据;然而,如何利用这些观测数据获得科学和可行的见解并非易事。

在生成式建模(大型神经网络从大量文本、图像、视频或音频数据中学习强大的表征)的成功经验启发下,谷歌团队研究了传感器基础模型在计算、数据和模型大小方面的扩展特性。他们利用来自超过 16.5 万人的多达 4000 万小时的现场心率、心率变异性、皮肤电活动、加速度计、皮肤温度和高度计每分钟数据集,创建了 LSM 多模态基础模型,该模型建立在迄今为止最大的可穿戴信号数据集和最广泛的传感器模态基础之上。

研究结果确立了 LSM 在估算、内插法和外推法等任务中跨时间和跨传感器模式的 scaling laws。此外,他们还强调了 LSM 如何为运动和活动识别等任务提供具有采样效率的下游学习。

论文链接:
https://arxiv.org/abs/2410.13638



Meta 推出媒体生成基础模型 Movie Gen

Meta 团队推出了 Movie Gen,它是一种基础模型,可生成具有不同纵横比和同步音频的高质量 1080p 高清视频。他们还展示了其他功能,如基于指令的精确视频编辑和根据用户图像生成个性化视频。

他们的模型在文生视频合成、视频个性化、视频编辑、视频到音频生成和文本到音频生成等多项任务上都达到了 SOTA。他们最大的视频生成模型是一个 30B 参数的 Transformer,其最大上下文长度为 73K video token,相当于以每秒 16 帧的速度生成 16 秒的视频。

他们展示了在架构、潜在空间、训练目标和数据整理、评估协议、并行化技术和推理优化等方面的多项技术创新,这使他们能够在训练大规模媒体生成模型时,从扩展预训练数据、模型大小和训练计算中获益。

论文链接:
https://arxiv.org/abs/2410.13720
项目地址:
https://www.youtube.com/playlist?list=PL86eLlsPNfyi27GSizYjinpYxp7gEl5K8



康奈尔大学团队:从交互中回溯学习

大语言模型(LLM)与用户之间的多轮交互自然包括隐式反馈信号。如果 LLM 对指令的响应出乎意料,用户很可能会通过重新措辞请求、表示沮丧或转向其他任务来发出信号。这些信号与任务无关,而且占据了一个相对有限的语言子空间,即使 LLM 在实际任务中失败了,它也能识别出这些信号。这就提供了一条无需额外标注即可从交互中不断学习的途径。

在这项工作中,康奈尔大学团队提出了 ReSpect,这是一种通过回溯从过去的交互中学习此类信号的方法。他们在一种新的多模态交互场景中部署了 ReSpect,在该场景中,人类指示 LLM 解决一个具有组合解空间的抽象推理任务。通过与人类的数千次交互,他们展示了 ReSpect 如何逐步将任务完成率从 31% 提高到 82%,而这一切都无需任何外部标注。

论文链接:
https://arxiv.org/abs/2410.13852



AgentOccam:基于 LLM 的网络智能体

通过使用大语言模型(LLM)执行个性化、标准化任务的智能体提高了人类的效率。网络任务(如在预算范围内预订酒店)的自动化越来越受到追捧。为满足实际需求,网络智能体也是各种智能体落地方案的重要概念验证范例,它的成功有望推动许多未来应用的发展。

先前的研究通常是手工制作网络智能体策略(如提示模板、多智能体系统、搜索方法等)和相应的上下文示例,这些策略和示例可能无法很好地推广到现实世界的所有场景。另一方面,关于网络智能体的观察/行动表征与其所基于的 LLM 的预训练数据之间不一致的研究还很有限。当 LLM 主要是为完成语言任务而非涉及具身导航动作和符号网络元素的任务而训练时,这种差异就尤为明显。

在这项工作中,亚马逊团队通过简单地改进其观察和行动空间,使其更好地与 LLM 的能力对齐,从而增强了基于 LLM 的网络智能体。这种方法使他们的基础智能体在各种网络任务中的表现明显优于以前的方法。

具体来说,在以通用网络交互任务为特色的基准测试 WebArena 上,他们的智能体 AgentOccam 分别以 9.8(+29.4%)和 5.9(+15.8%)的绝对优势超越了之前的 SOTA 和同时进行的工作,并通过观察和行动空间对齐将成功率提高了 26.6 个百分点(+161%)。他们在不使用上下文示例、新智能体角色、在线反馈或搜索策略的情况下实现了这一目标。AgentOccam 的简单设计凸显了 LLM 在网络任务中令人印象深刻的“零样本”性能,并强调了精心调整观察和行动空间对于基于 LLM 的智能体的关键作用。

论文链接:
https://arxiv.org/abs/2410.13825



MLLM 能否理解中文图像背后的深意?

随着多模态大语言模型(MLLM)能力的不断提高,对 MLLM 的高阶能力评估的需求也在不断增加。然而,目前还缺乏针对中文视觉内容的高阶感知和理解的 MLLM 评估工作。

为了填补这一空白,来自华中科技大学、中国科学院深圳先进技术研究院和 M-A-P 的研究团队提出了中文图像应用理解基准 CII-Bench,旨在评估 MLLM 对中文图像的高阶感知和理解能力。与现有的基准相比,CII-Bench 在几个方面都很突出。首先,为确保中文语境的真实性,CII-Bench 中的图片均来自中文互联网,并经过人工审核,相应的答案也由人工制作。此外,CII-Bench 还加入了代表中国传统文化的图片,如中国传统名画,这可以深刻反映模型对中国传统文化的理解。

通过在 CII-Bench 上对多个 MLLM 的广泛实验,他们取得了重大发现。首先,他们观察到 MLLM 与人类在 CII-Bench 上的表现存在巨大差距。MLLM 的最高准确率为 64.4%,而人类的平均准确率为 78.2%,最高达到 81.0%。随后,MLLMs 在中国传统文化图像上的表现较差,这表明它们在理解高层次语义方面存在局限性,并且缺乏对中国传统文化的深厚知识基础。最后,他们观察到,当在提示中加入图像情感提示时,大多数模型的准确率都有所提高。

论文链接:
https://arxiv.org/abs/2410.13854



可高效私密推理的纯 Softmax 大语言模型

专有语言模型的普及引发了对用户敏感数据隐私的担忧,从而强调了对私密推理(PI)的需求,即直接在加密输入上执行推理。然而,当前的 PI 方法面临着过高的通信和延迟开销,这主要是由于非线性操作造成的。

在这项工作中,纽约大学研究团队进行了全面分析,以了解非线性在基于 Transformer 的纯解码器语言模型中的作用。他们提出了 AERO,这是一个四步架构优化框架,通过系统性地去除 LayerNorm 和 GELU 等非线性因素并减少 FLOPs 数量,改进了现有的 LLM 架构,以实现高效的 PI。

他们首次提出了一种纯 Softmax 架构,它为高效 PI 量身定制,大大减少了 FLOPs。此外,他们还设计了一种新颖的熵正则化技术,以提高纯 Softmax 模型的性能。AERO 实现了高达 4.23 倍的通信量和 1.94 倍的延迟降低。他们将 AERO 与 SOTA 技术进行了对比,从而验证了它的有效性。

论文链接:
https://arxiv.org/abs/2410.13060


整理:李雯靖
如需转载或投稿,请直接在公众号内留言

点击阅读原文」,查看“2024必读大模型论文

学术头条
致力于学术传播和科学普及,重点关注AI4Science/大模型等前沿科学进展。
 最新文章