“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
前言卡内基・梅隆大学(CMU)和 Google DeepMind 的一篇标题为「VLM 智能体生成自己的记忆:将经验蒸馏成具身思维程序」的研究发现,通过使用低质量数据和反馈,或许能够解决这个高质量数据不足的问题。其中提出的 ICAL 可让 LLM 和 VLM 根据次优演示和人工反馈创建有效的提示词,从而改善决策并减少对专家演示的依赖。该论文是 NeurIPS 2024 的 Spotlight 论文,项目代码也已发布。
最近 AI 社区很多人都在讨论 Scaling Law 是否撞墙的问题。其中,一个支持 Scaling Law 撞墙论的理由是 AI 几乎已经快要耗尽已有的高质量数据,比如有一项研究就预计,如果 LLM 保持现在的发展势头,到 2028 年左右,已有的数据储量将被全部利用完。
论文标题:VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought 论文地址:https://openreview.net/pdf?id=5G7MRfPngt 项目地址:https://ical-learning.github.io/ 代码地址:https://github.com/Gabesarch/ICAL
我们知道,人类具有非常出色的少样本学习能力,通过将观察到的行为与内部世界模型相结合,可以从单一任务演示快速泛化到相关的情况。人类能分辨出与成功相关或不相关的因素,并预测可能的失败。通过反复练习和反馈,人类能很快找到正确的抽象,从而帮助模仿和调整任务以适应各种情况。这个过程可促进在各种任务和环境中不断改进和迁移知识。
最近有研究探索了使用大型语言模型(LLM)和视觉 - 语言模型(VLM)来从轨迹和经验中提取高层级见解。这些见解是模型通过内省(introspection)产生的,而通过将它们附加到提示词之后,可以提升其性能 —— 这就用到了它们强大的上下文学习能力。现有的方法通常更关注语言上的任务奖励信号、存储失败之后的人类更正、使用领域专家来人工编写或人工挑选示例(无需内省)、或使用语言来塑造策略和奖励。关键在于,这些方法通常都是基于文本的,并不包含任何视觉提示或演示,或者仅在失败的情况下使用自省,但这只是人类和机器整合经验和提取见解的几种方式之一。而 CMU 和 DeepMind 这个研究团队的做法是:给定次优的演示和人类自然语言反馈,通过学习上下文经验抽象来让 VLM 学习解决新任务。这种方法被命名为 In-Context Abstraction Learning(ICAL),即上下文抽象学习。任务和因果关系,确定实现目标所需的基本原则或行动,以及要素如何通过因果关系相互关联; 对象状态的变化,描述对象将采取的各种形式或条件; 时间抽象,将任务分解为子目标; 任务建构(task construals),突出任务中的关键视觉细节。
抽象阶段(F_abstract):VLM 会借助语言评论来纠正错误,并让序列更加丰富。这一阶段处理的抽象前文已有介绍,而相关的具体提示词等请参看原论文附录部分。 有人类参与的阶段(human-in-the-loop,记为 F_hitl):在此阶段,序列会在环境中执行,其抽象过程由以自然语言传达的人类反馈指导。这一阶段的具体流程可分为 6 步:优化轨迹的执行、监控与干预、反馈整合与轨迹修正、环境重置与重试、成功标准与反馈限度、保存示例。具体详情请访问原论文。
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
收藏,分享、在看,给个三连击呗!