对话南洋理工大学安波教授：如何让大语言模型适应动态环境？

科技 2024-07-19 18:05 英国

大数据文摘受权转载自AI科技评论

作者丨陈鹭伊

编辑丨岑峰

对人类越是简单的问题，大语言模型反而越难以做好？

尽管现在的大模型已经有能力冲击数学竞赛级别的题目，但在像“9.11和9.9谁大”这样的简单问题上仍然会翻船。而从推特上网友对问题的讨论中猜测，出现这种错误的原因可能是由于大模型以token的方式来理解文字，当9.11被拆成“9”、“.”和“11”三部分时，11确实比9大。

大语言模型（LLMs）在处理复杂问题时表现出色，但在一些看似简单的问题上却可能遇到困难——这种现象并不是因为模型本身的复杂性，而是由于模型与特定环境或任务之间的知识不对齐。此外，LLMs在生成文本时依赖于预测下一个单词的概率，这种机制可能导致它们生成与人类常识不符的结果。这是因为现有的模型通常侧重于语言的统计特性，而不是深入理解人类的价值观和偏好。

随着大语言模型的能力不断增强，人们对其可能带来的伦理风险和对人类的潜在威胁的担忧也在增加。LLMs可能会传播其训练数据中的有害信息，如偏见、歧视和有害内容。它们还可能泄露训练数据中的私密和敏感信息，或生成误导性或虚假信息。随着这些Agent越来越多地融入我们的日常生活，任何未对齐的行为都可能导致不可预见的后果。

因此，推动大语言模型对齐技术的研究和突破变得尤为重要。这包括开发新的算法和技术，例如通过将强化学习（RL）与大型语言模型（LLMs）结合，这也是当前AI研究的热门方向之一，这种方法的核心在于通过与环境的交互来不断学习和调整模型的行为，使其更好地适应人类的直觉和逻辑。

近日，相关论文之一《 Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability，上线期刊《人工智能与机器人研究国际期刊》（IJAIRR）。该论文提出了一个名为TWOSOME的框架，旨在通过强化学习（RL）将大型语言模型（LLMs）与具身环境（embodied environments）对齐，以解决决策任务。

与OpenAI等公司使用的基于人类反馈的强化学习（RLHF）技术不同，本论文提出了一个新颖的在线框架TWOSOME，使用RL让LLMs作为决策代理与环境进行有效交互和对齐，无需预先准备的数据集或对环境的先验知识。

从实验结果看，TWOSOME在样本效率和性能方面显著优于传统RL方法PPO和提示调整方法SayCan，这一结果在Overcooked和VirtualHome环境中得到了验证。此外，TWOSOME还在八个新的未见任务中测试了其泛化能力，发现其能够成功地将学到的技能转移到不同的任务中。

“要想实现通用人工智能，就不能仅仅依赖人类标注数据，而是需要智能体自发地和环境进行交互。”在谈及强化学习与大语言模型结合研究的意义时，安波教授如是说。

借对该论文的讨论，安波教授向AI科技评论分享了对大语言模型部署在动态环境中进行交互的思考，以及该论文的研究过程。

论文链接：

https://gairdao.com/doi/10.1142/S2972335324500042

论文引用链接：

https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500042&area=0000000000000001

1 “合法才合理”

AI科技评论：强化学习与大语言模型融合是近一年来的热门研究领域，您能介绍下这一领域的主要研究方向和进展吗？

安波：强化学习与大语言模型的结合主要有两个方向：基于人类反馈的强化学习（RLHF）和传统强化学习。RLHF通过学习人类偏好来对齐价值观，已经成为大型语言模型训练流程中不可或缺的一部分，是目前强化学习与大语言模型结合的最热门的方向。

传统强化学习则依赖环境奖励，让智能体能够自发地在和各种环境不断交互中自主学习策略。目前受限于模型能力和环境的适配性，直接将大语言模型部署在动态环境中进行交互和策略提升的研究较少。TWOSOME框架就是为了试图填补大语言模型与动态环境直接交互的空白的一次探索。

AI科技评论：您能否介绍TWOSOME框架的设计思想灵感来源？

安波：我们注意到，尽管现在的大语言模型在常规问答中表现出色，但决策任务上却常常表现不佳。这主要是因为这些模型缺乏与环境的对齐——它们不熟悉环境中的可执行动作，也不了解环境的动态变化，导致其经常给出一些看似合理其实离题甚远的回答。

与此同时，强化学习因为学习的是环境中的奖励信号，能够和环境始终保持对齐，但其挑战在于如何有效引入先验知识以辅助探索。因此，我们设计了TWOSOME框架，旨在将强化学习与大型语言模型相结合，利用强化学习帮助模型与环境对齐，同时利用模型的先验知识提高探索效率。

此外，虽然利用强化学习训练语言模型以学习人类偏好已经是一个成熟且热门的研究方向，但让语言模型直接与环境交互以学习的研究还相对缺乏。本质上人类的偏好和环境的反馈都是一种奖励信息，用来指引模型更新的方向，所以理论上我们应该能够对RLHF框架进行修改将大语言模型直接部署到动态环境中，通过在线交互的方式不断提升大语言模型自身的策略和能力。

AI科技评论：在现有的技术背景下，这项研究解决了哪些关键问题？

安波：这项研究主要是解决了如何用强化学习让大语言模型通过与动态环境交互的方式提升自己能力的问题。这其中又具体细分为：

1）如何让能力较弱的大语言模型能够稳定输出环境中可执行的合法动作；

2）如何利用大语言模型学习到的海量知识指引智能体在环境中高效探索；

3）如何设计一套高效的pipeline让模型根据环境中的奖励信号进行参数更新最后找到最优策略。

AI科技评论：OpenAI的InstructGPT同样也利用了强化学习框架来优化策略，提高语言模型与人类意图的对齐度问题，TWOSOME在方法论上有何不同？

安波：InstructGPT采用的是RLHF技术，它首先先通过学习人类标注的方式获取一个奖励模型（reward model），然后再利用这个模型的奖励信息去更新语言模型。这个过程通常需要多次迭代，先训练reward model再更新模型参数。相比之下，TWOSOME更注重让大模型直接和环境去交互，利用环境中已有的奖励信号，省去了额外训练奖励模型的步骤，使得TWOSOME能够进行在线训练。

此外，RLHF主要用于生成任务，其生成的答案更多关注好坏而非对错。而TWOSOME则需要在环境中实际执行动作，这就要求我们必须确保智能体的动作是合法的。只有先合法，动作才会合理，因此，TWOSOME不是简单地让大模型通过问答问题的方式去生成动作，而是通过查询大模型中有效动作的生成概率，并以此作为智能体的行为策略，从而确保每次交互都是合法的。这种方法提高了智能体与环境互动的有效性和准确性。

2 更高效、更稳定

AI科技评论：TWOSOME在训练架构上有哪些创新之处？

安波：传统RLHF需要同时维护4个模型，包括Reward Model， Actor Model（行为模型，即大模型本身），Critic mode和Reference model，对显卡显存要求很高。

TWOMSOME创造性地引入LoRA（低秩适配器）更新冻结的大模型，使其本身来作为行为模型，同时，在大模型的基础上增加全连接层作为评价模型。这种设计使得行为模型和评价模型的更新互不干扰，提高了训练的稳定性。更重要的是，整个训练过程中只需要在显存中维护一个大模型，显著提升了内存使用效率，使得我们所有的实验都可以在一张40GB显存的A100 GPU上顺利完成。

AI科技评论：TWOSOME框架通过直接与环境交互来加速学习和迭代，您能否谈谈这种方法在实际研究中的应用效果？

安波：TWOSOME框架直接与环境交互并从中学习并不是为了减少对大规模预训练数据集的依赖，而是在预训练和指令跟随训练的基础上进一步优化。强化学习往往是在监督学习达到瓶颈之后帮助模型突破上限的方法，很多时候我们并不知道如何完成任务以及如何更加高效地完成任务，这就需要通过强化学习和环境不断交互的方式去探索去学习，这通常需要比监督学习大2个数量级以上的数据。

TWOSOME的创新之处在于，它结合了大模型的先验知识，提高了采样效率，使得模型能够更快地收敛。这种方法不是一种简单的效率提升，而是一种突破现有模型性能上限的策略。与传统的强化学习相比，TWOSOME通过更有效的数据利用，帮助模型在复杂任务中实现更快的学习速度和更好的性能表现。

AI科技评论：TWOSOME框架的效率优势可能对未来AI研究的方法论和工作流程产生哪些影响？

安波：TWOSOME的框架为众多计算资源不充分的小型实验室进行强化学习和大语言模型相结合的研究提供了可能。在此之前，780M的语言模型需要8X A100 80G才能运行试验进行相关研究。

AI科技评论：能否详细说明TWOSOME框架中的动作提示规范化方法，以及它如何提升策略的稳定性和鲁棒性？

安波：在TWOSOME中，我们通过查询大模型来确定环境中有效动作的生成概率，并以此作为智能体的行为策略。然而，我们发现直接将动作中每个token的概率连乘起来作为整个动作的概率，会导致一个明显的问题：动作越长，其联合概率通常越低。这是因为每个token的概率都小于1，一些合理的长动作可能会被不合理地低估，最后的概率不如一些不合理的短动作。

为了解决这个问题，我们引入了动作提示规范化（Action Prompt Normalization）。最初，我们尝试了基于token级别的规范化，即利用动作中每个token概率的几何平均值来计算动作的概率。这种方法虽然缓解了动作长度不一导致的概率失衡问题，但我们发现它可能会过度正则化由多个token组成的单词。

例如“tomato”由“tom”和“ato ”2个token组成，在当前语境下，ato几乎是和tom绑定在一起出现的，tom后面几乎一定是跟着ato，如果将它们视为独立，会导致整个tomato乃至整个动作的被过度正则化，会错误地提高其概率。

（Twosome基于单词级别的规范化方法）

因此，我们提出了基于单词级别的规范化方法（Word-level Normalization），这种方法将一个单词中所有的token的概率连乘，计算单词层面的几何平均值，而不是token层面的。这不仅避免了过度正则化的问题，还使得动作提示更加合理。与不进行规范化或仅进行token级别规范化相比，单词级别规范化在提高策略稳定性和加速收敛方面表现更佳。

3 “要超越人类就要和环境交互”

AI科技评论：您如何看待TWOSOME框架在处理未见过的任务或环境时的泛化表现？这种能力如何影响模型在现实世界应用的潜力？

安波：传统强化学习训练的智能体会过拟合在训练的任务上，很难拥有泛化能力，与大语言模型的结合赋予其较强的泛化能力同样令我们惊讶，我们认为这代表TWOSOME具有较好的可拓展性，能够高效地在各种任务和环境中提升自身的能力。

AI科技评论：考虑到TWOSOME框架的泛化能力，您认为未来可能在哪些新的应用方向或领域得以应用，它如何解决这些领域特有的挑战？

安波：TWOSOME探索了一种如何让大语言模型和环境交互不断提升自身能力的方法，同时也是一种如何为强化学习智能体引入先验信息帮助探索的一种方法。

我们相信要想实现通用人工智能，仅仅依赖人类标注数据是不够的，因为那样最多只能达到与人类相同的水平，要想超过人类水平就需要智能体自发地和环境进行交互，TWOSOME就是在这个方向的一次尝试和探索，它同时能够帮助大模型在机器人或者互联网以及操作系统中和环境交互综合提升自身的能力，也能够帮助以往的强化学习智能体在具身智能、AI4Science等方向上更高效地探索，并且有更好的可解释性。

黑色小圆动图分割线

租售GPU算力

租：4090/A800/H800/H100

售：现货H100/H800

特别适合企业级应用

扫码了解详情☝

点「在看」的人都变好看了哦！

http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651734454&idx=1&sn=3272e7c52164b2d7189a5dc26f293c15

大数据文摘

普及数据思维，传播数据文化

最新文章

17岁高中生写了个神级Prompt，直接把Claude强化成了满血o1。

著名AI学者、天工智能首席科学家颜水成离开昆仑万维

马斯克和特朗普这对CP组合赢了后，科技界会变天吗？

人工智能专家获诺奖，是希望之光，还是灾难前奏？

贝索斯领投、OpenAI连续跟投，这家机器人公司再融4亿美金

你愿意和AI恋人共度一生吗？

比ChatGPT更牛！苹果新AI模型刷新交互体验！能看懂你的手机屏幕！平板和安卓机也都行

专访"Prompt之神"李继刚 - 我想用20年时间，给世界留一句话。

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

OpenAI放弃自制AI芯片！伦敦场开发者日Hugging Face工程师现场“拷问”Sam Altman

想用AI特效在万圣节“鬼混”，看这一篇就够了。

AI + 影视，学会「避坑」再「吟诗」丨CNCC 2024

做AI捏捏，享赛博解压。

困扰18亿人的“全球干旱”，被AI更准确预测了

开源一夜崩塌：Linux无理由除名俄罗斯开发者。我们该醒了？

帮老外割草、送餐、保洁，中国服务机器人冲向海外

Character AI被起诉！14岁青少年自杀，AI陪伴何去何从

加强版Claude3.5正式上线，一句话操控电脑的时代真的要来了。

Transformer能否推理引争议，DeepMind连夜更新论文开源数据集：Transformer真的很强

Andrej Karpathy预言AI马太效应：差异只会越来越显著

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

台积电股价创历史新高，先进制程比想象中重要？

谷歌计划将 Gemini 并入 Deepmind，下个月开始生效

这个AI插件，想让你体验在浏览器上开挂的感觉。

对统计学“又爱又怕”，到底如何学统计？

科研那些事（万字长文，真诚分享）

创造历史，马斯克成功回收20多层楼高的星舰助推器

从广东看中华文明起源，《穿越磨刀山》以AI技术开拓考古新视野

苹果发文质疑：大语言模型根本无法进行逻辑推理

三星，正在自救

o1诞生对下一轮AI爆发的启示：技术远远没有收敛，仍在演进丨智源Workshop精华观点回顾

马斯克的Cybercab首秀！没有方向盘和踏板，26年量产，特斯拉这次又玩大的了

哈佛大学俩学生开发出一种 AI 眼镜，看你一眼就能扒光所有个人信息

AI 法力无边！物理诺贝尔奖颁给了 HNN 之父和深度学习之父

别笑，你可能也分不清这些视频是不是AI的。

两万字实录：大语言模型、提示学习与未来科技研发的交汇点

破纪录！OpenAI成为史上第一家估值万亿元的AI公司！独家融资协议：“别投对手公司”

是什么，缔造了英伟达神话？

ChatGPT上线全新功能Canvas - 我消灭你，与你无关。

为何马斯克的“盲视”不可能超越肉眼？

当代年轻人，在AI实现婚纱照自由

国庆从你的城市出发，5小时高铁最远能到哪

颠覆认知：大模型不可靠，越大越不可靠？最新研究登上 Nature

科研大佬投稿顶会的经验分享：时间安排、idea灵感、科研习惯

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

2024工博会最新洞察：机器人走向大负载，中国厂商从跟随到并跑

AI击败人类！DeepMind推出AlphaChip，几小时内即可生成“超人”芯片布局

Meta放大招，发布真AR眼镜！但让人“高”攀不起

腾讯 Robotics X 控制负责人郑宇近日离职，已加入优必选

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉