有望减少所需计算资源，科学家提出新方法对齐大模型

科技 2024-11-08 14:52 北京

众所周知，ChatGPT、Pathways、Llama 等大模型经过大量数据集的训练，已在多种任务中展现出令人印象深刻的能力。

这些模型不仅在自然语言处理领域（如文本生成、翻译和问答系统）表现出色，而且在医疗诊断、法律咨询和科学研究等更复杂的领域也显示出巨大的潜力。

然而，尽管这些模型的表现令人瞩目，它们仍然面临显著的风险。

这是由于这些训练数据的异质性，大模型可能会无意中生成误导性信息和有害内容。

具体而言，这些模型的训练数据通常来源于互联网，由于质量和来源参差不齐，其极有可能带来不准确、偏颇甚至有害的信息。

因此，在生成内容时，模型可能由于混入上述提及的不可靠的信息，从而导致错误和风险。

例如，当模型被用于生成社交媒体上的内容时，如果生成的文本包含煽动性言论、虚假信息或对某些群体的歧视性描述，可能会引发社会争议甚至引发暴力行为。

此外，这些模型在生成内容时也许会放大现有的偏见和歧视，从而进一步加剧社会不公。

譬如，在招聘或信贷评估过程中，如果模型的训练数据中包含性别或种族偏见，极有可能会导致不公平的决策，这将严重影响社会的公平、公正与和谐。

上述的问题突显了将大模型与人类需求对齐的关键挑战。对齐不仅意味着要求大模型能够生成准确可靠的信息，还要求它们所生成的内容符合社会道德和伦理标准，从而避免造成潜在危害。

这需要人们在设计和训练这些模型时，不仅关注其性能，还要高度重视模型的安全性和伦理性，以确保它们在各类应用场景中能够真正服务于人类的福祉。

总之，尽管大模型在许多任务中展现了强大的能力，但其潜在的误导性和有害性提醒我们，在追求技术进步的同时，必须慎重考虑如何将这些模型与人类需求和价值观紧密对齐。

所以，将大模型与人类需求以及社会价值观对齐是当前人工智能研究和应用中面临的一个重大而紧迫的挑战。

在最近的一项研究中，美国佐治亚理工学院课题组提出通过表征编辑来对齐大模型（LLM，Large Language Model）。他们通过将外部控制信号引入这个语言动力系统的状态空间，从而实现特定目标的对齐。

图 | 孔令恺博士（来源：孔令恺）

日前，相关论文以《通过表征编辑对齐大模型：一种控制视角》（Aligning Large Language Models with Representation Editing: A Control Perspective）为题发在预印本网站 arXiv [1]。

并且，该论文近期已被人工智能顶会神经信息处理系统大会（NeurIPS，Conference on Neural Information Processing Systems）2024 接收。

佐治亚理工学院孔令恺博士（现美国哈佛大学博士后），博士生 WangHaorui 和硕士生 Mu Wenhao 是共同第一作者兼共同通讯作者。

图 | 相关论文（来源：arXiv）

目前，大模型对齐方法通常分为两类：微调和测试时对齐。在微调方法中，基于人类反馈的强化学习（RLHF，Reinforcement Learning from Human Feedback）尤其有效。

RLHF 通过训练一个奖励模型（RM, Reward Model），依据人类偏好进行优化，然后利用该模型通过强化学习技术对大模型进行微调。

然而，RL 训练可能存在困难和不稳定性。尽管最近的一些研究提出了比 RLHF 更简单的替代方法，这些方法仍需大量计算资源。

此外，适应对齐目标的微调需求使得快速定制模型，以应对不断变化的数据集和新需求变得困难。

另一方面，还有一些在测试阶段对齐大模型的方法，这些方法无需改变其权重，例如提示工程和引导解码。

然而，由于这些方法不修改底层的 LLM，其对齐能力仍然存在疑问，性能可能在很大程度上依赖于原始 LLM 的质量。

鉴于上述存在的这些困难和问题，该课题组采用了一种新方法，透过编辑模型的表征来对齐 LLM。

这种表征空间编辑方法的优势在于无需更新模型权重，而是通过对模型表征进行小幅扰动来引导其行为。

而且，现有研究已经展示了这种方法在提升 LLM 真实性和减少幻觉方面的巨大潜力。

然而，以往的工作通常依赖于在生成过程中向表征空间添加固定扰动，忽视了 LLM 的自回归生成特性。

出于对问题的本源探索以及对探究解决方法，该课题组参考了两篇论文，分别是：

发表于 NeurIPS 2023 的论文《推理时间干预：从语言模型中获取真实答案》（Inference-Time Intervention: Eliciting Truthful Answers from a Language Model）[2]。

另一篇是论文是该团队在 2020 国际机器学习会议（ ICML，International Conference on Machine Learning）发表的论文《SDE-Net：为深度神经网络提供不确定性估计》（SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates）[3]。

从解决问题的角度出发，根据上述已发表的论文，该课题组提出了一种从控制理论角度出发的动态表征编辑方法。

该团队的模型设计核心在于将大模型视为一个离散时间的随机动力系统。受控制理论技术的启发，他们向语言动力系统的状态空间引入控制信号，以实现特定的对齐目标。

然后，根据贝尔曼方程，在 LLM 的表征空间中直接训练一个价值函数。在测试阶段，研究团队采用基于梯度的优化方法来确定控制信号。

由于价值函数仅为一个两层或三层的神经网络，因此干预过程非常快速且高效。

为了在实现对齐目标的同时保留原始 LLM 的生成质量，研究人员对控制信号进行正则化，使其尽可能小。

通过这种方式，他们既达成了对齐的目标，又不影响模型的生成质量。

图丨 RE-CONTROL 概述（来源：arXiv）

在实验中，该团队将方法与现有的测试阶段对齐技术进行了比较。对比结果发现，这种方法能够显著提升模型的对齐能力。

除此之外，他们还与现有的基于微调的方法进行了对比。实验证明，该方案在取得具有竞争力的结果的同时，还大幅减少了所需的计算资源。

当前，大模型的应用日益广泛，正在不断改变我们的生活。该课题组提出的通过动态编辑大模型表征实现对齐的方法，具有许多前景广阔的应用。

比如，可以应用于公共安全与应急响应。在公共安全领域，提高模型在应急响应中的鲁棒性和安全性，确保生成的信息准确无误，帮助应急响应团队做出及时、正确的决策，保护公众安全。

此外，还可以应用于社会科学研究。在社会科学研究中，确保使用大模型生成的数据和分析结果真实可靠，减少误导性信息对研究结论的影响，支持科学研究的高质量发展。

不难想象，动态表征编辑方法可以在多个领域发挥其巨大潜力，帮助解决实际问题，提高大模型的可靠性和安全性，有望推动技术进步革新和社会发展。

值得关注的是，这项研究是通过编辑模型表征来进行大模型对齐的首例尝试。

接下来，该团队还将对该编辑模型表征做进一步提升。具体来说：

第一，向控制策略中注入归纳偏差：在该课题组目前的工作中，仅在模型隐藏空间的最后一层训练一个价值函数。

然而，他们可以采用更复杂的方法，首先在所有中间隐藏层上训练多个价值函数，然后选择在验证集上达到最佳准确度的层。

此外，研究人员还可以借鉴已有研究中的方法，仅对表示空间的低秩子空间进行扰动。

第二，多目标对齐：研究团队本次的研究考虑的是单一奖励模型的目标。然而，在实际应用中，对齐可能涉及多个潜在冲突的目标。

在这种情况下，利用多目标优化技术在测试时获得表示空间中的帕累托前沿将是一个有趣的研究方向。

第三，更先进的训练算法：目前，该课题组仅使用一种简单的单次迭代策略来训练价值函数。他们计划进一步研究增加迭代次数是否能改进价值函数的训练。

此外，研究团队还考虑使用能够提供可证明收敛性的算法来训练价值函数。

据介绍，这篇论文是孔令恺在博士期间的最后一个研究课题。目前，他在哈佛参与的一个项目与非洲的野生动物保护区合作，旨在利用人工智能中热门的生成模型技术推动野生动物保护。

未来，他将专注于将人工智能应用于环保和公共安全等新领域，致力于提升人工智能的鲁棒性和安全性，帮助非营利组织做出更好的决策。

参考资料：

1. Kong, L., Wang, H., Mu, W., Du, Y., Zhuang, Y., Zhou, Y., ... & Zhang, C. Aligning Large Language Models with Representation Editing: A Control Perspective.arXiv 2406, 05954 (2024). https://doi.org/10.48550/arXiv.2406.05954

2. Li, K., Patel, O., Viégas, F., Pfister, H., & Wattenberg, M.. Inference-time intervention: Eliciting truthful answers from a language model.Advances in Neural Information Processing Systems, 36 (2024).

3.Kong, L., Sun, J. and Zhang, C., 2020, November. SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates. In International Conference on Machine Learning (pp. 5405-5415). PMLR.

运营/排版：何晨龙

01/ 科学家制备高性能水凝胶半导体，兼具高迁移率和高柔软度，能实现生物组织与机器间的信息传输

02/ 大卫贝克华人学生打造蛋白质新技术，摆脱对于天然配体的依赖，实现靶向性蛋白降解

03/ 科学家提出合成手性硫亚胺新方法，兼具化学选择性和对映选择性，为药物研发提供合成新路径

04/ 与人脑静息态信号相似度达93%，科学家研发数字孪生脑平台，实现对人脑结构和功能的模拟

05/ 水也能用来造芯片？科学家用液态水分子制备神经网络计算芯片，或为AI计算提供新方向

http://mp.weixin.qq.com/s?__biz=MzA3NTIyODUzNA==&mid=2649759614&idx=2&sn=06d3dc6d63d615e689847f17d4cb100a

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

澳洲昆大团队研发新型聚合物吸附剂，短时间内实现超99%氟化污染物去除

蛋白质设计再突破！麻省理工团队利用人工智能与梯度优化开发新策略

在家就能查血：MIT开发微型硅光芯片血液检测系统

科学家研发“仿心脏”电极材料，促进离子流传输，解决钠离子电池离子传输动力学缓慢问题

亚马逊向Anthropic追投40亿美元，Anthropic将使用前者芯片训练AI模型

还原真实世界：MIT用“AI+物理模拟”为机器人打造虚拟训练场

诺奖得主联合创办，初创融资3000万美元，开发新型糖免疫疗法

打破传统蛋白质进化方法局限性：MIT团队设计新型蛋白质大模型，发现比自然界高效百倍的突变体

寻找定义未来的科技先锋丨2024年度“35岁以下科技创新35人”中国报名中

被迫剥离Chrome和安卓？谷歌或将迎来“至暗时刻”

初创公司Teleo完成千万美元融资，欲打造机器人行业“ChatGPT时刻”

艾伦研究所与华盛顿大学团队推出开源科研大模型OpenScholar，用小参数超越GPT-4o

北大校友发现新型神经元，能通过靶向激活快速抑制食欲，或促进司美格鲁肽类药物新发展

背靠英伟达的初创公司Enfabrica推出全球最快GPU网络接口控制器芯片，再获1.15亿美元融资

英国核聚变初创公司完成1.25亿美元融资，致力于开发新型反应堆

运动即药物：MIT揭示神经修复新机制

科学家提出“一锅法微流体制造”系统，制备多种复杂陶瓷微粒，能作为微机电系统的精密零件

成立仅半年，印度首家核聚变公司获种子前投资

北航团队提出全新偏好数据构建框架，助力大模型实现更全面的对齐效果

药物研发新突破！中国科大、哈佛等联合开发PocketGen模型，可高效生成蛋白质口袋

AI和量子：谁将主宰未来计算？

内部短路起火时间不到3秒，王朝阳院士团队揭示全固态金属锂电池安全隐患

斯坦福团队发现新型代谢化合物，可抑制食欲、减轻体重

科学家以树蛙皮肤为灵感研制大气水收集装置，每平方米产能超过60升/天，有望满足工业级用水需求

研究人员打造即插即用型框架，将多智能体强化学习引入大语言模型

哈工大团队开发高灵敏度检测设备，可同时实现多种疾病诊断

科学家从小行星挖掘出外太阳系的起源密码

人类首次月球原位资源利用测试项目定档，美国企业计划明年执行首次任务

孙学良院士团队开发双阴离子基钠超离子导体，打破传统固态电解质局限，为开发高性能全固态钠离子电池开辟新途径

这家公司打造1.25万电池充电站，可在地震或台风时提供备用发电

MIT绘制迄今为止最全面大脑皮层功能图

1人完全缓解，斯坦福团队利用CAR-T治疗胶质瘤，突破实体肿瘤限制

结合有机半导体薄膜与细菌人工光合作用，科学家制备人工生物叶片，具备自支撑与能量自给特性

清华校友研发分子编辑工具，为药物分子和材料分子的合成提供新策略

微软联手NASA开发“地球Copilot”，让浩瀚太空数据触手可及

AI导航测试：纽约街道闭路实验揭示生成式模型的薄弱点

生成式AI或在5年内产生数百万吨电子垃圾？科学家提出算力物质流方法，为AI可持续发展提供新视角

四成AI数据中心或陷入“用电荒”，全球能源格局面临重大挑战

首个机械量子比特问世，量子计算迎来“蒸汽朋克”时代

MIT科学家开发新模型能让疫苗更有效

科学家用AI打造离子电路，将成为电子电路的有力补充，可被用于人机交互领域

专访澳大姜颖：开发“BIND通用接口”技术，让柔性生物电子器件实现模块化组合，正联合企业落地转化

超越硅极限：纳米3D晶体管或成AI低功耗未来之钥

科学家提出基于大语言模型的智能体系统框架，促进对不同框架的统一理解

Cursor母公司Anysphere收购Supermaven，计划打造完全整合的AI开发平台

科学家开发新型点击化学反应，突破二硫键高效合成技术瓶颈，正探索将其用于骨修复和脊髓修复

用“飞轮效应”开启智能科学时代新篇章，火山引擎AI for Science研讨会与Bio-OS大赛圆满收官

CFS公司获美国能源部250万美元资助，即将公布首座核聚变发电站选址

天津大学开发类器官-脑机接口技术，为脑损伤修复带来新希望

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉