人机对齐，通用人工智能的必由之路

学术科技 2024-11-01 15:00 北京

曹建峰 腾讯研究院高级研究员

原文标题为《大模型背景下的人机对齐》，刊发在《中国社会科学报》

随着人工智能大模型的能力日益强大，如何让其行为和目标同人类的价值、偏好、意图之间实现协调一致，即人机对齐（human-AI alignment）问题，变得越发重要。

目前，人机对齐已成为人工智能领域的重要发展方向。在大模型加速发展引发了有效加速（e/acc）还是有效对齐（e/a）的发展理念之争的背景下，人们需要更加负责任地发展与应用人工智能技术，而人机对齐（包括人工智能价值对齐）方面的技术演进和治理探索，将推动人工智能领域的负责任创新，使人类与人工智能走向和谐共存、有效协作的美好未来。

重要性与必要性

近年来，随着大模型的加速发展，相关的人工智能安全风险和控制问题引发了全球关注。以大模型为代表的新兴技术，不断推动人工智能迈向新的前沿。但这也在一定程度上引发了人们对人工智能未来可能导致极端风险的担忧。除了重要数据及隐私泄露、算法歧视及不透明、虚假信息等伦理问题，未来更加强大且通用的人工智能模型是否可能导致灾难性风险或极端风险的问题也受到了更多关注。具体而言，不同于以往的任何技术，当前以及未来的人工智能技术主要会在三个核心维度给个人和社会带来新的风险与挑战。

一是决策让渡风险。在经济社会活动维度，人工智能和机器人会在越来越多的人类事务中辅助甚至替代人类进行决策，这种决策让渡会带来新的风险，如技术性失业、人工智能安全等。甚至还需要考虑有一些决策和人类事务是否应外包给人工智能。

二是情感替代风险。在人际/人机关系维度，人工智能和机器人已经并将持续深度介入人类情感领域，给人们提供情感陪伴价值，但却可能影响到人际交往，产生情感替代风险，导致人与人之间的真实联系被削弱甚至被取代。这种新型人机关系的伦理边界应如何确定？一个重要的原则是，人机交互必须促进人类联系和社会团结——真实的人类联系在智能时代将是弥足珍贵的。

三是人类增强风险。在人类自身发展维度，人工智能、脑机接口等技术可能推动人类社会进入所谓的“后人类时代”。此类技术或被用于增强、改造人类自身，未来人机深度融合后，人的身体、大脑、智力等都有可能被人工智能改造，届时人会变成什么？这种人类增强是否会带来新形式的人类不平等？在这几个维度之外，还有技术滥用、恶用的风险（如深度伪造技术的恶性使用），人工智能消耗大量能源对环境和可持续发展的挑战，人工智能技术失控、威胁人类生存等灾难性风险（以及由此引发的加速派与对齐派的发展理念分歧），等等。因此，人工智能领域的负责任创新变得越发重要且必要。

在此背景下，随着大模型能力的持续提升以及日益通用化，如何让大模型的行为和目标与人类的价值、偏好、伦理道德、意图和目标等相一致，成为大模型发展的重要内容。人机对齐是人工智能安全和伦理领域的一个新概念，其主要目的是将人工智能大模型打造成安全、真诚、有用、无害的智能助手，避免在与人的交互过程中造成潜在的负面影响或危害，如输出有害内容、带来幻觉、造成歧视等。要而言之，人机对齐包含双重含义，一方面是人工智能对齐人类，主要涉及创建安全、符合伦理的人工智能系统；另一方面是人类对齐人工智能，核心是确保人们负责任地使用、部署人工智能系统。

在大模型背景下，人机对齐对于确保人类与人工智能交互过程中的安全与信任至关重要。现在的聊天机器人等大模型应用之所以能够游刃有余地应对用户的各种提问，而不至于产生太大负面影响，在很大程度上归功于人机对齐方面的技术和治理实践。可以说，人机对齐是大模型可用性和安全性的重要基础和必要保障。

实现路径

在实践中，目前产业界将人机对齐作为人工智能大模型安全治理的重要思路，并在技术上取得了可观的效果，很大程度上保障了大模型开发、部署和使用中的安全与信任。人机对齐是大模型开发和训练过程中的一个重要环节，在技术上目前主要有两种人机对齐方法:‍

一种是自下而上的思路，即人类反馈强化学习的对齐方法，需要用价值对齐的数据集对模型进行精调，并由人类训练员对模型的输出进行评分，以便通过强化学习让模型学习人类的价值和偏好。在技术上，人类反馈的强化学习包括初始模型训练、收集人类反馈、强化学习、迭代过程等步骤。

另一种是自上而下的思路，即原则型人工智能的对齐方法，核心是把一套伦理原则输入给模型，并通过技术方法让模型对自己的输出进行判断或评分，以使其输出符合这些原则。例如，OpenAI公司采取了人类反馈强化学习的对齐方法，Anthropic公司采取了原则型人工智能的对齐方法。这些人机对齐方法殊途同归，都致力于将大模型打造成为安全、真诚、有用、无害的智能助手。

此外，产业界还在探索对抗测试（如红队测试）、模型安全评估、可解释人工智能方法、伦理审查、第三方服务等多元化的安全和治理措施，共同保障人工智能领域的负责任创新。此外，值得一提的是，对于可能具有灾难性风险的人工智能模型和将来可能出现的超级人工智能，一些人工智能企业在探索专门的安全机制（如OpenAI的“预备”团队、Anthropic公司的负责任扩展政策），其核心思路是对新研发的更先进模型进行系统性评估，只有在模型的风险低于一定的安全风险阈值时才会对外推出，否则将暂缓推出直至安全风险得到缓解。人工智能企业通过在人机对齐上的相关探索和举措，可以建立起人工智能产品的市场竞争力，同时这些企业将人机对齐作为保障未来更强大的人工智能模型安全、有益的核心要素，积极开展前沿探索。

可以说，包括人工智能价值对齐在内的人机对齐理念和实践，是当前人工智能大模型发展应用的必由之路，可以帮助解决人工智能大模型商业应用过程中面临的很多难题。通过人机对齐的理念和实践，人工智能开发者可以构建更加安全、有用、可信且符合伦理的人工智能系统。可以预见，未来人工智能大模型会在更多场景中辅助人类甚至替代人类，人机对齐将是当前和未来的人工智能大模型以及未来可能出现的通用人工智能的必由之路。这既关乎信任，也关乎控制，更关乎未来人工智能的安全发展，因为人机对齐对于应对未来更加强大的人工智能模型的涌现风险至关重要。

总之，考虑到人机对齐在解决大模型的安全和信任问题上所扮演的重要角色——实现安全与创新的有效平衡，人工智能领域的相关政策需要积极支持与鼓励探索大模型领域人机对齐的技术手段和管理措施，推动形成政策指南、行业标准、技术规范等，以保障人工智能的向善发展。

推荐阅读

袁晓辉：《AI时代，哪种人更被需要？》

腾讯研究院：《端侧大模型浪潮奔涌而至：态势、影响与建议》

👇 点个“在看”分享洞见

http://mp.weixin.qq.com/s?__biz=MjM5OTE0ODA2MQ==&mid=2650979350&idx=1&sn=92f2bc26317a77cbcb77cf85cfdbd177

腾讯研究院

腾讯公司设立的社会科学研究机构，依托腾讯公司多元的产品、丰富的案例和海量的数据，围绕产业发展的焦点问题，通过开放合作的研究平台，汇集各界智慧，共同推动互联网产业健康、有序的发展，致力于成为现代科技与社会人文交叉汇聚的研究平台。\x0d\x0a

最新文章

腾讯研究院AI速递 20241120

新生独角兽企业数量下降，原因何在？

腾讯研究院AI速递 20241119

十问AI陪伴：机器有情商了吗？

腾讯研究院AI速递 20241118

寻找向善语料的标准之路 | AI向善语料库共读会火热进行中

腾讯研究院AI每周关键词Top50

6027家中小微企业调研：盈利状况改善、亏损企业数减少，但经营困难仍需重视｜2024年三季度

腾讯研究院AI速递 20241115

清华刘嘉教授：大模型是一个生命新物种｜AI&Society百人百问

腾讯研究院AI速递 20241114

AI手机背后，如何建立隐私保护与数据信任？

探元计划2024｜共创落地型赛道38强名单揭晓，终审路演预告

腾讯研究院AI速递 20241113

具身智能，究竟还缺什么？

我爱上了你，你却同时和一百个女友聊天

形塑新闻：AI时代新闻业的7个变化｜腾讯研究院3万字报告

腾讯研究院AI速递 20241111

腾讯研究院AI每周关键词Top50

回归创新的常识

报名开放｜AI向善语料库高校专场共创启动：AI是我们对您的爱！

【重磅】数字文化思享会暨“探元计划2024”创新探索型赛道终审路演会成功举办

腾讯研究院AI速递 20241108

大模型如何赋能传统文化传承发展？我们有10个关键思考

腾讯研究院AI速递 20241107

AI生成的内容可以被区分出来么？

腾讯研究院数字内容研究实习生招聘

腾讯研究院AI速递 20241106

线下报名｜大湾区的AI战略转型：腾讯研究院 AI&Society 高端研讨会第三期

腾讯研究院AI速递 20241105

数字广告是技术创新的沃土

腾讯研究院AI速递 20241104

腾讯研究院AI每周关键词Top50

人机对齐，通用人工智能的必由之路

腾讯研究院AI速递 20241101

最最最动人的不是文字，是素未谋面的爱与善意｜AI向善语料库共创行动火爆进行中

腾讯研究院AI速递 20241031

AI时代，哪种人更被需要？

腾讯研究院AI速递 20241030

端侧大模型浪潮奔涌而至：态势、影响与建议

腾讯研究院AI速递 20241029

好莱坞大罢工一周年：工会胜利，工人失业

腾讯研究院AI速递 20241028

腾讯研究院AI每周关键词Top50

如何判断你不是生活在“楚门的世界”里？

腾讯研究院AI速递 20241025

做成大事的秘诀：慢思考、快行动

腾讯研究院AI速递 20241024

十问“AI陪伴”：现状、趋势与机会

腾讯研究院AI速递 20241023

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉