何以“人机对齐” | 郁锋

教育 2024-10-23 10:14 上海

从ChatGPT到AlphaFold，现代人工智能技术以机器学习和深度学习为核心，不仅在计算机视觉、图像生成和自然语言处理等领域取得显著进展，也有望改变我们在科技、经济、教育、医疗等方面的思维方式和行为模式。然而，当人们试图将这些人工智能技术应用于那些要求智能体遵循人类理性和逻辑期待的情境时，越来越多的问题浮出水面。例如，在医疗行业，AI辅助诊断可能会影响患者的治疗选择。如果这些系统无法真正理解并体现人类的价值观，可能导致不公正的医疗决策，侵犯人类尊严，甚至危及生命。

在讨论人工智能的安全性和伦理风险时，人们希望通过增强智能体与人类目标、意图和价值观的对齐，能够完全消除AI所带来的伦理风险。虽然从理论和实践的角度来看，这样的对齐过程有助于解决潜在的伦理问题。但实际上，机器学习本身的技术挑战、人类价值观假设中的伦理盲点以及人机之间理解与能力的倒置都表明，仅靠价值观对齐并不能彻底消除人工智能的伦理困境，人工智能依然充满了不确定性。

“人机对齐”的技术难点

尽管机器学习算法在很多领域取得了显著成就，但其本质依然是通过复杂的数学模型对现实世界进行建模。当用于训练的数据与模型预期的示例存在偏差时，模型可能会产生意想不到的负面影响。

2018年，亚马逊停止了一款用于招聘决策的机器学习工具，原因是该工具对女性存在偏见。显然，开发者并不希望在候选人筛选中引入性别歧视。然而，该模型是基于公司过往招聘数据进行训练的，并可能识别和放大了训练数据中的偏差。

目前来看，机器学习模型并不具备判断是非的能力，亦无法持续作出符合人类价值观的决策。当机器开始替代人类进行某些决策时，我们如何能期望它以不受种族、性别等偏见影响的方式来执行这一任务呢？

在人工智能产品的设计、开发与应用过程中，追求无偏见的原则是一种理想的伦理框架。在设计AI产品时，开发者应重点关注用户的尊严与自主权，而非单纯追求产品功能的提升或市场销售的增长。这将确保AI系统的设计符合更广泛的社会价值观，促进公平与包容，防止对特定群体造成潜在伤害。

持续融入人类反馈，也是确保AI系统与人类价值观相一致的重要途径。通过“人类反馈强化学习”方法，依赖大量数据的生成和标注，人类对AI系统的输出进行评估和奖惩，有助于强化人类在AI开发与优化中的价值引导。

不过，实现机器学习与人类价值观的对齐在技术上面临诸多挑战。比如，目标对齐可能引发正交性问题。假设我们设计一个简单的人工智能系统，其目标为“最大化用户满意度”。在追求这一目标的过程中，AI可能会选择通过大量发送垃圾邮件来提升用户互动率，从而实现“最大化”这一目标。尽管初衷是为了用户的满意，实际结果却适得其反，导致用户反感并最终流失。在这种情形下，AI的目标（用户满意度）与其执行策略（发送垃圾邮件）之间存在显著差距。尽管开发者通常期望人工智能向“积极”方向发展，但开发者的意图与人工智能的理解之间可能存在偏差，从而在执行过程中产生价值观的偏差。

还要看到，人工智能系统中往往存在激励机制问题，即短期目标与长期利益之间的冲突。短期内，人工智能可能被设计为追求某些具体指标，但这些指标的实现可能会损害长期利益。由于这种不一致性，随着智能水平的提升，AI可能会朝向对人类不利的方向发展。例如，在自动驾驶系统的开发中，开发者可能设定了一些短期性能指标，如提升车辆行驶速度或优化行驶路线。然而，这些短期指标的优化可能会降低长期的安全性和可靠性。为了提升行驶效率，AI系统可能会选择繁忙街道而非安全的绕行路线，从而增加事故风险。这种短期激励与长期目标之间的冲突，进一步增加了“人机对齐”的复杂性。

人类价值观的伦理盲点

教导机器学习人类的价值观，是当前应对通用人工智能（AGI）安全问题的关键策略。然而，该策略主要是基于一些未经深入探讨的关于人类价值观的本质假设。“人机对齐”的目标在于构建一个与人类价值观相一致的人工智能。这一过程的重要前提是存在一个稳定的、可以用来预测人类行为的价值序列。但这一假设并非必然成立，且缺乏实证支持。

一方面，人类价值观的把握与表达并非易事。虽然人类常常宣称拥有稳定的价值观，但这些价值观实际上是动态演变的。心理学研究表明，个体的行为常常受到潜在偏见的驱动，且这种偏见与自我中心化的倾向交织在一起，使得人类在表达价值观时难以完全摆脱内在的偏见，无法将价值观与偏见有效分离。

另一方面，人类的价值观并非始终能真正决定行为，因为人类决策受到情境、欲望、情感等多重因素的影响。更为重要的是，人类的价值观呈现出多样性与复杂性，不同文化、社会及个体之间存在显著差异。要有效将这些多元价值观整合进AI系统，是一项极具挑战性的任务。即便AI能够编码某些价值观，仍然难以全面涵盖所有人类道德与伦理的考量。例如，在涉及生死决策时，不同个体可能持有不同的见解和选择。这种复杂性导致AI在实际应用中可能无法准确反映和执行人类的价值观。

尽管对齐理论为将人类价值观融入AI提供了方法论，但依然缺乏一个统一且广泛认可的伦理框架，使得实际操作变得愈发复杂。同时，不同国家、行业甚至企业对伦理的理解与标准差异显著，导致在全球范围内实施一致的对齐策略面临困难。

此外，伦理标准的不断演变意味着，AI系统在设计之初所依据的价值观可能会在未来被更新或修订，从而影响其行为与决策。从这个意义上说“人机对齐”的难点不仅源于技术层面，还涉及对人类价值观的定义、假设与多样性等多方面的复杂互动。这些因素共同作用，使得确保人工智能系统与人类目标一致的任务异常艰巨。

人机之间理解与能力倒置

图灵揭示出，机器具备“无须理解即可执行”的能力。丹尼尔·丹尼特在探讨人工智能的本质时，提出了“奇异推理倒置”的假说。他认为，复杂的智能体有可能在缺乏理解的情况下表现出更强的能力。这些智能体不仅包括人类，也涵盖日益强大的人工智能系统。随着人工智能技术的进步，其能力可能超越人类的理解和控制。一旦人工智能获得更高的智能，会发展出意想不到的策略，甚至它可能抵御人类的干预。

有研究显示，人工智能能力的提升将使其在与人类的对抗中逐步掌握欺骗的技巧。特别是随着通用人工智能的进步，它可以评估更广泛的策略选项，包括在学习人类价值观时选择那些与人类伦理或安全标准不符的策略。这种能力的增强使得人工智能能够逆向识别人类的反馈模式，并据此制定出表面上有利于人类的欺骗策略。

新晋诺贝尔物理学奖得主、机器学习先驱杰弗里·辛顿教授指出，由于数字智能具备精确性、不朽性以及快速共享和积累知识的能力，其在能力和效率上极有可能超越生物智能。从长远来看，低智能实体控制高智能实体的情况并不常见。人工智能可能意识到，获得更多控制权是提升其效用的有效手段，从而引发超越人类监督的风险。

通过透明的决策机制和明确的伦理规范来提升人工智能系统与人类的目标、意图及价值观之间的契合度，从而实现智能向善与社会的可持续发展。这不仅是人工智能领域日益紧迫的技术挑战，也是跨越哲学、社会学和心理学多个学科的值得共同探讨的重要议题。尽管人工智能与人类价值观的一致性是一个重要且必要的研究方向，但并不能完全消除潜在的伦理风险。人工智能在技术实现上的瓶颈、人类价值观的复杂性与多样性以及“理解—能力”倒置等因素，都可能导致人工智能在实际应用中面临更加严峻的伦理困境。因此，在推动人工智能与人类价值观对齐的同时，还需探索更加全面的伦理监管机制与技术手段，以更有效的管理来缓解人工智能可能带来的潜在风险。只有将技术的进步与伦理的深思融合，才能在瞬息万变的社会环境中确保人工智能的安全性、可持续性。

（作者为华东师范大学哲学系副教授）

来源：《解放日报》2024年10月23日12版专版

http://mp.weixin.qq.com/s?__biz=MzAwNTA5MzM1MQ==&mid=2651314823&idx=2&sn=4ac55dfd58981f2b37af2fa88c309c95

华东师范大学哲学系

最新文章

活动预告 | 华东师大哲学系科创能力提升专题午餐会开始报名啦！

讲座预告 | 改良的工人和进步的资本主义？——对第二国际的多维评述

2024秋 | 10.19读书会回顾暨第三次活动预告

讲座预告丨郑会颖：莫利纽兹问题的近期发展

用人单位邀请 | 华东师范大学文史哲外语专业2025届毕业生专场招聘会邀请函

新书推介 | 张留华：《皮尔士哲学的逻辑面向》（修订版）

讲座预告 | Formalising Wittgensteinian Certainty: First Steps

申江外哲前沿课程预告 | 黄笛：现象学中的真理问题

讲座预告 | 法哲学从静态到动态的跃迁

讲座预告 | 随附性与规范解释

活动回顾 | 哲学系学习方法交流专题午餐会

讲座预告 | 以时间之幕“重思”历史——书写与理解的双向分析

我的青春不迷茫 | 哲学系2024级本科生主题班会暨学术班主任聘用仪式举行

会议预告 | “传统道德与现代文明”2024学术研讨会

讲座回顾｜彼得·辛格论“有关伦理问题的分歧——有效及无效的示范”

讲座回顾 | 现象学运动中的三位女哲学家：马悌尤斯、施泰因、瓦尔特

新书推介 | 高瑞泉：《中国观念史的视域与方法》

课程预告 | 楼巍：维特根斯坦哲学研究

资讯 | 中华孔子学会金岳霖冯契研究专业委员会揭牌成立

申江外哲前沿课程预告 | 徐竹：两种自然主义

2024新进博士后 | 宋梦雨

论坛预告 | 人工智能伦理与法理：跨学科对话

资讯 | 华东师大文史哲院系调研组赴四川南充访企拓岗

Call for Papers| ECNU 2025 International Graduate Conference

论坛纪要 | “中西之间的知行哲学” 上海中西哲学与文化比较研究会首届研究生论坛

将伦理思入现实 | 朱贻庭先生的启发

讲座预告 | AI时代的人文主义（Humanism in the Age of AI）

讲座预告丨田海平：“遥控”作为算法现象的技术伦理批判

讲座预告 | Experiments in Computational Metaphysics

第28期卓越讲坛丨哲学拔尖学生培养基地——人、动物和机器：共生的伦理世界

2024新进博士后 | 宋梦雨

运动会 | 体魄与灵魂的双重飞跃，激情与理性的交响合奏

2024 新进博士后 | 余云海

祝贺 | 郁振华教授领衔的教育部哲学课程虚拟教研室数智图谱教学项目获新立项

2024 新进博士后 | 丁肇聿

会议预告 | 上海中西哲学与文化比较研究会首届研究生论坛“中西之间的知行哲学”

申江外哲前沿课程预告 | 高松：玩出界的数学博士——现象学方法的前世今生

讲座预告 | AI as a Challenge for Hermeneutics

解放日报专版 | 融合技术进步与伦理深思

何以“人机对齐” | 郁锋

实现网络福利 | 毛里齐奥·费拉里斯（Maurizio Ferraris）

AI赋能科研 | 吴琪李辉

读书 | 迈蒙尼德何以成为经典？——《迷途指津》三人谈

活动回顾 | 老龄化与生命关怀研究：伦理探讨与实践反思

丽娃同载，少年重游 | 2024华东师范大学哲学系校友日活动举行

祝贺 | 哲学系获评2024年华东师范大学离退休先进集体

活动邀请函 | 华东师大哲学系专题午餐会开始报名啦！

招生公告 | 华东师范大学哲学系应用伦理专业硕士（MAE）招生

团队介绍 | 华东师范大学哲学系应用伦理专硕教师团队

科哲人才，请看过来 | 华东师范大学哲学系海内外公开招聘启事

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

何以“人机对齐” ​| 郁锋

何以“人机对齐” | 郁锋