关注脆弱性应作为未来人工智能治理的关键策略

文摘 2024-10-24 13:22 北京

最近几天，前沿人工智能大模型最令人关注的新闻是Anthropic的大模型Claude 3.5 Sonnet 能像人一样使用计算机，支持光标移动、点击和虚拟键盘输入。该公司强调，Claude 3.5 Sonnet 是首个具有“计算机使用”功能的大模型，该工具仍处于实验阶段，其安全性和应用潜力正在开发和评估中。

这一突破性的进展立即让人联想到正在成为通用工具的人工智能日益强大、势不可挡，但同时也很容易认识到人工智能体或智能代理一旦独立于人，就有可能因为其目标或其实现目标的反思与人类的目标或人类可接受的实现目标的方式不一致，而导致巨大的安全风险和社会、法律、伦理风险。

从风险范式到脆弱性范式

然而，对前沿人工智能模型风险的评估在实践中存在认知障碍。从日常风险管理的角度来看，人们一般都是根据已有的风险数据对可能发生的风险进行量化评估并加以预防，但前沿人工智能的风险评估无法基于这种认知范式，而只能通过一些对抗性的测试并据此做出防备。更进一步来讲，这些对抗性的测试所依据的其实是人们从理论上推测出的一些基准，而推测这些基准的依据是前沿模型可能产生的具有系统破坏性的输出或行为。因此，其认知范式实际上不同于一般的风险评估的认知范式，而是基于复杂系统的脆弱性的认知范式，或者说其出发点是复杂系统的脆弱性。

脆弱性并不是一个新概念。一方面，关于脆弱性的概念和问题，生态环境、气候变化等研究中有大量讨论。另一方面，在科学技术研究中，人们也曾多次尝试澄清风险和脆弱性之间的关系，Anique Hommels, Jessica Mesman, Wiebe E. Bijker等编著的Vulnerability in Technological Cultures: New Directions in Research and Governance（2014，The MIT Press）从技术文化的维度对脆弱性范式做了详细介绍。

意大利学者科西莫.亚卡托在《数据时代：可编程未来的哲学指南》（2021，中国大百科）从与颠覆性技术创新相伴随的不确定性的维度对此做了进一步的阐述：“然而，在过去的二十年中，风险范式受到质疑，正是由于一系列的颠覆性技术创新派生出的不确定性。试想想有关遗传学和基因组、人与非人的操作性实验，有关纳米技术及其对微观和亚原子物质的干预，有关大规模引进人工智能和机器人智能，更晚近有关量子计算的到来，都使风险范式受到质疑。在所以这些情况下，长期先验经验的缺乏使风险专家不明就里。实验室实验不能完全担保活体外实验结果在时间和空间上的可量测性。”（第130页）

他强调，除了风险概念，我们应该更具建设性地使用脆弱性的概念来思考和推理，脆弱性这一新的诠释视野似乎能较好地应对可编程世界的复杂性。与风险概念不同，脆弱性概念并非纯粹是负面的。从存在的意义上来讲，脆弱性本身是自然、生命和各种人造物的固有属性，从水母到人造晶体之类的美好存在同时也是脆弱的。从复杂性和系统性等新的自然哲学观看来，某种程度的脆弱性总是与开放性相伴随，而开放状态又必然或难免具有一定的非平衡性。

反观当前备受瞩目的前沿人工智能模型和脑机接口等颠覆性创新，完全可以运用脆弱性这一关键概念来描述和解读它们所面临的技术、安全、社会、法律、伦理等方面的问题，并从复杂系统的维度将寻求各方面的创新性与脆弱性之间的动态平衡点作为治理的目标。

脆弱性范式的实践策略

所谓以脆弱性为出发点，实际上是将创新性和脆弱性视为一体两面的复杂系统的非平衡演化过程。由此，脆弱性范式一般承认和接受某种程度的原初脆弱性（它们往往是理论的和推演性的）等非平衡态，且不以消除原初脆弱性作为创新的先决条件，而是直接面对开放性创新实践中产生的各种动态脆弱性以及由此导致的系统脆弱性。

以大模型和脑机接口为例，就是不仅要正视前沿大模型这一并无自我意识和真假鉴别力的智能体或代理在内容输出和与人类交互中固有的脆弱性，更要关注和应对这些理论上的脆弱性在实践中的展开、积聚以及进一步涌现出的系统脆弱性；同时也意味着植入式脑机接口等激进创新的发展必然要应对技术、安全、社会、法律、伦理诸方面问题导致的各种脆弱性以及由此引发的系统脆弱性。简言之，脆弱性范式更关注的是发动了的创新而不是蓝图中的创新。

如果我们将前沿人工智能模型视为一个开放性而非封闭性的过程，认识到其固有的脆弱性，就不难将人工智能治理的目标从一般意义上风险防范转换为对颠覆性创新涌现出开放性机会和更大的新的脆弱性的管理。以人工智能在客服中的应用为例，脆弱性范式的出发点不是停留在“AI取代部分人工客服岗位” 等原初脆弱性，而是在生成式AI通过创新可以更有效地处理客户问题解决方案的开放性创新的实践层面探讨由此带来的新的脆弱性。

根据近期《经济学人》的报道，Crescendo等公司采用“人机合作”模式，Twilio等公司则开发了能够独立处理客户对话的AI工具。而基于脆弱性范式的治理思路是在这些创新的基础上探讨由此带来的潜在的问题和影响等新的脆弱性。例如，AI机器人有时会自信地给出错误答案，甚至导致客户投诉和赔偿；同时，AI的广泛应用可能对呼叫中心代理的就业产生影响——根据Gartner预测，到2026年，生成式AI将导致客服工作岗位减少20-30%。

脆弱性范式更关注创新后的世界

毋庸置疑，脆弱性范式并不能取代风险范式，其所擅长的是关注和治理颠覆性创新后的世界。大模型生成内容为例，风险范式可能更关注内容是否为人工智能合成或输出，如如何进行内容标识等。脆弱性范式则更愿意直面人类生成内容与人工智能生成内容无法区分、合成数据与原始数据混同的数据新世界中更大的脆弱性。下面，将以两项最新的大模型研究来说明脆弱性范式更为关切的方面。

最近，谷歌DeepMind公司的研究人员在《科学》杂志发表的研究论文（AI can help humans find common ground in democratic deliberation）指出，他们受哈贝马斯 (Jürgen Habermas) 的交往行为理论启发，设计了名为“哈贝马斯机器” 大模型，以迭代方式生成基于个人用户的个人意见和批评的群体声明。

这项研究得出了非常有趣的结论：（1）哈贝马斯机器生成的群体意见陈述始终比人类调解员编写的陈述更受群体成员的青睐，并在质量、清晰度、信息量和公平性方面获得了外部评委的更高评价；（2）人工智能介导的审议减少了群体内部的分歧，参与者报告的立场在审议后趋向于对该问题的共同立场；（3）在人工智能介导的审议过程中，讨论者群体的观点在有争议的问题上倾向于朝着相似的方向发展；（4）这些转变不能归因于人工智能的偏见，这表明审议过程确实有助于在可能两极分化的社会和政治问题上形成共同观点。

对于这项研究，脆弱范式更关心的是，一旦人工智能体或代理在社会议题的审议中扮演关键角色，将对未来社会的合作、团结与公共秩序的形成带来哪些全新的冲击，人工智能体在审议中的立场和角色将给未来的社会生活带来哪些新的脆弱性？

另一项由MIT和亚利桑那州立大学的研究者发表于2023年《自然.机器智能》的论文《通过培养对人工智能的信念来影响人与人工智能的互动，可以提高感知到的可信度、同理心和有效性》（Influencing human–AI interaction by priming beliefs about AI can increase perceived trustworthiness, empathy and effectiveness）指出，随着由大型语言模型驱动的对话代理变得越来越像人类，用户开始将它们视为同伴，而不仅仅是助手。他们的研究探索了一个人对人工智能系统的心理模型的变化如何影响他们与系统的交互。参与者与同一个对话式人工智能进行了交互，但受到关于人工智能内在动机的不同启动陈述的影响：关怀、操纵或没有动机。结果发现，那些认为人工智能有关怀动机的人也认为它更值得信赖、更有同理心、表现更好。

显然，如果这项研究的结果基本可靠的话，无疑进一步揭示了人工智能体或代理作为准人类的新世界的全新可能性，而这种可能性显然超越了古典的皮格马利翁效应和现代人工智能的伊丽莎效应，我们必须透过这些创新实践跨入其所开拓的全新的世界，探究未来可能出现的更大的脆弱性。

http://mp.weixin.qq.com/s?__biz=Mzg5OTY0MTc4MA==&mid=2247496300&idx=1&sn=2304fa8296bf38ffe584a5eda4e0cc58

科技世代千高原

透视深度科技化时代™ 探寻合意的人类未来

最新文章

Shane Legg与Mira Lane的对话｜是时候考虑具有超级智能的AI了

经典文存：加州意识形态（1995）

机械化思维：人工智能对人类思维的隐藏影响

我们可持续的未来始于矿井吗？｜可再生能源转型带来的稀土开发与环保难题

超越真实性：汉娜·阿伦特在她最后未完成的作品中对我们寻找真实自我的想法进行了尖锐的批判

Melanie Mitchell：人工智能的隐喻

泰格马克｜如果通用人工智能在特朗普下届任期内到来，其他事情都不重要了

关于通用人工智能曼哈顿工程的动议：未提出和未回答的问题

通用人工智能曼哈顿工程来了？对华鹰派正在制造人工智能军备竞赛

神经多样性的未来：这场运动取得了重要进展，但只关注权利和代表性会使太多人跟不上

我们需要原始的敬畏：在这个科技泛滥的时代，屏幕生活让我们无法体验生命的奥秘和变革的奇迹

Garrison Lovely｜是否存在一条通往 AGI 的“基本清晰”的道路？大模型真的遇到瓶颈了吗？

系统0来了｜人工智能正在改变我们的思维方式

加里·F·马库斯的AI愿望清单和困境｜“技术批评”能够驯服硅谷吗？

有意义且成功的伦理制定：来自审议智慧理论的提议

阿伦特式的新开端｜与AI的七问七答：如果在纽约时代广场建造一座失败的建筑，它可以设计成什么风格？

梅兰妮·米切尔｜关于人工智能大模型推理能力的辩论升温

用AI写了篇小论文｜《人类世与能源转型的哲学思考》｜虽然前段时间地质学家开会决定放弃人类世这个说法了

量子技术先驱约瑟夫森的“诺贝尔病”：星际之门大杀器、拯救物理学的嬉皮士与非正统科学之坑

从人工智能教育应用看神经技术的伦理挑战

走向AGI之路：从技术路线、能力分级到共同进化（一）

关注脆弱性应作为未来人工智能治理的关键策略

人工智能全球治理要正AGI现实主义的挑战

“它是我们期待的机器人——像 C3PO 一样”：为何人形机器人还没有出现在我们的家中？

人工智能模型是否比研究人员产生更多原创想法？

隐藏模式揭示诺贝尔奖科学趋势

重返月球为何如此困难？

根据人工智能，伟大的哲学家们会对人工智能说些什么？

如何在人工智能时代变得无可替代

量子柴郡猫思想实验

对 OpenAI o1 的第一印象：一款被设计用来过度思考的人工智能

用人工智能写作：专业作家利用 ChatGPT 的五种方式

OpenAI 宣布推出代号为 Strawberry 的全新 AI 模型，可逐步解决难题

人工智能比人类专家产生更多新颖、令人兴奋的研究想法

GPT 已死，GPT 万岁

顶级大型语言模型 (LLM)：人工智能巨头在 13 项指标上的综合排名，包括多任务推理、编码、数学、延迟、零样本和小样本学习等

美国、英国和欧盟签署欧洲理事会高级别人工智能安全条约

互联网档案馆在重大版权案件中败诉

人工智能正在向业余小说家进军，只要好，谁写的还不是一样

生成式人工智能改变了英语作业，接下来是数学

ChatGPT 擅长总结书籍，但人工智能会写出真正的文学作品吗？

自动驾驶汽车Waymo 在更多城市上路

深度伪造和学生的深度学习：科学界的和谐组合？

美国会将就《生物安全法案》等针对中企措施进行表决

从还原论到动力系统：两本书如何影响了我 30 年对神经科学的思考

研究：用于训练大型语言模型的数据集通常缺乏透明度

T哥之胡乱联系与培根之六度空间

构建神经网络的新方法可以使人工智能更易于理解

研究人员打造了一款“人工智能科学家”——它能做什么？

短视频社交媒体疑似导致冰岛超市闹黄瓜荒主因

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉