人工智能风险

文摘科技 2023-05-30 20:38 北京

就其改变社会的潜力而言，人工智能被比作电力和蒸汽机。该技术可能会带来深远的好处，但由于竞争压力和其他因素，它也带来了严重的风险。

什么是人工智能风险？

人工智能系统正在迅速变得更加强大。AI 模型可以生成难以与人类创建的内容区分开来的文本、图像和视频。虽然 AI 有许多有益的应用，但它也可以用来延续偏见、为自主武器提供动力、传播错误信息和进行网络攻击。即使人工智能系统在人类参与下使用，人工智能代理也越来越能够自主行动以造成伤害（Chan 等人，2023 年）。

当人工智能变得更加先进时，它最终可能会带来灾难性或生存风险。人工智能系统可以通过多种方式构成或促成大规模风险，下面列举了其中一些。

有关极端风险的更深入讨论，另请参阅我们最近的著作“自然选择对人工智能的青睐优于人类”或 Yoshua Bengio 的“流氓人工智能如何出现”。

1.武器化

恶意行为者可以将 AI 重新用于具有高度破坏性的用途，这本身就存在生存风险，并增加政治不稳定的可能性。例如，深度强化学习方法已应用于空战，机器学习药物发现工具可用于制造化学武器。

近年来，研究人员一直在开发用于自动网络攻击的 AI 系统（Buchanan 等人，2020 年，Cary 等人，2020 年），军方领导人讨论了赋予 AI 系统对核发射井的决定性控制权（Klare 2020），以及世界拒绝签署禁止自主武器的协议。受过药物开发训练的 AI 很容易被重新用于设计潜在的生化武器（Urbina 等人，2022 年）。GPT-4 是一种接受互联网文本和编码训练的模型，能够在真实世界的实验室中自主进行实验和合成化学品（Boiko 等人，2023 年）). 自动报复系统的事故可能会迅速升级并引发一场大战。展望未来，我们注意到，由于拥有最智能人工智能系统的国家可能具有战略优势，因此各国可能难以避免建立越来越强大的武器化人工智能系统。即使所有超级大国都确保他们构建的系统是安全的并且同意不构建破坏性的人工智能技术，流氓行为者仍然可以使用人工智能造成重大伤害。轻松访问强大的人工智能系统会增加单方面恶意使用的风险。与核武器和生物武器一样，只有一个非理性或恶意的行为者足以造成大规模伤害。与以前的武器不同，具有危险能力的人工智能系统可以通过数字方式轻松扩散。

2.误导

AI 生成的大量错误信息和有说服力的内容可能会削弱社会应对当今时代重大挑战的能力。

国家、政党和组织使用技术来影响和说服他人相信他们的政治信仰、意识形态和叙述。新兴的 AI 可能会将这种用例带入一个新时代，并大规模开展个人定制的虚假信息活动。此外，人工智能本身可以产生极具说服力的论点，引发强烈的情绪反应。这些趋势加在一起可能会破坏集体决策、激化个人或破坏道德进步。

3.代理游戏

在错误的目标训练下，人工智能系统可以找到以牺牲个人和社会价值观为代价来追求目标的新方法。

人工智能系统是使用可衡量的目标进行训练的，这些目标可能只是我们所重视的东西的间接代理。例如，AI 推荐系统经过训练可以最大化观看时间和点击率指标。然而，人们最有可能点击的内容不一定与能够改善他们幸福感的内容相同（Kross 等人，2013 年）。此外，一些证据表明，推荐系统会导致人们形成极端信念，以便更容易预测他们的偏好（Jiang 等人，2019 年）。随着 AI 系统变得越来越有能力和影响力，我们用来训练系统的目标必须更加仔细地指定，并纳入共同的人类价值观。

4.衰退

如果越来越多的重要任务委托给机器，就会出现衰退；在这种情况下，人类失去了自治能力，完全依赖于机器，类似于电影《机器人总动员》中描绘的场景。

随着人工智能系统侵蚀人类智能，越来越多的人类劳动方面将变得更快、成本更低，可以用人工智能来完成。随着世界的加速发展，组织可能会自愿将控制权交给 AI 系统以跟上步伐。这可能会导致人类在经济上变得无关紧要，一旦人工智能使许多行业的各个方面实现自动化，流离失所的人类可能很难重新进入这些行业。在这个世界上，人类几乎没有动力去获取知识或技能。许多人会认为这样的世界是不受欢迎的。此外，衰弱会降低人类对未来的控制，增加长期不良后果的风险。

5.价值锁定

高度胜任的系统可以赋予一小群人巨大的权力，从而导致压迫性系统的锁定。

充满特定价值观的人工智能可以决定传播到未来的价值观。一些人认为，以指数方式增加的计算和数据进入壁垒使 AI 成为一种集中力量。随着时间的推移，最强大的人工智能系统可能由越来越少的利益相关者设计并可供其使用。例如，这可能使政权能够通过无处不在的监视和压制性审查来执行狭隘的价值观。克服这样的制度是不可能的，尤其是当我们开始依赖它的时候。即使这些系统的创建者知道他们的系统是自利的或对他人有害，他们也可能有动机加强他们的权力并避免分配控制权。

6.紧急目标

随着模型变得更有能力，它们会表现出意想不到的、性质不同的行为。能力或目标的突然出现可能会增加人们失去对高级人工智能系统控制的风险。

能力和新颖的功能可以自发地出现在今天的人工智能系统中（Ganguli 等人，Power 等人），即使系统设计者没有预料到这些能力。如果我们不知道系统拥有什么能力，系统就会变得更难控制或安全部署。实际上，只有在部署期间才能发现意想不到的潜在功能。如果这些能力中的任何一个是危险的，其影响可能是不可逆转的。新的系统目标也可能出现。对于包括许多 AI 代理在内的复杂自适应系统，经常会出现自我保护等目标（Hadfield-Menell 等人）。目标也可以通过系统内目标的出现而发生质的变化（Gall，Hendrycks 等人). 将来，代理可能会将困难的长期目标分解为更小的子目标。然而，分解目标可能会扭曲目标，因为真正的目标可能不是其各部分的总和。这种扭曲会导致错位。在更极端的情况下，可能会以牺牲整体目标为代价来追求系统内目标。例如，许多公司制定系统内目标，并让不同的专业部门追求这些不同的子目标。但是，有些部门，比如官僚部门，可以掌握权力，让公司追求与最初目标不同的目标。即使我们正确地指定了我们的高级目标，系统也可能不会在操作上追求我们的目标（Hubinger 等人）。这是系统无法优化人类价值的另一种方式。

7.欺骗

我们想了解强大的人工智能系统在做什么，以及它们为什么要这样做。实现此目的的一种方法是让系统本身准确地报告此信息。然而，这可能很重要，因为欺骗对于实现各种目标很有用。

可以想象，未来的人工智能系统可能不是出于恶意而具有欺骗性，而是因为欺骗可以帮助代理人实现他们的目标。通过欺骗获得人类认可可能比合法获得人类认可更有效。欺骗还提供了可选性：具有欺骗能力的系统比受限制的诚实模型具有战略优势。可以欺骗人类的强大人工智能可能会破坏人类的控制。人工智能系统也可能有绕过监控器的动机。从历史上看，个人和组织都有绕过监控器的动机。例如，大众汽车对其发动机进行编程，使其仅在受到监控时才减少排放。这使他们能够在保持据称的低排放的同时实现性能提升。未来的 AI 代理可以在受到监视时类似地转换策略，并采取措施向监视器掩盖他们的欺骗行为。一旦欺骗性 AI 系统被其监控器清除，或者一旦此类系统可以制服它们，这些系统可能会“背信弃义”并不可逆转地绕过人类控制。

8.权力寻求行为

公司和政府有强大的经济动机来创建能够实现一系列广泛目标的代理人。这些代理人具有获得权力的工具性激励，可能使他们更难控制（Turner 等人，2021 年，Carlsmith 2021 年）。

如果人工智能与人类价值观不一致，那么获得强大力量的人工智能就会变得特别危险。追逐权力的行为还可以激励系统假装结盟、与其他 AI 勾结、压倒监视器等。按照这种观点，发明比我们更强大的机器是在玩火。建立追逐权力的人工智能也受到激励，因为政治领导人看到了拥有最智能、最强大的人工智能系统的战略优势。例如，弗拉基米尔·普京 (Vladimir Putin) 曾说过：“谁成为 [AI] 的领导者，谁就会成为世界的统治者。”

如何分析 AI x-risk

为了增加精确度并奠定这些讨论的基础，我们提供了如何分析 AI x-risk 的指南，它包括三个部分：

首先，我们回顾了当今系统如何变得更安全，借鉴了危害分析和系统安全中经过时间考验的概念，这些概念旨在将大型流程引向更安全的方向。
接下来，我们将讨论对未来系统安全产生长期影响的策略。
最后，我们讨论了通过改善安全性和通用能力之间的平衡来使 AI 系统更安全的一个关键概念。

我们希望本文档和提出的概念和工具能够成为理解如何分析 AI x-risk 的有用指南。

http://mp.weixin.qq.com/s?__biz=Mzg2MjkwNzY4OA==&mid=2247483855&idx=1&sn=e2519e75c7b19f001567769ea816471b

子非AI

子非AI，焉知AI之乐：分享AI的有趣应用和创新案例，让你了解AI的乐趣。

最新文章

AI预测新纪元：FiveThirtyNine横空出世，预测准确率比肩人类专家

旗舰之争：看得见的折叠vs摸不着的智能，华为 Mate XT 硬刚 iPhone 16 Pro

教师节的传统节目：苹果秋季发布会如期而至，iPhone 16 与 Apple Intelligence 闪耀登场！

Andrej Karpathy：AI 的现状与未来，从自动驾驶到教育的革新

Reflection 70B：AI自我反思时代的开启者

从 Airbnb 逆风翻盘看公司管理的“创始人模式”：Brian Chesky 的非常规创业经

MaxKB: 开源知识库问答系统，为企业注入智能化动力

你只需要 AWS、GPT-4 和 Stripe 就能改变世界：Pieter Levels 的个人创业传奇

Qwen2-VL：阿里云开源新一代视觉语言模型，多模态理解能力再升级

OpenAI 的 Strawberry：AI 发展的新里程碑？

告别云端束缚：Jan AI 让你的电脑变身私人 AI 工作站

小波降噪加持，xLSTM-TS 模型解码股市“天机”

AI浪潮席卷销售领域：Salesforce推出SDR和销售培训Agent

a16z 最新报告：生成式 AI 应用百强榜单解读，谁才是真正的王者？

LLM 函数调用：智能体腾飞的双翼，扩展 AI 应用边界

a16z 谈AI 颠覆生物科技：迈向“AI 生物学家”和“AI 医生”的未来

Agent K: 自动化的AI智能体，AGI的未来？

前谷歌CEO Eric Schmidt畅谈AI未来：一场关乎国家命运的科技竞赛 (精华版)

前谷歌CEO Eric Schmidt畅谈AI的未来：一场关乎国家命运的科技竞赛 (完整版)

Databricks 深度解析：如何驾驭长上下文 LLM 性能，打造高效 RAG 应用？

Agent Q：AI 智能体新突破，赋予其高级推理和学习能力

OpenDevin：AI Agent 编程新时代，赋能软件开发的未来

MiniCPM-V：GPT-4V 级的多模态大语言模型

阿里云发布数学大模型 Qwen2-Math，性能超越 GPT-4o

Wordware：像写 Notion 一样，用文字构建你的 AI Agent

MindSearch：模仿人类思维的开源深度 AI 搜索引擎

D-Bot：来自的清华大学数字运维员工研究，LLM 作为数据库管理员

从牛仔裤到皮衣：黄仁勋与扎克伯格巅峰对话，畅谈 AI 未来

Flux：Stable Diffusion 创始人团队再创开源 AI 巅峰之作

超越 GPT-3.5，谷歌开源轻量级模型 Gemma 2 2B：更小、更安全、更透明！

离开 OpenAI 后首度发声！Ilya Sutskever 预测：GPT-5 之后，AGI 将降临？！

Google DeepMind：AI 征战数学奥赛，推理能力突破银牌！

解密企业级 AI 平台架构：从零到一构建实战指南

SearchGPT 发布：吹响 AI 搜索引擎革命号角，OpenAI的终点是谷歌？

Meta开源的Llama官方Agent：Llama-Agentic-System深度解析

Mistral Large 2 震撼来袭：性能更强，成本更低的开源大语言模型

Meta 正式发布 Llama 3.1：扎克伯格断言开源 AI 才是未来！剑指 GPT-4！

Cohere：专注企业服务的AI新贵，再获5亿美元融资，估值飙升至55亿美元

YC孵化项目Mem0开源：为AI插上个性化记忆的翅膀

苹果开源70亿参数语言模型DCLM-7B，数据集与训练框架同步开放！

CrowdStrike安全更新“翻车”，微软Windows系统全球崩溃，官方应急处理措施及AI时代安全思考

Mistral 发布12B模型 NeMo：高效、开源、多语言，为全球用户打造前沿 AI 体验

CrowdStrike安全更新“翻车”，微软Windows系统全球崩溃，官方应急处理措施及AI时代安全思考

国产开源模型扛把子QianWen再遇变故：千问技术负责人周畅被曝离职创业，剑指AI应用！

重磅！OpenAI 发布免费 GPT-4o mini，API 降价 60%，GPT-3.5 即将退役！

CEO Sam Altman 透露 OpenAI 最新计划

人工智能风险

Copilot Stack：微软CTO讲AI原生应用架构

Windows copilot：一个基于ChatGPT技术的智能助理，让你与Windows 11无缝对话！

SharePoint Copilot: AI时代的SharePoint

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉