OpenAI断供中国，AI安全的现在和未来？（下）

文摘 2024-06-30 15:27 北京

在上篇文章中，我们一起回顾了AI安全问题如何变得越来越迫切，以及AGI潜在的风险和可能的冲击。

就在OpenAI宫斗第二季尘埃落定后，AI领域又有新的消息传来。

6月25日，有多名开发者收到了来自OpenAI的公告，公告中显示，OpenAI将于7月9日起封锁来自非支持国家和地区的API流量。

根据OpenAI官网提供的信息，中国不属于OpenAI API服务支持的国家和地区。

这意味着，OpenAI将对中国“断供”API服务。

虽然国内开发者仍能通过微软Azure的 “Azure OpenAI服务”调用GPT模型，但面对美国不断“小院高墙”的技术封锁下，我们仍要砥砺前行。

面对如此诱人、如此不同、又如此激烈的技术变革，我们不可能不努力参与其中。

因此我们更需要保持开放的心态和信心，努力向行业领先者学习，吸取其经验和教训，积极扩充实力。

在AI安全方面同样如此，我们需要研究、建立自己的安全体系，这也是促进我国AI发展的重要保障。

为此，我们需要了解当下人们建立了什么样的安全体系？

以及，人类在确保AI安全地为人所用上还做了哪些努力？

此外，作为投资者，我们也需要积极地去思考AI安全所带来的机会？

朋友们好，我是胡说，今天我们继续来谈谈：AI安全的现在和未来？

OpenAI的AI安全体系

AI安全问题如此特殊，甚至对人类物种的存续构成了潜在危险，自然会引起产业内精英和专家的重视。

这其中，不但有理论上的思考，也有产业内的实践。

尤其是行业领先者OpenAI的实践更具有代表意义，也是我们今天介绍的重点。

整体来看，为了实现AI的安全落地，OpenAI做了系统的工作部署，明晰了其安全目标。

即安全部署模型，实现模型行为一致性，保障基础模型的安全与道德推理机能，提供端到端安全基础设施，以及通过人类与AI协作开发符合人类价值观的策略。

为此，OpenAI共设置了三个人工智能安全团队：安全系统团队、安全准备（Preparedness）团队和超级对齐（Superalignment）团队。

注：在AI的世界里，对齐（Alignment）是指让AI的行为符合人类的意图和价值观，超级对齐是OpenAI的术语，表示应用于超级智能的对齐。

其中，安全系统团队负责AI模型部署的安全性、稳健性和可靠性，针对现在的模型。

安全准备团队负责前沿模型的安全评估、跟踪、研究及实战，针对前沿的模型。

超级对齐团队则负责超级人工智能安全风险监管，以及使之对齐人类目标的研究，针对未来的模型。

1、安全系统团队

该团队所面临的问题主要包括三个层面。

首先是让模型为用户给出有价值、可信赖的答案，而非不安全，不适当的答案。

其次是保护用户隐私，构建安全的人机协作或由AI代表用户执行安全的行动。

最后是通过发现失败案例，利用人类专业知识指导AI安全，以及分享经验与解决方案提高行业的安全性。

为构建通用解决方案，平衡安全性与实用性，防止对人类请求的过度拒绝，安全系统团队以AI来解决以上问题。

团队需要持续迭代安全措施，设计和构建以模型功能为中心的安全服务，自动化调查、分析、决策，实现数据驱动的反馈AI模型。

目前，安全系统团队有四个小组。

安全工程小组实施系统级的风险缓解措施，构建安全、隐私的集中式安全服务基础设施，大规模部署以机器学习为中心的工具。

模型安全研究小组关注模型行为一致性，创建更安全、行为符合价值观、可控可靠的模型。

安全推理研究小组关注检测与理解已知和未知的风险，指导默认安全行为和设计缓解措施。

人机交互小组将模型行为与人类价值观对齐，并根据人类专家反馈，保障AI的行为与人类期望一致。

2、安全准备团队

该团队于2023年12月发表了包含五个核心要素的准备框架，给出了安全协调的总体方法。

这5个核心要素包括评估跟踪风险水平，寻找未知风险，确定安全基线、实地开展工作，创建跨职能的安全咨询小组。

准备框架的目标是减少模型的偏见、幻觉、误用，通过安全承诺和保障措施实现对AI的信任，并鼓励行业以类似方法保障安全。

为此，考虑不同风险发生的概率不同，OpenAI针对不同风险采用不同缓解措施，并把风险分成四类。

即网络安全（Cyber Security）风险，化学、生物、核、辐射（CBRN）风险，劝导风险，及模型自主风险。

其中，网络安全和CBRN风险是指模型提供相应攻击方案；劝导是指说服人类改变信仰或采取行动；模型自主则是模型适应环境进化，利用资源自主实现目标的风险。

针对不同类型的风险，团队给出不同的风险评级，并以缓解前、中、后的评级形成风险计分卡，并以此确定安全基线。

任何高风险以上的模型需都要进行安全调整，防止模型外泄。

实地工作时需输出报告、定期补充证据、给出变更建议，协调安全团队整理缓解措施，纳入报告，协调第三方安全团队进行审计。

安全咨询小组需帮助领导层和董事会做好安全决策准备，包括监督风险评估、应急处理紧急情况等。

3、超级对齐团队

该团队成立于2023年7月5日，由伊利亚和雷克领导，也是本次OpenAI宫斗被解散的团队。

其成立的主要目标是解决超级人工智能遵循人类意图的对齐问题。

伊利亚等预测超级AI将在10年内实现，且认为当前的RLHF（Reinforcement Learning with Human Feedback，基于人类反馈的强化学习）需突破才能满足超级对齐需求。

例如，当一个超级AI系统用一种新的编程语言编写出百万行代码时，人类如何判断这些代码是否安全？

也就是说，如果AI写出来的代码，人类都看不懂了，那还有什么能力评判AI的优劣呢？

如果人类无法判断AI的优劣，那么继续用RLHF的方法进行对齐工作显然是无以为继的。

在这种情况下，超级对齐团队则计划用AI监管AI的方法，在四年内以20%的计算量解决这一问题。

该方案的核心思想在于弱AI对强AI的泛化，即使用一个能力不那么强的AI去监督一个更强的AI。

其初期成果在论文《WEAK-TO-STRONG GENERALIZATION: ELICITING STRONG CAPABILITIES WITH WEAK SUPERVISION》中有系统阐述。

论文提出，从弱到强的泛化能力是可行的，但仍会面临诸如有效场景等方面的问题，因此还有非常多的工作需要去做。

AI安全的未来

随着OpenAI告别伊利亚时代，超级对齐计划在OpenAI内部也告一段落。

但无论AI如何发展，对人类来说AI的安全需求总是需要的，甚至会随着AI的发展变得越发重要。

即便是已经从OpenAI离开的伊利亚，仍不会停止在AI安全方面的工作。

他在离职时说的“我对接下来的工作感到兴奋—这个项目对我个人意义重大”，很可能就是AI安全相关。

对于AI安全的未来，我认为还有很多需要重点解决的问题。

最重要的，是如何确定对齐价值观问题。

正如上一篇文章谈到的，想要避免AI伤害人类，核心是要如何让AI具有一个完善而正确的价值观。

但是，想提炼一个“完全正确”的人类价值观非常难，并且也可能在多个层面产生误解。

而万一给机器输入了一个错误价值观，其结果可能是毁灭性的。

人工智能领域的大牛罗素就并不认同把一套普适的人类价值观输入到机器里，然后期待它解决问题的方案。

他甚至认为任何准备将“价值观”和“道德”传授给人工智能的想法，都是危险而愚蠢的。

因此，罗素建议，相比输入一个确定的价值观，应该假设“AI知道自己不知道人类的价值观”，进而让机器来预测每个人的具体偏好。

也就是说，我们并不要求AI明确知道我们的目标是什么（事实上，连我们自己都无法完全确定），但这种不确定与不完整，只是一个特性，而非一个漏洞。

因为，这种目标的不确定性，意味着机器会选择在必要时顺从人类。

即，它们在不知道如何做的时候，会请求许可，接受纠正，甚至危机时刻能允许自己被关闭。

从可行性上讲，学习上亿种不同的偏好模型的，对于人工智能系统来说是非常简单的事情，而且我们目前也积累了很多数据。

罗素的思路虽然实现难度较大，但至少为人类与AI的关系指明了一个重要方向。

其次，我们仍然需要考虑人工智能公司及行业的监管问题。

至少，我们需要提高人工智能开发的行业透明度。

这是因为从商业利益出发，公司在面临激烈的竞争和资源的约束之下，天然会优先考虑商业的持续，而非行业的安全。

这次OpenAI内部路线之争的结果也说明了这一点。

比如说，OpenAI承诺给超级对齐团队全部算力的1/5用于安全研究，但据说直到团队解散，最多只给到了1/25。

因此在这种天然的倾向下，任由公司开发AI甚至AGI的潜在风险是非常大的。

当然，我并不是说要停止或延缓技术进步与开发，但从监管层面要增加行业透明度是非常必要的。

政府、公众至少有权利了解人工智能技术开发到什么阶段，将会带来什么潜在的影响。

这就需要增加公司与公众的沟通，拒绝公司以保密协议为手段阻止离职或在职的员工与公众的交流。

正如13位OpenAI和DeepMind的前员工和现员工所呼吁的那样，各类AI公司应建立“举报人保护措施”，以保证研究人员具有警告人工智能危险的“权利”，而不必担心遭到报复。

最后，与我们最息息相关的就是AI对就业和社会形态的冲击了。

请不要忽视这方面的影响，至少历史无数次表明，技术对就业的影响是双向的。

一方面，技术通过提高生产率，降低某项服务价格，从而增加需求和就业。

另一方面，技术的进一步发展意味着需要的人力将越来越少，因此每一次技术进步都会对特定职业造成翻天覆地的变化。

以油漆技术的进步与油漆工的需求关系为例，可以明显看出这种双向影响，即职业的需求总会虽技术进步先呈现高峰最后回落甚至消失。

有句话说得好，时代的微尘落在每一个普通人头上都是一座大山。

因此在此我不想再从宏观务虚的角度去讨论AI对就业的影响。

这些问题自然有更聪明的人和组织去思考、解决。

我只能从微观角度去表达一下自己粗浅的看法，供大家参考。

首先面对新的变革，人必然要主动或被动的去做改变，否则就可能会被淘汰，这是不以个人意志为转移的客观规律。

因此面临AI这场变革，我们首先要明白的一点是自己需要为做出改变去做准备。

其次改变绝不是去读几本书、做几件事那么简单，简单的做这些很难持续。

改变从来是自内而外的，因此第一步要做的改变就是心态，要从固步自封转向开放包容。

我在生活中见过太多人面对新技术不以为然和保守自持的了，新能源如此，AI也是如此。

这类人往往会经历不想看、看不起、看不懂，直至追不上，被时代和他人远远落下。

最后，确立好拥抱AI的心态后，你可以在工作之余多去读读AI的书和资料，多去试试新的产品，多去思考如何结合到自己的生活和工作中来。

不要怕麻烦，新的技术出现之际做这些的回报率往往是非常高的，成本又非常有限，毕竟即便错了你也不会损失什么。

也不要畏惧新行业的新知识，就我的感受来说，任何新的行业你要精通确实很难，但要做到了解、跟踪趋势所需的时间往往都比想象中要短。

从投资者的角度看AI安全的机会

在梳理完整个AI安全的脉络后，最后我想再从投资者的角度来看AI安全所带来的机会，毕竟这个号主要面对投资和财经。

鉴于AI安全仍处于非常早期的阶段，我在这里主要想讨论几个粗浅的原则。

首先，我们当然要明白AI及AI安全仍属于早期阶段，很多局面并未确定，很多投资风险也显而易见。

但早期并不代表没有可以挖掘的机会，君不见，AI尚未有多个爆款应用落地，上游卖铲子的英伟达早已节节攀升。

其次，AI安全巨大的市场空间是显而易见的。

实现AGI不仅是科技的突破，也是一场巨额资金的游戏。

2024年，英伟达的数据中心业务已实现每季度250亿美元的营收，年度总收入达到1000亿美元。

这意味着仅英伟达一家的数据中心投资就达到了这个数目，而这还不包括数据中心场地、建筑、冷却和电力的成本。

据阿申布伦纳粗略估计，2024年全球对AI的投资将达到1000亿至2000亿美元。

到2026年，全年投资额将达到5000亿美元，而到2030年，这一数字可能高达近8万亿美元。

AI安全虽然与AI有很大不同，但它是AI发展不可或缺的伴生，我在早先的文章中也早已讨论了AI的巨大空间。

如果假定OpenAI将20%算力用于对齐人类利益的风险预测与治理为基准线（这也符合张亚勤院士10-30%的认知），在如此大的AI市场中，AI安全的空间也必定是非常巨大的。

最后，AI安全投资机会最重要的是关注其商业模式，毕竟当下的现实是，AI公司对安全的追求还不是首位。

因此如何确立一个平衡可持续的商业模式，以让大多数参与方接受是AI安全能否快速发展的关键。

一个可能的参考的是网络安全的商业发展，投资者有必要以史为鉴，通过研究网络安全的商业模式确定未来AI安全可能的商业模式。

此外，我们也应该紧跟行业领先公司，以及专家大牛的动态，来获取第一手的信息。

总之，AI安全还是处于一个非常初级的阶段，很多东西甚至尚未见到雏形。

但考虑它巨大的空间、不可或缺的战略意义，为它分配研究时间是非常有意义的。

韩非子说“知者见于未萌”，在一个产业发展初期，如果能早早思考其带来的机会，那我们就获得了“见于未萌”这一力量的钥匙。

祝大家一切顺利！

温馨提示：本文仅是笔者思考内容的记录，仅供读者参考，不作为任何投资建议；投资有风险，入场需谨慎。

胡说漫谈

胡说投资，漫谈财经