时至今日，谁还记得创造AI不是为了资本，更不是“替代”人？

学术 2024-11-01 17:03 天津

*本文转载自公众号“文化纵横”。文章仅供读者参考，不代表民智国际研究院立场。

【导读】近日，微软正与OpenAI进行140亿美元的投资股权谈判。股权分配是OpenAI从非盈利机构转型成为盈利公司的关键，两者的整合引发了外界对人工智能领域新一轮垄断趋势的关注。在重资本的加持下，通用式人工智能的落地日益凸显出消费主义的面向。那么，我们该如何把握人工智能发展背后的资本幻象呢？

本文指出，目前流行的、以内容生产为主的生成式人工智能技术营造出来的盛景，可能是一套由资本塑造出来的“狂想曲”。OpenAI（以及背后的金主微软）用ChatGPT和Sora来向世人展示生成式人工智能的奇迹，是一种概念证明，就像时装秀一样：这种展示“不会显示庞大的机器，没有人类员工，没有资本投资，没有碳足迹，而只有一个具有超凡脱俗技能的基于抽象规则的系统。魔法和奇迹的叙事在人工智能的历史中反复出现，将聚光灯打在速度、效率和计算推理的壮观展示周围”。即便生成式人工智能真正落地，也不过指向一个人类被机器取代，充斥着娱乐性的、用来蒙混过关的内容产品的未来。只有拨开资本创造的迷雾，我们才能看到人工智能丰富的技术可能性。

作者指出，应确保人工智能的发展方向与人类目的对齐，发展那些辅助人类活动的人工智能技术。任由市场主导，则投资者利益驱动下的人工智能技术形态和商业模式，会进一步收割大众用户的注意力、时间、金钱和智商，更不用说马斯克所担心的人工智能失控所带来的人类生存危机。但不发展并不意味着远离风险，而是往往会被美国的数字巨头所利用和收割，正如欧洲的现实处境那样。

本文原载《文化纵横》2024年4月刊，原题为《人工智能不应成为资本的“独角戏”》，仅代表作者观点，供读者参考。

人工智能不应成为资本的“独角戏”

✪ 郑戈

上海交通大学凯原法学院

▍一

当OpenAI于2024年2月15日正式发布文生视频AI工具Sora时，人们被其视频效果惊艳了。一个戴墨镜的高冷女人行走在东京的大街上，周围霓虹闪烁，行人如织。一切看起来都是那么真实。而这段视频的“创作者”是人工智能，人只是用文字给出了指令：“一位女士行走在夜晚的东京街道上”。我的疑惑是：看不出这个工具有什么用。当然，这作为概念证明（Proof-of-Concept）是成功的，一下子点燃了人们的兴趣，也吸引了投资人的注意。但在新鲜感过去之后，谁会去看一个个一分钟不到、没有故事线也没有感情的短视频呢？正如之前的元宇宙一样，如果一种技术无法满足人们的现实需求，无法形成稳定的商业模式和供需关系，那么它最终就会沦为炒作的噱头。今天的Sora远不像鼓吹者所说的那样是通用人工智能（AGI）的重大突破，抑或进一步拉大了中美之间在AI领域的技术差距，而只是一个重资本支撑下不计成本的“暴力计算”的产物，在技术上没有多少创新，在社会效益上成本大于收益。

从技术上讲，作为Sora之基础的大模型虽然涉及Transformer、Diffusion、GAN等算法创新，但这些创新并不是OpenAI独自做出的。OpenAI的成功是基于算力、算法和数据的规模升级，是摩尔定律和梅特卡夫定律所揭示的技术的政治经济效应的表现。换句话说，大模型依靠的是“暴力计算”，即高性能GPU运行千亿级参数模型通过海量数据进行预训练。用OpenAI首席科学家伊利亚·苏茨克沃的话来说：“如何解决难题？使用大量训练数据以及一个大型神经网络。这样，你可能得到的唯一结果就是成功。”为此，OpenAI的主要投资者微软投入数亿美元资金为OpenAI打造了一套超算系统，由上万颗单价数万美元的英伟达A100芯片组成，这套系统为训练ChatGPT提供了3640PF-days的算力消耗（即假如每秒计算1000万亿次，连续计算3640天）。这个道理行内人都懂，只是能够如此烧钱打造“大装置”，并能够获取足够多的数据供其训练算法的人很少。

由此可见，大模型训练是一个烧钱和耗能的游戏，充满重资本的味道，一点儿也不节能环保。这时，我们就需要对大模型的商业和社会应用进行一番成本-收益分析，看看它所带来的收益是否大于成本，以及收益的归属和成本的分担。在进行这种分析的时候，我们应当注意尚未被计入成本的那些外部性，比如实际上由公众承担成本的环境损害和系统性风险，以及它可能带来的好处。大模型能够带来的好处似乎是显而易见的。虽然训练成本高昂，但一经训练成功，它就可以产生巨大的生产力，自动化地生产文字、图像和音视频内容，比如帮助文字工作者生成文案和文学作品，帮助医生了解病人的病史和症状描述并形成诊断和治疗方案，帮助老师、科研人员和学生阅读大量文本并提取关键知识点和主要论点，帮助法律职业者审阅法律文件、分析法律问题并形成初步法律意见书，等等。但这些好处本身也可能直接转化为坏处，因为这些“帮助”都可以变成“替代”。尤其是当普通劳动者、消费者和内容创作者对技术及其部署毫无发言权和影响力的时候。正因如此，AI不只是技术议题，更是公共议题，技术的发展方向和应用场景是由技术之外的政治、经济和法律因素决定的。用一本题为《AI需要你》的新书中的话来说：“人工智能不是价值中立的，也不应该是。历史告诉我们，今天的人工智能科学家和建设者应该带着意图和目标前进，而不是拥抱虚假的中立。这一目的应该是致力于和平的，是清醒认识到技术之局限性的，是将服务于公共福祉的项目摆在优先地位的，并且是植根于社会信任与和谐的。”以下将分别讨论发展AI的目的（目的决定方向，包括技术和应用的发展方向）、发展AI的成本和收益以及可能的规制路径。

▍二

生成式人工智能的第一种可能未来，是作为资本炒作故事（hype）而烟消云散，正像之前的区块链和元宇宙一样。这是最没有技术和商业模式的创新，最有损中小投资者和消费者的利益，却最有可能出现的未来。在ChatGPT横空出世之际，人们还没从元宇宙热中走出。然而，热潮过后留下的是个烂摊子：浪费的资源，收不回的成本，鸡肋般的架构设计和战略布局。到2022年，Meta的元宇宙部门“现实实验室”在财务年报中上报了137亿美元的营业损失。

生成式人工智能当然与元宇宙不一样。元宇宙的发展限度在于，它超出了单一企业（无论何等规模的巨头）能够控制的数字基础设施能力，包括但不限于网络带宽。元宇宙模式所传输的三位全息影像都是无比庞大的数据集，一旦超出一定规模来部署，必定会导致严重的卡顿和延迟，更不用说达到鼓吹者所说的流畅的临境感。而生成式人工智能仅仅在研发端需要庞大的算力和数据，一旦研发成功，在用户端则不会占据过多的网络传输和终端算力资源。实际上，我国企业在生成式人工智能的可持续商业模式方面已经探索出一条可行的道路，那就是面向企业（B端）市场，比如华为的盘古大模型在气象预测、工控系统和政务系统中的应用；商汤的日日新大模型系列中面向医疗系统的“大医”、面向汽车和交通行业的“绝影”、面向城市规划和空间设计行业的“琼宇”、面向制造业和需要进行产品展示的商贸企业的“格物”等。但目前引起媒体和公众广泛关注的，恰恰是面向个人用户（C端）的文字、音视频生成类应用，而这一类应用很可能只是昙花一现。

比如，用过ChatGPT之类的对话式内容生成工具的人都知道，它们生成的“小作文”中充满了错误的引用、编造的法律条文或数据以及似是而非的话术。这些被统称为“幻觉”的内容混杂在貌似言之成理的内容当中，使得查验与核实工作变得十分烦琐，在严肃工作中实际上会加重而不是减轻专业人士的负担，因此不会在这些工作场合得到广泛使用。它得到生产性使用的场合，反而多是人类的法律和伦理所禁止或至少会做出否定性评价的用法，包括学生用来写小论文在学业上蒙混过关，媒体或自媒体用来编织真假难辨的假新闻以吸引眼球，需要做应酬性讲话或报告的各行业人士用来生成讲话内容。Sora这样的文生视频工具不仅不会解决上述问题，反而加重了真实性和可靠性查验的成本，毕竟“有图有真相”“有视频有真相”之类过去的真实性判断方法，面对这样的工具已经不起作用了。

但比作为炒作而烟消云散更糟糕的，是消费主义的生成式人工智能真正落地并得到广泛使用的情况，我称之为地狱级噩梦（Hell）。OpenAI（以及背后的金主微软）用ChatGPT和Sora来向世人展示生成式人工智能的奇迹，是一种概念证明，就像时装秀一样：这种展示“不会显示庞大的机器，没有人类员工，没有资本投资，没有碳足迹，而只有一个具有超凡脱俗技能的基于抽象规则的系统。魔法和奇迹的叙事在人工智能的历史中反复出现，将聚光灯打在速度、效率和计算推理的壮观展示周围”。我们只要参观过任何一个为训练AI提供支撑的数据中心，了解过大型语言模型的训练过程，就知道AI也有“沉重的肉身”，有庞大的服务器阵列和“大装置”，有数以万计从事着烦琐枯燥的数据标注、校订、评估和编辑工作的当代蓝领，更不用说程序员了，以及算力系统每运行一秒钟就会消耗的大量电力和冷却用水。更不用说它背后极不公平的分配逻辑：即便在所谓“市场主导”的美国，人工智能产业也受到政府的大力资助，“人工智能行业的扩张得到了公共补贴：从国防资金和联邦研究机构到公共事业和税收减免，再到从所有使用搜索引擎或在线发布图像的人身上获取的数据和无偿劳动力。人工智能最初是20世纪的一项重大公共项目，后来被无情地私有化，为金字塔顶端的极少数人带来了巨大的经济收益”。可悲的是，被收割的“韭菜”们还不断惊叹科技巨头向它们展示的魔法，沉迷于“AI狂想曲”：幻想人工智能系统是脱离实体的大脑，独立于其创造者、基础设施和整个世界来吸收和产生知识。

在这个过程中，人类劳动的价值被不断贬低，沦落到为机器提供辅助性服务的地步。ChatGPT所生成的似是而非的文本和Sora所生成的空洞虚幻的视频，都受到赞叹，而人类创作的各种内容却受到百般挑剔或者根本无人问津。这不仅影响到如今在世的所有人，还影响到教育和人类的未来：许多家长现在已经怀疑让孩子辛苦地学习各类知识到底有什么意义，毕竟未来大部分工作都不需要人了。虽然了解AI技术及其产业的人都知道这根本不是事实，但行业巨头们通过魔法展示所营造出的共识性幻想，却可能导致一个自我实现的预言：青少年可能越来越多地借助AI工具来蒙混过关，在学习知识和训练技能的过程中投机取巧，这样人类工作的质量会不断趋近，并最终低于AI从事同样工作的质量，然后给了雇主们用机器取代人的理由。

为了避免滑入这个向下沉沦的螺旋，在当下的数字素养教育中应该更多地纳入对AI进行人文和社科反思的内容，而不是直接接受行业巨头们编织的叙事。要让公众理解人工智能不是一种客观、通用或中立的计算技术，不能在没有人类指导的情况下做出决定。AI系统深深嵌入人类社会的政治经济结构和法律制度中，由人类的个体、商业组织和政府来决定它们做什么和怎么做。虽然AI与其他完全被动的由人类完全控制的工具不同，能够在与人类互动的过程中学习和自我演进，但它仍然是一种工具，是在人类设定目的的前提下寻找最优手段的工具。因此，我们不能放弃对目的的追问和公开讨论，否则我们的命运可能不是被AI控制，而是被掌握AI的人控制。微软控制下的OpenAI，就是这样一个有舆论塑造能力的实体。

成功的企业都是善于讲故事的企业，公众很容易被它们标榜的价值所迷惑，因为它们实际上所做的事情对于公众来说是不透明的。OpenAI对自己的定位是：“我们是一家人工智能研究和部署公司。我们的使命是确保通用人工智能造福全人类。我们正在构建安全且有益的通用人工智能，但如果我们的工作帮助其他人实现这一成果，我们也将认为我们的使命已经完成。”显然，OpenAI试图为自己树立开源、无私并服务于公共利益的“人设”。2015年，OpenAI作为一家非营利性的科研实验室而注册成立，一开始，它将自己的宗旨表述为“为每一个人而不是股东创造价值”。为此，它鼓励所有雇员“发表自己的作品，无论是以论文、博客日志还是代码的形式”。这与营利性公司极端重视知识产权和商业秘密的做法截然相反。它还宣布将与全世界共享自己获得专利的算法。但即使在这个最初的阶段，OpenAI也没有兑现自己的承诺，没有形成开放的治理结构、民主或合作式的工作机制，也没有开放数据或允许外部开发者接入和使用研发大模型所需的高成本资源。实际上，它的创始人中只有埃隆·马斯克真正信奉开放的宗旨，但他的想法被称为“马斯克让AI自由发展的疯狂计划”。在接受《连线》（Wired）记者采访时，当时的OpenAI主席格雷格·布洛克曼说：“把你做的所有研究都公开，并不见得是一种最好的方法……我们会产出很多开放的源代码。但我们也有很多不想马上发布的东西。”

保护商业秘密的立场，在2019年发布GPT-2之后就占据了上风。这一年3月，OpenAI正式宣布放弃非营利的法律性质，转型为一家“设利润上限的”营利公司，这个上限就是首轮投资者不能获得超过其投资额100倍的回报。在接受了微软的10亿美元投资之后，OpenAI将GPT-3大模型授权给微软独家使用，之后的所有大模型也都为微软所独享。虽然从法律上OpenAI并没有并入微软，但它实际上已经成为后者的一个研发部门。正因如此，在2023年的OpenAI首席执行官换人风波中，微软发挥了决定性的影响力。也因为如此，马斯克最近在加州旧金山初审法院提起诉讼，主张该公司违背了承诺，侵犯了自己作为创始人之一的权利。

OpenAI与微软的整合，会进一步强化微软在操作系统和生产力工具领域的垄断地位。实际上，先进入开源平台成为它的重要开发者和用户，然后利用自己的算力和数据优势吸引开源平台上的开发者为自己服务，最终使开源平台私有化为自己的一部分，是包括微软在内的数字巨头常用的策略。2018年，微软收购了全球开发者创建、存储、管理和共享代码的平台GitHub，该平台有超过1亿的软件开发者用户，同时也是全球最大的源代码托管商。作为一个拥有超过20万名员工和庞大的官僚机构的巨型企业，微软的管理层认识到企业内部缺乏人工智能领域的创新力。将OpenAI留在微软外部并享有它的专属服务，对微软来说是一种新的或许更明智的策略。得到OpenAI的专属服务后，微软已经将GPT-4等大模型整合到自己的现有产品和服务中，比如搜索引擎必应和生产力工具Office软件。在搜索引擎方面，新的必应虽然为微软赢得了八倍的下载量，但未能撼动谷歌的绝对霸主地位。而在微软占据市场支配地位的生产力工具领域，基于大模型的AI助手Office Copilot或许会进一步强化其垄断地位，并保持遥遥领先。未来，微软还会将大模型整合进Windows操作系统。

垄断会带来垄断者任意定价和服务质量下降，损害消费者福祉。使用过Windows的用户都很清楚它是多么不好用。重资本入场的平台企业，一开始会投入巨额资金补贴用户、改善用户体验、开展研发和创新活动，一旦市场支配地位形成，便会实行垄断者定价，降低服务质量。在存在自然垄断的领域（数字市场就是这样一个领域），公共监督和法定监管通常优于通过竞争实现的市场规训。常见的监管方法包括法定价格范围、最低服务质量标准、交互可操作性要求、可信数据环境标准、安全标准等。简言之，就是采用规制+反垄断的组合拳。

▍三

制度性引领和干预是确保AI的发展方向与人类目的对齐的主要方法，而人本主义应当是我们讨论发展AI的目的时所坚守的基本立场。有些人认为应当放弃人类中心主义的立场，不应当用人的局限性来限制人工智能的无尽疆域，包括承认它最终会变得远比人更聪明、具有自我意识并最终统治人或消灭人。这种观点和某些极端生态主义者所主张的“消灭人类保护地球”异曲同工，属于超出理性讨论范畴的价值选择，也是不会被大多数人接受的一种价值选择。人本主义立场要求摆正AI的工具地位，只发展那些辅助人类活动的AI技术。

弗兰克·帕斯奎尔提出的“新的机器人法则”，就是对这样一种基本观点的系统表述：“1. 机器人系统和人工智能应当辅助职业人士，而不是取代他们；2. 机器人系统和人工智能不应当假冒人类；3. 机器人系统和AI不应当加剧零和的军备竞赛；4. 机器人系统和人工智能必须显示其创造者、控制者和所有权人的身份。”这些原则都有相当强的现实针对性，比如第一条实际上针对的是数字科技时代的一个日益显著的事实——劳动者的“去技能化”。大量过去需要人类专业技能完成的工作被算法取代了，留给人类的往往是那些不需要创造性思维和专业知识，而只需要身体技能和直觉的工作，比如送外卖、送快递。这背后的技术原理是“莫拉维克悖论”：“让计算机在解决智力测验问题或玩跳棋方面表现出成人水平相对容易，但在感知和运动方面让计算机具有一岁儿童的技能却很困难或不可能。”原因很简单：智力测试或下棋是在人为设定的边界和规则范围内进行可穷尽的推演，而不是去适应没有给定边界且充满不确定性的物理环境并在其中生存下去。后者是人类经过漫长的进化过程才习得并铭刻在DNA当中的，人的身体运动技能和直觉感知正是其表现。

到了人工智能时代，人所创造的机器逐渐主导了人类需要运用智力才能完成的那些工作，人自己却只剩下那些凭本能就能完成的工作，这是技术原理和政治经济原理结合后的产物。由于脑力工作者受教育时间长，工资相对较高，为了节约劳动力成本，资本家当然乐于用人工智能取代人来从事此种劳动。于是，在外卖和快递行业，我们可以看到算法充当着管理者和调度员的角色，精准规划和控制着人类劳动者的路线和时间。

控制论之父维纳早在1950年便预见了机器不断侵蚀人类生产活动空间的前景。在《人有人的用处》一书中，他指出：“现代人，尤其是现代美国人，尽管他可以有很多‘懂得如何做’的知识，但他的‘懂得做什么’的知识却是极少的。他乐意接受高度敏捷的机器决策，而不想较多地追问一下它们背后的动机和原理为何。”他指出，人类面对的威胁不是机器，而是人本身。如果我们不去追问和思考“要做什么”，而是任由机器和机器的设计者把我们嵌入到生产流水线上，那么人也就变成了机器的一部分：“作为机器的一个元件来利用的东西，事实上就是机器的一个元件。”维纳曾经的老师、哲学家罗素给这本书写了一篇题为《人还有存在的必要吗？》的书评，其中写道：“有些事情是机器无法做到的。它们无法创作伟大的艺术、伟大的文学或伟大的哲学；它们无法发现人类心灵中秘密的幸福源泉；它们对爱和友谊一无所知。”罗素认为智能化的机器应当被用于将人类从生存压力所迫的劳役中解放出来，让所有人都能享有原本只有贵族或少数社会精英才能享有的“奢侈品”——闲暇，从而去从事那些只有人类才擅长做的创造性的以及带来幸福感的事情。

但我们需要进一步发展这种论证。首先，人不必通过证明自己“有用”来证明自己有存在的必要。康德所说的“人是目的，不是手段”，应该是人本主义思考的出发点。一方面，即便机器已经能够做人类需要运用智力才能做的大多数事情，人类也应该通过制度设计来确保人的处境不会恶化。另一方面，更重要的是，我们需要从一开始就想清楚，什么样的人工智能发展方向是值得追求的，是不会降低大多数人的生活水平和幸福感的——换句话说，是符合公共利益的。显然，坚持人本主义立场的人都不会说，我们发展人工智能是为了让它最终变得比人更聪明，可以摆脱人的控制并追求自己的目的，无论这种目的是否与人类的目的相吻合。我们创造机器不是为了让它像人，毕竟世界上已经有了数十亿活生生的人；不是为了让它去从事那些我们从中可以获得意义感和成就感的事情；而是为了让它帮助我们去做那些烦琐、劳累、重复但又必要的工作，以及帮助我们去做那些我们想做，但如果不借助智能化工具就做不到或者不能做得很好的事情。简单地说，就是要发明和发展有用的人工智能。

其次，从人本主义立场出发，我认为目前OpenAI所代表的生成式人工智能发展道路已经走错了方向。ChatGPT和Sora这种类型的生成式人工智能工具，是在做人类平均水平的创作者能够做而且愿意做的事情，同时由于缺乏人类特有的目的性和环境适应性，它们所生成的内容只能满足娱乐和蒙混过关的需求，而无法用于追求真实性、严谨性和真诚性的内容生产。

阿努·布拉德福德认为存在三个“数字帝国”，它们对数字经济有着完全不同的构想，并因此发展出三种全然不同的监管模式：一是美国的市场驱动模式，以促进创新为导向，鼓励赢家通吃，甘冒巨大的风险；二是中国的国家驱动模式，以发展和稳定为两大价值，试图在两者之间维持平衡；三是欧盟的权利本位模式，试图在数字技术不断侵蚀人类隐私和自主性的现实处境中维系人的尊严和权利。这些“数字帝国”之间的斗争有两个主战场：一是横向的国与国之间的斗争，包括技术、商业模式和规范等多个层面；二是纵向的国家与企业（包括本国科技企业和在本国运营的外国科技企业）之间的斗争。

另有学者指出，由于包括人工智能在内的数字科技及其商业应用的全球化特点，数字科技强国往往主张跨境的数据自由流动和人工智能部署，以为本国数字巨头获取全球数据和占领全球市场创造制度条件，此种战略被称为“数字帝国主义”（digital imperialist），美国是其唯一代表；而缺乏本土数字科技巨头的国家，则往往通过强调个人数据权利保护来限制数据的跨境流动，同时也限制境外数据企业在本地的数据获取和人工智能部署，以维护数据主权，此种战略被称为“数字主权主义”（digital sovereigntist），以欧盟各国为主要代表。

中国香港学者张湖月则将中国的人工智能监管比喻成高空叠罗汉走钢丝这样的杂技表演，既要持续前进，又要保持动态微妙平衡，还要承受高空坠落恐惧的压力。但这可能恰恰是人工智能监管该有的样子。任由市场主导，则投资者利益驱动下的人工智能技术形态和商业模式，会进一步收割大众用户的注意力、时间、金钱和智商，还不用说马斯克所担心的人工智能失控带来的人类生存危机。如果继续坚持传统的个人权利本位，那么必须利用海量数据来训练的人工智能及其产业将无从发展。但不发展并不意味着免于被数字巨头利用和没有风险，而是往往会走向被美国的数字巨头利用和收割，正如欧洲的现实处境那样。

http://mp.weixin.qq.com/s?__biz=MzIwMzYyMzQ5MQ==&mid=2247551338&idx=2&sn=cef7669ad839c13afa8d93d8006c62d3

民智国际研究院

察哈尔学会联营智库，凝聚民间智慧，解读国际风云。