【专家观点】大模型时代的十个思考

文摘 2024-10-09 17:12 北京

整个人类发展的历史就是一个技术发展的历史，没有技术就没有GDP的增长。我们就不回顾到什么钻木取火、发明轮子这些事情——我们就从这100年物理学上很多了不起的突破，过去70年人工智能、计算机科学的突破，就可以看得到，有很多发展的机会。

过去几年大家一定是一步一步被新的人工智能的体验所震撼，即使我做了一辈子的人工智能，几年前也很难想象今天这样的情况。

我想讲三个例子：第一个是从文生成文，第二个是从文生成图，第三个是从文生成视频。讲到ChatGPT人工智能的系统，不仅国际上有，国内也有。比如，我今天到这里来作演讲之前，我问ChatGPT，我要参加腾讯主办的青年科学家50²论坛，做一个演讲，作为我这样的背景应该讲什么样的话题。大家可能觉得有点搞笑，其实用下来，觉得还是非常好的。

ChatGPT大家都比较熟悉了，两年前OpenAI就出了一个文生图的系统，你给出一段话，它就生出一个图出来。7个月之前它又出来了Sora，你给它一段话，它给你生成一段60秒的高清视频，比如这个漫步在东京街头的视频，这都非常震撼。（时间关系我就不放视频了。）

我讲一下这个文生图的例子。我是做计算机图形学的，自以为对一张照片好和不好很有感觉。两年前，这张照片出来，这是人类历史上第一个人工智能生成的照片，登上了美国时尚杂志（《Cosmopolitan》）的封面。在旧金山有一个数字艺术家用了OpenAI的系统，问了一段话，产生了这样一个结果。这段话是：在浩瀚的星空中，一位女宇航员在火星上昂首阔步，走向一个广角镜头。我自己没有那么大的艺术天分，但是我看到这张图之后是非常震惊的，我想你也会同意我的讲法，人工智能画出这样的图来，它真的就是像一个女宇航员。所以这个人工智能已经到了相当智能的程度。今天有了这样一些了不起的技术，甚至是一些了不起的产品。

我们在国内也都非常努力，从技术到模型，到后面的应用，方方面面我们都在做。刚才姚院士也讲了很多清华最新的工作。所以我就想跟大家分享一下，在通用人工智能时代，我们应该怎么去思考大模型，我想谈几点自己的看法。

第一个思考，今天的通用人工智能、大模型、深度学习，最重要的一件事情是最近这些年整个人工智能算力的增长。

过去10年，大模型用到算力的增长，一开始是每年六七倍的增长，后来是每年超过4倍的增长。我现在问大家一个问题，如果一年涨4倍，10年会涨多少倍？

大家都知道这一波人工智能发展，最获益的公司就是英伟达，英伟达的芯片出货量逐年递增，算力逐步增强，整个公司的市值也成为全世界3个3万亿美元市值的公司（微软、苹果、英伟达）之一。最重要的还是因为每年大家对算力的需求。2024年购买英伟达芯片的数量还在急剧增长，比如埃隆·马斯克，他现在在建一个10万H100卡的集群，本身建万卡系统就非常困难了，建10万卡系统更困难，对网络的要求都非常高。

今天讲算力、大模型这件事情，最重要的就是（算力和数据）扩展（Scaling Laws），算力越多，智能越增长，现在大家都还没有摸到天花板。其中很不幸的是，整个数据量大了以后，算力的增长还不是线性增长，算力的增长更加像是一个平方的增长。

因为模型大了以后，要把模型训练出来，数据的量也要堆上去，所以相对来讲更加像是一个平方的增长。对算力的要求，过去10年的变化是非常巨大的。因此我就讲一句话，今天要做人工智能大模型，讲卡伤感情、没卡没感情。

我刚才问了大家一个问题，算力每年涨4倍，10年涨多少倍？我们学计算机的人都知道“摩尔定律”，每18个月左右算力增长一倍，英特尔这么多年就是这样发展起来的。为什么英伟达现在已经超越了英特尔？很重要的原因就是它的增长速度不一样。如果18个月涨一倍，10年大概涨100倍，这也是非常了不起的事情；如果每年涨4倍，10年就是100万倍，这个增长是非常惊人的。如果你这样想问题，英伟达的市值过去这10年涨得这么快，也就是可以理解的。

第二个思考，关于数据的数据。算力、算法和数据，是人工智能重要的三个因素。前面我提到我们需要很多的数据才能训练通用人工智能。当ChatGPT3还只是在发表论文的阶段，说需要2万亿的Token的数据量；到GPT4出来的时候，大概是12万亿Token的数量，GPT4不断地训练，今天估计它已经超过20万亿Token的数量。对人工智能关心的人都知道，这么长时间以来大家一直等待着GPT5出来，但是它迟迟没出来，如果有GPT5出来，我个人判断可能会达到200万亿Token的数据量。回过头来问，互联网上有没有那么多好的数据。等你清洗完以后，可能20万亿Token就差不多到顶了，所以未来要做GPT5，除了现有的文本数据，还要更多的多模态数据，甚至人工合成的数据。

过去三四十年，大家把自己的信息放到网上分享，以前我们觉得这是在给搜索引擎打工，现在回头一想更加了不起的是，这一切好像就是为了ChatGPT出现这一时刻，它把所有的东西整合在一起，通过强大的算力，把这样一个人工智能模型学了出来。

第三个思考，大模型的下一章。过去人们首先干的是语言模型。以ChatGPT为代表，它的底层技术是自然语言处理。今天大家正在干的是多模态模型，以GPT-4o为代表，里面很多技术是计算机视觉。再向前走，就是要做具身智能。它的目的实际上是要建一个世界模型。现在就算是做多模态的，底层的物理模型也是没有的，所以要做这样一个世界模型。世界模型就是你不仅要读万卷书，还要行万里路，把世界上更多的知识再反馈回你的大脑里。所以应该做机器人。我就觉得深圳应该下定决心做机器人，做具身智能。机器人里面有一个特别的赛道叫自动驾驶，自动驾驶是一个特别的机器人，只是它是在给定的路线上行驶。

要怎么做？有很多多模态的科研工作要做，我相信一个非常重要的方向是多模态的理解和生成的统一。就算Sora、Dall-E做出来，它也是分开的，多模的生成和多模的理解没有统一起来。这方面有很多科研的工作我们可以做。

举一个例子，我的几个学生他们多模态的理解做得非常优秀。如果拿一张图给人工智能看一看，为什么图中的行为被称为“无效技能”，AI给你解释是，这个图看起来好像是一个小朋友在地上打滚，但是他妈妈无动于衷，自己在看手机和喝饮料，所以小朋友这个技能就被称为“无效技能”。AI现在对图的理解做得越来越好。

第四个思考，人工智能的范式转移。两个礼拜前，OpenAI发布了最新一个模型就是GPT-o1。前面我也提到GPT一直发展，到了GPT4以后，GPT5一直出不来，大家就在想，如果只是大模型参数的增长，是不是走到顶了？没有人知道。我们国内也没有做出更加超大的模型。但是突然现在一个新的维度出现了，不是做前面的预训练（扩展），而是真正在做推理的时候再去做扩展。它是从原来的GPT思路，变成了今天的自主学习的道路，就是在推理这一步强化学习，不断地自我学习的过程。以前我们做预训练，基本上就是预测下一个字是什么，下一个token是什么。现在新的思路是要打草稿，试试看这条路对不对，那条路对不对。就像我们做数学题一样，先打个草稿，看看哪个路走得通，有一个思维链，再看优化思维链过程中的机会。到现在为止只有OpenAI把这样一个系统放出来，我也鼓励大家看看这里面的一些例子。最重要的是，它整个过程非常像人类思考问题、分析问题，打草稿、验证、纠错、重新来，这个思路空间就会非常大。做这件事也需要非常多的算力才行。

第五个思考，大模型横扫千行百业。所有的公司都要面对大模型带来的机会，但是不需要每个公司都做通用的大模型，如果你连1万张卡没有，是没有做通用大模型的机会的，要做通用大模型，至少要有万卡。比如说GPT4出来的时候，它的训练的总量是2×10^25 FLOPs。这么大的训练量，1万张A100卡也要跑一年时间才能跑到这个量，如果这个量都跑不到，就不存在做出真正的通用大模型。有了通用大模型，我们在这个基础上可以建自己的行业大模型，比如金融、保险，可能千卡就可以做得非常好，在上面做一些微调。对一个企业来讲，你有自己的内部数据、客户数据，把这些数据拿出来，几十张、上百张卡就可以做一个面向自己企业的非常好的模型。所以它是一层一层不断地搭起来的。

当然还有一个非常重要的维度，也是我非常喜欢的，就是未来的个人大模型。今天我们已经慢慢在PC、手机里面(积累了一定的数据)，对我们自己的理解越来越多，未来我相信有这样一个超级智能、帮助你的AI，收集了你的相关数据以后，它可以建一个自己的个人大模型。应用在（个人）终端、手机就是一个很自然的事情。PC方面，微软、联想这些PC公司也在推AI PC的概念。所以，也有这样一些机会。

在中国的大模型建设浪潮当中，越来越多的是行业大模型。到今年7月底之前，中国一共有197个模型被批准，当中70%是行业大模型，30%是通用大模型。未来通用大模型的数量、占比会越来越低。我们可以在通用大模型上做金融模型，比如上海的一家公司做的面向它的金融客户的大模型。英伟达的财报出来了，这个模型马上可以总结出它的亮点是什么、问题是什么。

第六个思考，大模型最大的超级应用是什么，最大的机会在哪里？很多人现在不断地尝试，想找到一个超级应用。实际上超级应用一开始就在那里，就是一个超级Agent。以前我跟盖茨在微软一起做了很多年的工作，我们都在思考这个问题。它难在哪里？难在真正你要做有用工作的时候，要理解一个工作流，你问了一个问题，它能一步一步拆解，把这个事情能够做出来，有意义。今天能做的、又有一定影响力的，是做客服、简单的个人助理。但是很多工作是没法弄的，它为什么没法弄呢？你要做一个数字大脑。

在这个架构图里你就能看到它的困难，底下的大模型只是第一步，它的能力还没有强大到把上面的这些工作都帮你一步一步做掉。因为你真正要做这样一个Agent，让它能做事情，它要了解下面这些问题是什么，每一部分都有对应的技能。接下来相信大家会看到很多这样的应用。

第七个思考，开源和闭源。过去几十年世界科技的发展，特别是中国科技的发展，有两件事情是非常重要的。第一是出现了互联网，有了互联网之后，你就可以在网上找到所有的论文、资料。第二是开源，开源就使得你做应用的时候，跟领先者的差距急剧缩短。但是在大模型开源这件事情上，和传统的操作系统、数据库的开源还不一样，虽然现在开源系统的能力是直逼闭源系统。国内也有很多公司在做开源的东西，今天开源做得非常好的是Meta的Llama 3.1，号称和OpenAI的差距不大了。我不这么认为，我认为它并不是传统的开源，它只是开源了一个模型，并没有给你源代码和数据，所以我们在用开源系统的时候，也要下定决心真正理解大模型的系统闭源的工作。

第八个思考，要重视AI治理。因为AI发展太迅猛了，全世界对AI安全都非常重视。因为这件事情的影响实在是太大了，人工智能对千行百业、对整个社会的冲击非常大，整个世界的发展实际上是要大家共同来面对AI治理的。

第九个思考，重新思考人机关系。我刚才介绍了文生文、文生图、文生视频——有多少是机器的智能，有多少是因为人机交互给我们带来的震撼？大概10年前，《纽约时报》专栏作家John Markoff写了一本我非常喜欢的书Machines of Loving Grace，当中总结了计算机科技过去发展的两条线：一条是人工智能；另外一条是IA（Intelligent Augmentation），它是智能的增强，就是人机交互。有了计算机之后，它帮助人做了很多事情，下棋是其中一个例子。事实上，真正把人机交互搞清楚，才能成为每一代高科技企业真正有商业价值的领导者。今天人工智能的界面已经非常清晰了，就是对话的过程，代表是ChatGPT。但是讲OpenAI加上微软就代表这个时代还太早，他们是领先了，但是未来还有很多想象的空间。

第十个思考，智能的本质。今天虽然大模型已经给大家带来很多的震惊，但是我们对大模型、深度学习的理解暂时是没有理论的。不像物理学，大到浩瀚的星空、小到微小的量子都有很美的一些物理的定律来描述。今天人工智能还没有这样的理论，没有可解释性、没有鲁棒性。今天深度学习的框架还到不了真正的通用人工智能。

关于人工智能的涌现，大家只是讲讲，并没有讲清楚。为什么模型大到一定程度智能就涌现了？为什么70B的模型就能涌现智能？没有这样的道理。所以我们也在非常努力地研究这方面的问题。去年暑假我也在香港科技大学组织了一场主题为“Mathematical Theory for Emergent Intelligence”的研讨会，讨论涌现智能背后还是要把一些科学原理、数学原理讲清楚。要有更多愿意探索的人参与进来，特别是像“科学探索奖”、“新基石研究员项目”的出现，有更多的年轻科学家加入进来，有更多的信心、信念深入到为未来人工智能发展再有突破的难的问题当中。

再次祝贺各位获奖者、年轻的科学家。科技的发展需要靠年轻人一代一代来做，特别是人工智能。

文章来源：软件定义世界

作者：沈向洋香港科技大学校董会主席、美国国家工程院外籍院士

更多精彩内容请登录http://www.ciomanage.com官方网站

或扫描下方二维码，点击关注微信公众号（ID：sagetimes）

往/期/精/选

赛智产业研究院院长赵刚：关于通用人工智能（AGI）产业发展策略的十个思考

与文心大模型关于数据空间、数据区块链和数联网的对话 ‍‍

赛智产业研究院院长赵刚：大模型产业发展的七大要点

赛智产业研究院院长赵刚：人工智能的发展和应用

赛智产业研究院院长赵刚：人工智能现代化治理 ——《人工智能的发展和应用》第一讲

赛智产业研究院院长赵刚：人工智能现代化治理 ——《人工智能的发展和应用》第二讲

公司介绍

北京赛智时代信息技术咨询有限公司(简称赛智时代)是国内知名的数字经济等新兴产业的咨询规划、大数据分析和产业生态体系建设的创新型公司。业务范围涵盖了智库咨询、数据服务、软件平台以及会议培训等方面。其中智库咨询服务依托于赛智产业研究院丰富的行业资源和高端专业化人才等竞争优势，面向政府、园区和企业，提供发展战略与规划、政策研究、招商引资策略研究、智慧城市规划、运营模式研究等现代咨询服务。研究领域涵盖大数据、人工智能、区块链、5G、战略性新兴产业等行业领域。

饮鹿网(Innov100)是赛智时代旗下的产业创新创投数据平台，覆盖新兴产业近20万创新型企业，为客户提供创业孵化、投融资等服务。

赛智区块链(北京)技术有限公司简称(赛智区块链)，是一家专注于企业级大数据区块链产品与应用服务的高科技企业。

联系方式

电话：010-57212618

手机：13911826906

公司网址：www.innov100.com

www.ciomanage.com

公司地址：北京市朝阳区大屯里317号金泉时代广场三单元2216

智库服务

北京市数字经济战略研究
北京市数据要素市场促进服务（北京市新型数据交易规则体系设计）
北京数据先行区关键机制创建服务
贵州省加速构建数据要素市场培育新兴产业课题研究
国家大数据（贵州）综合试验区实施方案
中国数据服务产业图谱研究
内蒙古自治区大数据中心数据要素市场化规划咨询
保定市数据服务产业发展规划编制
朝阳数据要素市场发展研究
丰台区数字经济倍增发展路径研究
北京市大数据立法数据支撑服务
北京市智慧城市建设协调推进项目
中国算力网络发展研究白皮书
重庆两江新区数字经济发展规划
贵阳市大数据五大新领域（人工智能、量子信息、区块链、物联网、5G移动网络）产业规划
南宁市元宇宙产业创新发展研究
贵阳市数字经济产业招商引资项目评估
智能贵州发展规划
贵州省大数据新领域产业发展指南
北京市大数据应用发展报告
天津市大数据应用场景建设计划
贵州省大数据战略行动计划编制
贵州省“十三五”以大数据为引领的电子信息产业发展规划
丽水市城市大脑开发建设研究
贵阳市新基建“十四五”发展规划
中国数谷顶层设计方案
贵阳市数博大道产业规划
贵阳区块链发展白皮书
贵阳市大数据发展“十三五”规划
贵阳市数字经济发展规划
观山湖区呼叫中心产业园规划
济南新型智慧城市规划
南宁大数据建设工程规划
航天科技车联网产业商业模式研究
阿里云数智化敏捷组织：云钉一体驱动组织转型研究
百度区块链研究项目
实创集团智慧城市业务战略规划
云上贵州集团业务战略规划
贵阳大数据集团业务战略规划……

软件平台

饮鹿网精准招商大数据云

饮鹿网精准招商大数据云（平台）是赛智产业研究院联合饮鹿网开发的针对产业招商的最新产品。涵盖大数据、人工智能、区块链、5G、智慧城市、工业互联网等 30 多个领域，为招商部门、产业主管部门、园区管委会和产业地产提供大品牌招商、产业筛选招商、产业生态链招商、重点产品招商、资本注入式招商、区域一体化协同招商、原籍创业人才招商等招商数据分析服务。

饮鹿网产业大脑大数据云

政府提供新兴产业的产业链、企业、技术、投资等数据分析服务的平台，主要为各地发改部门、工信部门、产业分管领导提供产业仪表盘、产业链分析、产业地图、产业发展要素分析、产业政策、产业洞察等产业数据分析服务。

饮鹿网创业投资大数据云

服务于创业投资领域，为母基金、头部投资机构、地方政府产业基金或引导基金提供绩效考核的专业化平台，主要提供投资数据（投融资仪表盘:与投资趋势洞察融合）、投资绩效分析（投资绩效分析、融资日报、投资机构百强、投资人百强）、项目分析（重点项目、产业链投资、细分图谱投资）、投资布局（投资地图）、投资要素分析、投资管理等服务。

赛智时代

致力于新一代信息技术研究和咨询成果的传播和交流，内容涵盖产业互联网、智慧城市、互联网金融、电子商务、大数据、云计算、物联网、移动互联网、智能硬件、社交网络等。