赛智产业研究院院长赵刚:人工智能技术发展趋势 ——《人工智能的发展和应用》第二讲
文摘
财经
2024-08-20 12:30
北京
近日,贵州省人大常委会第三十期“人大讲坛”在贵阳举行。赛智产业研究院院长、北京赛智时代信息技术咨询有限公司CEO赵刚博士应邀授课,为各位委员们讲授《人工智能的发展和应用》。基于赵院长深入浅出的演讲内容,我们精心编纂了五篇系列解读文章。本篇文章是第二讲,将重点聚焦于人工智能技术的发展趋势,带领读者一同探索AI技术未来的无限可能。系 | 列 | 文 | 章 | 目 | 录
以下文章是第二讲正文:
一、人工智能是一次颠覆性技术创新
人工智能是全球科技革命和产业变革的前沿技术,正迎来人工智能的奇点即通用人工智能(AGI),接近人类智能水平。人工智能的这个爆发点就是chatGPT大模型,在2022年11月发布以来,一年多时间,大模型技术取得了颠覆性的、指数级的发展,呈现出通用化、多模态化、行业融合化和具身化等新的发展态势和特征。一系列具备通用能力的基础大模型迅速涌现出来,而且逐步从语言大模型扩展到能够文生图、文生视频的多模态大模型。各行各业都通过基础大模型的底座构建起来了不同领域的垂直大模型。通俗的说,基础大模型就像一个什么知识都懂的博士,它把全世界的知识学习一遍。你问他什么,他都懂。在各个领域又出现了一系列的行业垂直大模型,这些不同领域的垂直大模型,就像一个个不同领域的专家一样,比如说医学专家、制造业专家、有色金属专家。你问他这个领域的知识,他都能回答。进一步,在生成这些基础和行业大模型后,把它们嵌入到机器人里,这些机器人就像装上了“大脑”一样,具备了人机交互的很多智能能力。过去,机器人像一个装了“小脑”机器,小脑控制它的行走和平衡。小脑程序给它命令,它按照命令执行动作。比如,在生产线上的工业机器人,程序给它一个个命令,它把零件抓过来、放在合适的位置。工业机器人可以按照控制指令执行动作。机器人今天嵌入了我们的大模型,就像给它装了“大脑”。这个机器可以回答问题,可以做图,写文章,做音乐,可以自己去规划行为路线。现在,有一个新的概念,叫具身智能,就是指大模型的“大脑”嵌入到具身的机器中,使得机器具备了大脑思考、小脑协调以及行为感知等能力,真正成为一个人形机器人。自chatGPT提出以来,人工智能技术演变非常快,又一个摩尔定律出来了,算力、算法等技术发展继续呈现出指数级增长的趋势。我们看几个例子。第一件事,ChatGPT月活用户突破1亿,仅用两个月时间,成为史上用户增长速度最快的消费级应用程序。第二件事,视频生成模型Sora能根据文字提示生成长达1分钟视频,生成内容保持了高度一致性和连续性,被誉为“视频生成领域的GPT-3时刻”。在这一分钟的视频中,输入的文字是“一位时尚女性走在东京的街道上,街道上到处是温暖的霓虹灯和动画城市标志。她身穿黑色皮夹克、红色长裙和黑色靴子,手拿黑色钱包。她戴着太阳镜,涂着红色唇膏。她走起路来自信而随意。街道潮湿而反光,与五颜六色的灯光形成镜面效果。许多行人走来走去”,Sora依据这段提示文字,自动生成了视频,展示了一短视频,在东京,一名美女在街头上行走,刚下过雨,路上的水面上有楼宇的倒影,美女的墨镜中能反射出来楼宇倒影,都非常的清晰。图1:Sora根据文字提示生成长达1分钟视频截图这段视频完全是由算法生成的,没有做任何前期的制作拍摄,就是短短一段文字,Sora视频大模型就自动生成了视频。这将使未来的影视制作有了新的工具和手段!非常伟大!未来,很多影视的前期工作都可以通过视频大模型自动做走样,极大方便影视创作。当然,实际的拍摄还是要有的。第三件事,AI蛋白质结构预测模型AlphaFold3拓展了人类对于生物过程的理解,让科学家能高效看到细胞系统的复杂性,包括分子结构、相互作用和修饰,有望开启更具变革性的生命科学。以前,生物科学家颜宁说,他们以前研究某个蛋白质的结构要花10年,颜宁这样的科学家要花10年。AlphaFold2仅仅用了不到3年时间就已经成功预测了数亿个蛋白质结构,几乎覆盖了地球上所有已知的蛋白质,以当前结构生物学实验进度,完成这一工作量可能需要耗费十亿年时间。AlphaFold3做蛋白质结构预测,生成蛋白质、核酸(DNA/RNA)和更小分子的3D结构,并揭示它们如何组合在一起,仅仅需要十分钟时间。算法模型实现了对整个生物科学领域的颠覆式创新。在新材料领域,大模型也发挥了巨大创新引领作用,产生了巨大的颠覆性影响。第四件事,自动驾驶L4级技术正逐步走向成熟,带来出行方式的深刻变革。现在的自动驾驶水平达到了L4级,自动驾驶事实上已经走向成熟。百度的萝卜快跑已经在武汉街头跑,北京经开区的高级别自动驾驶示范区,自动驾驶汽车也在路上跑。当然,它还需要一个逐步成熟的过程,但未来自动驾驶将深刻改变我们的出行方式。今天,类脑智能、脑机接口、通用智能体、具身智能、可解释智能等新业态、新模式正在跨界融合中孕育而生,不断涌现出来。人的生物智能和数字智能结合,称为类脑智能。脑机接口则把数字芯片等嵌入人脑中,采集人脑的信号,并通过脑信号来控制动作,帮助运动控制障碍的人恢复运动能力。人工智能软件,叫数字人、agent或者通用智能体。前面说的具身智能以及可解释智能等新业态在不断涌现。同时,计算机科学、神经科学、认知科学、数据科学、意识科学等基础学科交叉融合,将带动人工智能和意识的新发现。在这两三年内,前沿基础理论快速发展,相互融合,在《自然》等发表的文章,最多的就是这些领域的相互结合的科研成果。包括意识科学,科学家在研究未来人工智能会不会具有自我意识?计算机科学家辛顿(Geoffrey Hinton)发明了深度学习算法,他说,数字智能优于生物智能的进程无法避免,超级智能很快就会到来。这只不过是个时间问题,到底是5年、10年还是30年?AI技术发展有一个演进的过程,演进速度确实是指数级迭代。
图3:人工智能技术创新的三个驱动力
第一个是算力。当前的人工智能大模型,实际上是依靠神经网络模型,通过算力“大力出奇迹”。大量的并行计算芯片,也称为图形处理器(GPU)芯片,集中在智能算力中心,形成万卡集群。这些芯片一起进行并行的海量计算,训练出大模型的智能。就像电厂一样,算力支持的算法不断去学习训练数据,进行推理计算,产生了智能。第二个是算法。就是我刚才说的人工智能算法的技术路线,连接主义的算法,深度学习、大模型算法。这三个驱动力,“大算力+大算法+大数据”,共同形成了人工智能大模型的发展。大模型算法的基础就是神经网络算法,再早的基础就是模拟的人的神经元模型。神经元是人类大脑和神经系统的基本单位,每个神经元都能够输入和输出信号,负责输出信号的叫轴突,负责输入信号的叫树突。每个神经元上有几千个树突,负责去采集信息和输入信号,由这个轴图负责输出信号,就构成了这样的一个神经元。人的大脑皮层上大概有850亿个神经元,而每个神经元就是通过树突和轴突之间这种相互连接、信息交互,形成了一个巨大的神经网络。1943,美国科学家Warren McCullough 和 Walter Pitts首次提出了神经网络数学模型(M-P模型)。1957年,美国科学家Frank Rosenblatt首次提出单层感知器人工神经网络模型,如图。感知器是具有单层计算单元的神经网络,它基于M-P模型的结构,在输入和输出两层神经元之间建立了简单连接,能够学习并解决线性问题的分类。左边是输入x1、x2、…、xn,右边变成了权重参数定义的o1、o2、…、om输出,就像神经元,多个树突的输入,产生轴突的输出,形成了一个简单连接,就解决了分类的问题。通过权重参数去配置输入输出关系,合适的权重决定正确的输出。把这个权重叫做参数,我们说,人工智能大部分是万亿参数,就说这些权重值。实际上,在算法学习的过程中,在做特征分类的时候,给算法不同的权重赋值,最后算法能学习到一件事情,就形成了一套权重参数,有了这套参数,算法就学会分辨黑猫和白猫。这是神经网络算法的基本原理。大家理解了这一点,就会理解深度学习和大模型算法。算法在做分类的时候,让神经网络去学习,算法实际上学习领会到的就是不同的输入参数,形成了对特征的提取。例如,为了让机器学习算法做男女分类,给机器输入的很多组数据,如“身高1米8、发长1.4cm、抽烟” “身高1米75、发长1.3cm、抽烟”等,这是一组输入数据,通过这组数据,我提取出一个男性的特征,“身高高、头发短、抽烟”。给这个特征赋予参数,我就能够通过这个有参数的算法,去推理其他数据,识别分类出很多具有类似特征的人。同样,另外一组数据,如“身高1米66、发长15.3cm、不抽烟” “身高1米63、发长14.3cm、不抽烟”等,我能提取出一个女性的特征,“身高矮、头发长、不抽烟”。通过这些特征提取,算法就知道一组人的数据中,哪些人是男性,哪些人是女性。基本的原理就是这样。当然,你会发现,现实中的分类问题更加复杂,比如,现在留长头发的男生也越来越多,吸烟的女生也很多。我们就需要更复杂的算法和更多的参数来进行男女分类。这还是简单的男女分类。面对大千世界,林林总总的知识,机器学习就更加复杂。我们讲讲深度学习算法。人类大脑在处理信息的时候,大脑皮层实际上是分层的。比如视觉的形成,在大脑皮层的低层次上处理像素,形成图形特征,进一步在大脑皮层的较高层次上进行特征分析。这是一个升维的过程。在更高层次上,形成一个图像。大脑皮层上,不同层次的神经网络,分工处理不同维度的信息,从像素、到特征、到完整的图像。所以,人脑的视觉皮层,神经元之间是通过分层神经网络模型,最终构成对复杂事物的视觉识别和理解水平。计算机科学家就按照这个模型,进一步把神经网络模型进行分层,通过不同层次来解决不同阶段的问题,最终形成更复杂结果的识别能力。过去的单层或浅层神经网络只能解决小的分类问题,分层以后,算法就能解决更复杂的专业领域的问题。2006年,辛顿在《科学》杂志上发表了文章,他建立了一个多层的分层神经网络,称为深度学习网络。多隐层的深度学习神经网络具有更强的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类。深度学习网络在著名的ImageNet问题上,将错误率从26%降低到了15%,并且输入没有用到其他任何人工特征,仅仅是图像的像素。这使得图像识别达到了应用成熟期。过去,门禁系统的图像识别是很差的,基本上是很难通过。现在,门禁的图像识别为什么这么容易通过?就是深度学习算法的贡献,它看到你的图像,基本能完成比对和识别。各种神经网络算法不断优化,在这个过程中,又涌现出很多深度学习算法,如卷积神经网络(CNN)、Transformer等,形成了完整的深度学习框架。例如,为了使算法的学习能力更强,研发了强化学习算法,比如AlphaGo。通俗的说,就是小红花算法。算法要是识别的好,就给你个奖励;识别的不好,就给你惩罚。结合深度学习和强化学习,算法的性能就得到进一步提升,这为人工智能大模型的诞生奠定了基础。大模型是在深度学习算法上发展出来的。大模型如何在短时间内进化出如此强大的智能?生成式预训练转化模型(GPT)功不可没。chatGPT,chat是聊天,后面GPT是算法,G代表生成式,P代表预训练,T代表转化算法Transformer。Transformer是这场AI革命的核心算法,是谷歌科学家在2017年提出的新型深度学习架构。在transformer出现之前,人工智能对人类语言的理解相当有限。在AI眼中,语言是由一个个独立的词语组成,而每个词又可以根据语义被表述为一串拥有超多维度的数字,这些数字就像地图上的坐标,能准确标定出每一个词语在空间中的位置。而大语言模型的训练就是让AI在学习海量真实语料的过程中,不断调整词语排布,让关联强的相互靠近,最终得到一幅最优的语言地图。Ai想要生成新内容,就只需要按图索骥,一个接一个串联起身边词即可。但此时的AI还是一个高度近视眼,由于只能看到最近的词,它无法对句子形成整体概念,因此它经常给出一些离谱的回答。而transformer的开创性,就在于它为AI打开了一个全局视角,让AI能够通览整篇文本,理解语境,捕捉前文关键词。自注意力机制是Transformer模型的核心,它允许模型在处理序列(如文本)等时,同时考虑序列中的所有位置,这样做的好处是能够捕捉序列中任意两个位置之间的依赖关系,无论它们之间的距离有多远,也就是说transformer具备长距离特征捕获能力。这是对深度学习算法的进一步发展。之前的深度学习算法(如CNN、RNN等),基于“针对特定任务的专用模型+大量标注数据”的方式,在监督学习机制下,训练出领域专用的小模型。Transformer则具有具备更多参数规模,实现了更强的语义特征提取能力和长距离特征捕获能力等。谷歌等公司进一步建立了自然语言理解任务中的基准模型BERT(基于Transformer的双向编码器表示),它是一个预训练语言模型,它基于海量无标注数据,在自监督学习机制下获得预训练语言模型。BERT利用大量文本数据进行预训练,通过深度双向模型(即同时考虑文本左侧和右侧的上下文)来预训练,通过少量标注数据微调后得到领域专用模型。至此,大模型拥有了对语篇的理解能力,以及生成复杂连贯文本的能力,AI迈入了一个新纪元。从神经网络模型到分层的神经网络模型、到深度学习模型、再到transformer、BERT模型,到最后的GPT模型、chatGPT模型, 从专用领域的算法变成了基础大模型。它能够理解我们各行各业的语言、知识。对语言基础大模型进一步改造,就形成了文生图的大模型、文身视频的大模型,这称为多模态大模型。上图是大模型技术的演进过程。2017年6月,transformer模型发布。2018年6月,openAI的1.17亿参数的GPT-1发布。同年10月,1.3亿参数的BERT算法发布。2019年,15亿参数的GPT-2发布,上下文学习(In-context learning)能力开始引起关注,内容生成能力进一步提升。2020年5月,1750亿参数的GPT-3发布,具备更强大的语言生成能力。2022年1月,Instruct GPT发布,引入人力反馈的强化学习算法。2022年11月,chatGPT上线,引发业界轰动。同年12月,文生图模型Diffusion发布。2023年4月,GPT-4发布,模型能力进一步提升。同时,Sora和GPT-4o多模态大模型发布。大模型正以指数级迭代速度迈向万亿参数时代,规模还在不断的发展。最强的大模型就来自openAI、谷歌、Meta、百度、华为等公司,以及一些大模型创业公司如Anthropic、智谱等。至此,大模型具备了语言理解、图像生成、视频生成等完整的大模型技术能力。另一件奇妙的事情发生了!一直以来,我们都知道智能是神经元相互连接的产物,人脑约860亿个神经元的相互通讯,形成一个复杂的连接网络,构成了人类思考、创造等高级认知功能的基础,AI也是如此。随着训练参数规模的不断扩大,当这个数字来到百亿左右时,一些小模型根本不具备的能力就忽然出现了。现在,基于相似的底层架构,大模型正快速泛化到更多的场景,比如使用压缩后视频素材的时空化训练而形成的大模型Sora,已经能够在理解动作转场和部分物理规律的基础上,形成逼真流畅的视频。谷歌的基础世界模型Genie,则能够仅靠一张图片就生成一个交互式二维世界。一扇通往知识创新与艺术新纪元的大门正在开启。人工智能不仅重塑着我们创造与交流的方式,也在悄然间编织着一个更加个性化互联的世界。在大模型算法的背后,不是传统的数据中心。这些神经网络算法的计算,靠的不是传统的CPU芯片,而是GPU(图形处理器)芯片,采用并行架构的进行计算。这个GPU芯片是由美国企业英伟达送垄断,英伟达2023年一度达到了全球市值最大的公司。一台装载GPU的人工智能服务器能卖到几百万。一台服务器里大概是8张卡,一张卡就要几十万。所有这些GPU卡,目前美国是严禁给中国进口的。中国AI企业很难从正规渠道买到智能算力的GPU芯片。当然,中国的GPU企业也在异军突起,华为昇腾生产的910A芯片就是国产GPU芯片。华为通过多卡联合、万卡集群也能接近英伟达GPU中低端算力的水平,逐步解决我们的“卡脖子“问题。智能算力芯片还有其他的技术路线,包括FPGA、AISC等不同技术架构,解决不同应用场景的智能算力需求。但是,在人工智能大模型训练这个角度,最好的芯片就是GPU芯片。其他技术架构下的芯片可能用于推理,用于其他的一些计算场景,比如说具身智能的这个小场景下的芯片需求。大模型训练主要是GPU芯片,GPU算力芯片构成的数据中心称为智能算力中心。一台服务器8张卡,1250台服务器就是一个万卡集群。现在的万亿级、千亿级参数的大模型训练,通常需要的算力大概需要1万卡。一张卡的算力大概有150-300Gflops,1万张卡集群就有约3000Pflops的算力。现在很多地区,提出来要建E级智能算力中心。这是什么概念?就是1000 P以上的算力。算力中心分为三种算力,一种叫通用算力,就是传统数据中心,一种叫智能算力,就是刚才说的GPU芯片为主的智能算力中心,还有一种算力叫超级计算算力,也叫超算,主要是面向科学计算的算力。智能算力中心是算力中心中最核心的支撑力量,也是未来人工智能发展的数字底座,大模型、具身智能的基础底座,就像我们需要电厂发电一样,人工智能发展需要智能算力中心。算力中心的趋势是向智能算力中心的发展。 五、人工智能数据发展
大模型的训练是基于海量的高质量数据集,基于这些标注的或未标注的数据集先进行预训练,在预训练的基础上进一步的去学习,让大模型具备智能。在GPT3大模型训练中,很多都是利用开放数据进行训练的,包括CommonCrawl(开源网络爬虫数据库)、WebText2、Books1、Books2 和 Wikipedia等,就是海外的各种开源爬虫数据库、网络数据、开放的书、论文期刊、维基百科等,通过这些开放的知识去学习。大模型能学到的数据,基本上是来自网上公开的一些数据和公开的图书、出版物、期刊等。大模型训练越来越多的时候,很多开放的数据集也在考虑收费。公开的数据集是大模型训练推理非常重要的一个来源,专业和行业数据集需要向市场采购。国家大数据综合试验区建立了数据流通交易场所,未来真正的市场可能就是来自于大模型企业对数据的购买需求。很多深度学习、大模型训练都需要海量的各种专业领域数据。没数据就学不到这些知识。很多政府内部的公共数据、行业数据,实际上大模型是得不到的。在工厂用大模型,大模型肯定要去学工厂的相关数据。未来,高质量数据集建设也是人工智能发展非常重要的方面。数据集也不是马上就能被大模型所用,很多监督学习的算法还需要对这些数据进行标注。数据标注是要告诉算法,这些数据是什么数据,比如,这个图片是猫的图片,是白猫还是黑猫,有什么特征。就把这些特征标注好了,机器大模型才能去更高效学习,才能训练好模型。数据标注也是数据产业中非常重要的一个业态,有个美国公司叫Scale.AI,他的创始人是个华裔,是openAI创始人奥特曼的好朋友。这家公司从事数据标注,做出了一个几十亿美金市值的公司。数据标注对AI也是非常重要的,随着大模型的发展,数据标注也越来越变成自动化标注了。由人工智能自动生成的数据叫合成数据,合成数据也可以用于人工智能大模型训练。但有一个问题,最近《自然》上有篇文章是关于合成数据的,作者认为合成数据训练出大模型智能会降低。人工智能算法合成的数据,是“假”数据,不是以事实为依据的,比如这些都是人工智能生成的图片,这些人没有在世界上存在过,但这些数据可以被用于算法训练。算法在学习合成数据以后,对世界的把握会越来越越不精准。就是说,拿合成数据让它学习,它越学越糊涂,最后反而理解能力下降了。所以这也是一个问题。这是人工智能的发展趋势,大算力、大数据、大算法,这部分技术深度大,我试图用通俗语言去讲,但是有些方面确实还是比较技术化一点,难于理解。- 未完待续,本篇文章为第二讲,敬请持续关注后续文章。
注:本文系赛智产业研究院原创文章,如转载请标明出处。
北京赛智时代信息技术咨询有限公司(简称赛智时代)是国内知名的数字经济等新兴产业的咨询规划、大数据分析和产业生态体系建设的创新型公司。业务范围涵盖了智库咨询、数据服务、软件平台以及会议培训等方面。其中智库咨询服务依托于赛智产业研究院丰富的行业资源和高端专业化人才等竞争优势,面向政府、园区和企业,提供发展战略与规划、政策研究、招商引资策略研究、智慧城市规划、运营模式研究等现代咨询服务。研究领域涵盖大数据、人工智能、区块链、5G、战略性新兴产业等行业领域。饮鹿网(Innov100)是赛智时代旗下的产业创新创投数据平台,覆盖新兴产业近20万创新型企业,为客户提供创业孵化、投融资等服务。赛智区块链(北京)技术有限公司简称(赛智区块链),是一家专注于企业级大数据区块链产品与应用服务的高科技企业。 公司地址:北京市朝阳区大屯里317号金泉时代广场三单元2216北京市数字经济战略研究
北京市数据要素市场促进服务(北京市新型数据交易规则体系设计)
北京数据先行区关键机制创建服务
贵州省加速构建数据要素市场培育新兴产业课题研究
国家大数据(贵州)综合试验区实施方案
中国数据服务产业图谱研究
内蒙古自治区大数据中心数据要素市场化规划咨询
保定市数据服务产业发展规划编制
朝阳数据要素市场发展研究
丰台区数字经济倍增发展路径研究
北京市大数据立法数据支撑服务
北京市智慧城市建设协调推进项目
中国算力网络发展研究白皮书
重庆两江新区数字经济发展规划
贵阳市大数据五大新领域(人工智能、量子信息、区块链、物联网、5G移动网络)产业规划
南宁市元宇宙产业创新发展研究
贵阳市数字经济产业招商引资项目评估
智能贵州发展规划
贵州省大数据新领域产业发展指南
北京市大数据应用发展报告
天津市大数据应用场景建设计划
贵州省大数据战略行动计划编制
贵州省“十三五”以大数据为引领的电子信息产业发展规划
丽水市城市大脑开发建设研究
贵阳市新基建“十四五”发展规划
中国数谷顶层设计方案
贵阳市数博大道产业规划
贵阳区块链发展白皮书
贵阳市大数据发展“十三五”规划
贵阳市数字经济发展规划
观山湖区呼叫中心产业园规划
济南新型智慧城市规划
南宁大数据建设工程规划
航天科技车联网产业商业模式研究
阿里云数智化敏捷组织:云钉一体驱动组织转型研究
百度区块链研究项目
实创集团智慧城市业务战略规划
云上贵州集团业务战略规划
饮鹿网精准招商大数据云(平台)是赛智产业研究院联合饮鹿网开发的针对产业招商的最新产品。涵盖大数据、人工智能、区块链、5G、智慧城市、 工业互联网等 30 多个领域,为招商部门、产业主管部门、园区管委会和产业地产提供大品牌招商、产业筛选招商、产业生态链招商、重点产品招商、资本注入式招商、区域一体化协同招商、原籍创业人才招商等招商数据分析服务。
政府提供新兴产业的产业链、企业、技术、投资等数据分析服务的平台,主要为各地发改部门、工信部门、产业分管领导提供产业仪表盘、产业链分析、产业地图、产业发展要素分析、产业政策、产业洞察等产业数据分析服务。
服务于创业投资领域,为母基金、头部投资机构、地方政府产业基金或引导基金提供绩效考核的专业化平台,主要提供投资数据(投融资仪表盘:与投资趋势洞察融合)、投资绩效分析(投资绩效分析、融资日报、投资机构百强、投资人百强)、项目分析(重点项目、产业链投资、细分图谱投资)、投资布局(投资地图)、投资要素分析、投资管理等服务。