导语 9月21日至22日,以“人工智能与未来世界”为主题的华南理工大学公共政策研究院(简称“IPP”)第十一届国际会议在广州南沙召开。 在会议主旨演讲环节,2019年吴文俊人工智能自然科学奖得主、香港中文大学(深圳)荣休讲座教授黄铠在会上发表了题为“升级人工智能与机器人具身生态:激活数字经济与智能医疗服务”的主旨演讲。 黄铠教授在演讲中指出,人工智能作为人类文明与科技进步的重要推动力,正在深刻重塑经济、社会和人类生活的方方面面。他从多模态大语言模型、具身智能、数字经济和AI基础设施等多个维度,剖析了AI的最新进展与未来应用前景,强调了人工智能在医疗、教育、自动驾驶等领域的广泛潜力。同时,他也指出,AI的快速发展伴随的社会风险不容忽视,呼吁各界做好迎接完全自动化世界的准备。
大家上午好!感谢大会主办方的邀请,我想和大家分享目前人工智能领域最新进展的个人观察和经验。
我们知道,“人工智能”并非由自然方式生成,而是以人力打造出来的一种智慧能力形态。我们现在身处的AI时代,整个经济、社会与文明的发展都发生了翻天覆地的变化。今天我与各位交流的观点,主要来自于我多年在计算机科学与人工智能方面的教学经验与研究成果的积累。也希望各界同行专家指教。
现在我们身处AI时代,其内涵包括三大进步特征:
首先是人类文明累积的知识、数据、信息逐渐被数字化了。
我们过去使用的是模拟信号,例如电话,传输的都是模拟信号,但现在已经转为数字形式了,电影、音乐等所有内容也都已经数字化了。另一个重要的发展就是通用人工智能(AGI)与具身机器人的开发。
数字经济在未来发展中有特定性的趋势。
首先是商业模式的数字化。此外,从原来单纯提供服务到提供实际体验,我们也看到了工业或产业生态系统的崛起。
此外还有AR/VR:增强现实和虚拟现实,这意味着我们可以在网络空间中以数字化方式感受现实,通过增强或全虚拟的方式。
人工智能与虚拟现实(VR)、增强现实(AR)、混合现实(MR)等技术结合,搭建起全方位、多感官、多维度的传播场景,为沉浸式体验增添智能维度。
另一个重要方面就是网络与信息安全的问题。
在网络时代,我们通过不同的方式实现万物互联,包括蜂窝电信网络(如5G和6G)、物联网(IoT),以及各种形式的边缘设备和边缘终端。内容产业(Content Industry),包括报纸、视频、电影等等,这些产业其实都需要和数据打交道。目前,大数据、云计算、物联网与智能数据中心都是人工智能不可或缺的组成部分。
在我于2018年加入香港中文大学(深圳)之前,我在英美出版了两本高校教科书,与今天的报告有密切关系,供各位参考。第一本书介绍“云计算系统结构与AI应用”,由MIT Press于2017年出版;第二本书是关于“大数据分析在云计算、物联网与认知科学”的,由Wiley出版社于2018年出版。中文版由机械工业出版社发行。
在我进入主题之前, 我总结一下AI领域进来的一些进展。
下面这个曲线图(表一)是来自斯坦福大学2024年《人工智能指数报告》。这个报告比较了9类我们人类与AI机器都需要时常执行的智能任务。列表如下:
图的最上方100%横线代表人类的智能水平。其他9条曲线是10年来AI机器的性能表现。
譬如在图像识别(ImageNet Top-5)分类上,2012年机器只能达到人类水平的90%。但是从2015年开始,机器在图像识别的能力已经超越人类。到了2019年,有3类任务(ImageNet Top-5、VCR、SuperGLUE)的准确率比人类要高5%。
到2023年,AI在6种任务上已经达到人类水平。其他3个比较难开发的任务(MMLU、SquAD 2.0、MATH),在5年内分别从55%、40%、10%进展到95%、100%与90%的水平,这相当不容易。
在很多感知任务上,机器已经超过人类,但是在许多认知任务中,人类还是比机器聪明多了。近年来,AI在追赶人类智能方面达到了惊人的水平,但目前,AI在普及性应用、建立意识、情绪管理与创新发明等方面仍然与人类有很大差距。
斯坦福大学的李飞飞教授组建了一家初创公司,他们主要开发的是“空间智能”(Space Intelligence),为通用人工智能(AGI)与具身机器人的应用铺路。
还有其他几种任务,AI也已经超越了人类的水平。譬如在英文语言理解方面,AI已经实现了超越。然而,机器在其他智能方面与人类差距很大。2021年,差距最大的是竞赛级数学推理。机器正在快速追赶人类的IQ智力水平。高智商的人类能够达到140,许多人认为5年内AI机器能够达到人类的IQ水平。
OpenAI在chatgpt-o1的发布会上表示,其可在博士级别的科学问答环节上超越人类专家。
我们为了支撑AI,需要用大量的GPU集群(图形处理器)。GPU是一个矢量计算单元,需要使用大量的GPU才能在今天的大数据库中进行运算,而且这些GPU价值不菲。
英伟达公司生产的GPU是最先进的,每一片H100的GPU芯片价值一万美元。马斯克刚刚打造了一个大型计算集群,不惜投下了40亿美元巨资。中国也在积极布局建设,世界上所有国家都在尝试发展这样的(芯片制造)能力。
机器人领域也取得了不错的进展,未来会发展得更好。华为的工程师告诉我,如果走进未来的现代化制造工厂,不会看到太多人类工人在上班,每天看到的都是成百上千的机器人,而你的同事就是这些机器人。
人与机器人的交互也非常重要,如果你对这些机器人不太友善,它们甚至可能会反过来伤害你。
黄铠教授演讲现场座无虚席
有一个真实的故事,之前有一个工人和机器人一起上班工作,结果机器人拿着锐器刺伤了工人的手掌。机器人也有不同类型,有两足机器人、四足机器人,甚至多足机器人,就像昆虫蜈蚣一样。我们有用于不同目的的各种各样的机器人,比如工业机器人和家庭助理机器人。未来的汽车也是车形机器人,能够满足我们未来的出行需求。
现在我们用的是5G通信网络,展望2030年,我们会进入6G时代。什么是6G?现在5G信号是从基站传出来的,但全球地表面积只有1/3是陆地,其他都是海洋。
不能把基站建在海里面来传输信号,这也就意味着世界上大部分地区其实没有信号覆盖。进入6G时代,通过“星链计划”,我们可以实现全球通信信号覆盖。中国也在发展6G星链通信用近地卫星(LEO),离地表约500公里。
马斯克计划在近地轨道部署4万个卫星,它们通过不同的轨道运行。目前来看,SpaceX星链有72条轨道,未来轨道数量会进一步增加。
在部署基站时,包括地面基站、水上基站、近地轨道基站和太空卫星基站,同时天空中还会有飞行机器人,因此涵盖了海、陆、天、空四种。主要的应用包括自动驾驶汽车、医疗健康和智能制造。
今天的人工智能有非常强的感知能力,有时候会超越人类。AI系统和机器人系统可以有成百上千个“眼睛”,他们也可以安装很多摄像头,所以感知是人工智能的先决条件。从认知科学的角度来说,AI具备感知和识别能力,值得应用于和平维稳、社会发展、医疗卫生等方面。
ChatGPT从本质上来说就是一个大型神经语言模型,通过大数据进行训练,这些训练数据可以来自于书籍、各类网站、教科书、政府档案资料,这些都属于训练数据,它们可以输入到系统中,这个过程叫做令牌化。
也就是说,所有语言文件包括音频、视频数据都可以矢量化,变成一个令牌,这样的矢量化信息可以导入系统来训练模型,我们把所有不同的参数赋予不同的权重,从而生成新的文字、文件、视频等。
生成式AI是基于概率与注意力的方法,比如说要生成“我爱你”这个句子,这三个字是一个一个生成的。输入“我”之后,这个系统就会搜索下一个可能生成的字,它并不是列举所有文字,而是通过注意力机制进行概率搜索,这样的搜索速度会大大加快。将令牌矢量输入到云,在云上面生成并通过ChatGPT输出。
大语言模型可以是大模型或小模型,可以是公有模型或私有模型。它可以用作基础模型,也可以用作教学模型或对话模型,还可以通过原型调教专业模型,这里列出了一些例子。
第一例是OpenAI公司,他们是ChatGPT的创造者。GPT-1和GPT-2是开放的,后来OpenAI决定私有化,相当于微软用100亿美元买断并将其商业化。
我想提一下GPT衍生的Codex模型,它用于编写计算机程序。我们给计算机一个具体算法要求,用提示语或者一些算法名字,或者说所要达到的目标,Codex可以写出一套代码。从这个意义上来说,将来软件程序员的工作也将岌岌可危。
Meta源自Facebook,它已经建立起各种不同类型的大模型。谷歌的大模型将在医疗应用方面进行讨论。
GPT能看、能听、能讲,能够写文件,生成图形。甚至我们教授这一职业也面临挑战,通过令牌化的技术,学生其实都不用上你的课,也不用再买你的书,用AI就可以了。
GPT最新的发展是视频生成模型Sora。OpenAI的一个13人的团队开发了Sora,他们将传统文本格式与数字影像、视频、音频结合在一起,形成多模态。如果你要设计广告、海报或拍电影,Sora会成为一个强大的工具。它结合了实体图像和虚拟图像,也可以绘制漫画。Sora将改变整个内容产业。
OpenAI官网发布的Sora生成视频图像显示,一辆汽车行驶在盘山公路上。
下面我们谈具身人工智能技术层面的问题。具身AI实际上就是希望能实现网络世界和实体世界的耦合对接,AI是在不同的空间维度中开发的。我们建立的人工智能模型可能和我们所处的物理世界还有很大差距,所以我们希望把这两个世界对接起来。
举个例子,比如说你有一辆无人驾驶汽车,这辆车加装了许多感应器与智能软件,必须要能够识别周围的路况。
马斯克和他的研发团队开发了一个具身AI系统,他们每天都收集全球大量的交通数据,来源于自动驾驶汽车周围的路况信息。他们用这些数据来训练软件,让软件能够辨别具体的情况。
例如,当车在行驶过程中突然遇到有车切线怎么办?肯定要制动或者迅速刹车,因此,必须收集相关背景和实体条件来训练软件。目前,他们已经收集了25万亿路况数据,而且每天都在增加,数据主要来自美国和欧洲,中国收集的路况数据有限。
下图说明如何实现具身AI系统。虚拟环境(Virtual space)由许多具身代理人(Embodied Agents)组成,建立在多态大语言模型(MLLMs)中。具身的脑世界(WMs)组成物理空间。
这个Alignment需要应用许多physical law 与安全检查建立Human value与casualty learning机制。详情见原文:“Aligning Cyber Space with Physical World: A Comprehensive Survey on Embeded AI”。
关于脑机接口。我有一个博士生现在在广州大学执教,我们写了一篇论文,在《Nature》上发表。这篇论文提到一个“GGN”(生成式图神经网络),可以诊断各种脑部疾病,包括阿尔茨海默症、抑郁症和癫痫。我们测量的是脑电波,并建立了GGN生成式图神经网络和不同的模型,我们的表现非常不错,准确率超过了90%。
这里我不具体讲,大家可以看到中国也有很多公司将人工智能技术应用于病人的诊断和治疗上,比如百度、腾讯和商汤科技。
谷歌打造了Med-PaLM,它是专门用于医疗的大模型应用,通过不同的医学模式和知识获取信息,比如乳腺癌的信息。这些信息通过转换被放入Gemini,这是谷歌推出的多模三维模型,涵盖了各种生物证据和数据,可以通过这一模型在医疗卫生领域为诊疗等提供帮助。
谈谈实现基础设施和生态系统对于AI发展的必要性。下图的每一个亮点都代表一个软件工具包,这里集合了大概300多个软件工具包。英伟达是一家非常知名的企业,其2024年市值一度达到3万亿美元。他们聚合了很多不同的软件和应用程序,把它称为“全能宇宙(Omniverse)”。
譬如,手机里有很多应用程序广泛应用于各个行业,如电商、数字化经济和教育等,供每个人使用。各行各业都可以找到相应的用途。这形成了一个软件环境,如果没有这些生态系统,人们很难在数字化的世界里有所建树。
Omniverse通过集成人工智能、大规模并行计算和高精度物理仿真,为各种行业提供了一个共享的虚拟环境。图源:演讲嘉宾PPT
我认为未来十年会有许多无人驾驶汽车出现。Tesla的Robotaxi(机器出租车),自动驾驶软件是FSD,机器出租车可以帮你赚钱,这将成为现实。医疗大模型建设适用于患者、医护人员以及机构企业,可用于健康管理、辅助医疗信息和医药企业相关事务,这些领域都是未来可圈可点的发展方向。
人工智能也有其负面因素,很多人可能会因此失业。中国的快递小哥有8000万之多,出租车司机也可能会因此大批失业,最糟糕的情况是教授们的用武之地也在减少。所以请大家一定要为一个完全自动化的未来世界做好准备。
数字经济需要不同的技术融合在一起,包括社交网络、移动技术、分析技术、云技术以及物联网。 医疗卫生是一个重要的应用领域,还有许多科研领域需要开发。
这6年我在深中大培养了五名博士生。人工智能,机器学习,与云计算是他们博士论文的主要方向。其中三位已进入高校工作,另两位毕业生还在找工作,有职位开放的大学或工业界可与我联络。
往期推荐
郑永年:AI假装是人类,中美怎么办?|IPP国际会议
蒋余浩:中国人工智能创新发展路径研究——基于“非线性创新观”的探索
IPP国际会议|元桥一之:人工智能会取代人类的思维能力吗?
关于IPP
华南理工大学公共政策研究院(IPP)是一个独立、非营利性的知识创新与公共政策研究平台。IPP围绕中国的体制改革、社会政策、中国话语权与国际关系等开展一系列的研究工作,并在此基础上形成知识创新和政策咨询协调发展的良好格局。IPP的愿景是打造开放式的知识创新和政策研究平台,成为领先世界的中国智库。