认知机器的结构和激活
李德毅1 ,张天雷2 ,韩威3 ,海丹3 ,鲍泓4 ,高洪波5
1. 清华大学 信息科学技术学院
2. 北京主线科技有限公司
3. 北京中科原动力科技有限公司
4. 北京联合大学 机器人学院
5. 中国科学技术大学 信息科学技术学院
摘要:从物理学的角度理解人类认知已经成为当今人工智能面临的核心挑战。本文分析了计算机通用结构中,孤立计算、忽视记忆和孤立思维、忽视具身的局限性。以驾驶认知为例,提出了包括感知、思维、行为在内的认知机器的通用结构组成。它区别于计算机的架构,也区别于杨立昆的“世界模型”和李飞飞的“空间模型”,增加了记忆组块,用人工智痕元胞作为神经元细胞的镜像,用智痕元胞网络构成思维软构体,实现记忆智能的生成、调控和提取。物质硬构体可采用CPU、DPU、GPU、TPU、FPGA、SSD、搜索引擎等并行处理单元,其系统是分布的、并行的、异构的。一旦加电获得能量,机器就不再是死物质,认知核中的思维软构体和物质硬构体经过一番纠缠,机器被激活。激活后的机器赖负熵为生,进入和物理世界具身交互的认知状态。机器认知像人又不像人,宕机后可再激活,能自主感知、思维、决策和行为,可交互,会学习,自纠错,自成长。该结构既可用于构造数字虚拟机器人,也可用于构造替代人类劳动岗位的、千姿百态具身的机器人,使得人类能够迅速进入人机共生的智能时代。
关键词:认知核;智痕元胞网络;纠缠;记忆智能;具身智能
1.1 从计算机器的结构谈起
随着类脑计算的蓬勃发展,从物理学的角度理解人类认知已经成为当今人工智能面临的核心难题。当今的计算机本质上实现的是机械的、电子的、非生命的计算装置。它是能实证的、可化的,可以用逻辑学的方法证明或者计算,如数值计算、优化计算、符号逻辑、谓词演算、定理证明、概率计算等。早期的冯·诺依曼计算机由CPU(控制单元和运算单元)、内存、外存和输入、输出组成。计算机体系结构更强调构成计算机系统的各个组件的内部结构及其相互关系,以及计算机系统软硬件之间的接口关系。它包括指令集体系结构和微体系结构两个层面,指令集体系结构是思维软构体和物质硬构体之间的界面,定义了处理器可以执行的指令集合(复杂指令集或者精简指令集)、数据类型、寄存器、内存访问方式、输入输出机制等。微体系结构是处理器内部的物理实现,即物质硬构体,它得益于固体物理学的研究成果,尤其是半导体芯片和集成电路技术,包括CPU内部的寄存器、数据路径、控制单元、缓存等组件。计算机体系结构还涉及支持多核处理、众核处理、包括GPU在内的异构处理单元等。这样的物理装置究竟怎么完成人的计算和思维的呢?
图灵和冯·诺依曼都是数学家和物理学家,他们发明的计算机器的结构,可以实现人的计算智能,甚至能够思维,但他们并不是生命科学家。同样,获得诺贝尔奖的著名物理学家薛定谔也不是生命科学家,但他的著作《生命是什么−活细胞的物理学观》,对生物学领域产生了重要影响。生命科学中发现DNA双螺旋结构的科学家,仍然不是生物学家,而是物理学家克拉克、沃森等,他们因此获得诺贝尔生理和医学奖。这就说明物理学对生物学的基础性作用,并诞生出一个十分有价值的交叉研究学科−生物物理学。
本文试图以人类认知为突破口,用“赖负熵为生”的生命观,来解释机器是如何被激活的,以及机器是如何思维和认知的,即认知物理学。用认知来弥合生物学和物理学之间的鸿沟,填补生物认知和机器认知之间、人的智能和人工智能之间“缺失的连接”。
1.2 计算机架构中缺失记忆的形成、调控和提取
机器认知和人的认知一样,存在4种基本模式:记忆驱动的经验模式、知识驱动的推理模式、联想驱动的创造模式以及假说驱动的发现模式。认知依赖记忆,记忆是难以计算的智能,它先于计算、约束计算,无需解释。记忆在这4种基本模式中都发挥着不可或缺的作用。当前情境下发生的动态的、不确定性的记忆提取,常常体现了选择性注意。但是,受图灵“智能的本质就是计算”的局限,传统人工智能只能是计算机智能,体系结构中只有简单的存储,缺失记忆的生成、调控和提取的组织结构。冯·诺依曼架构的计算机,核心是算力和算法,通过程序实现算法,利用算力完成运算,它不可能执行任何未预先编程的活动。而机器认知主要是依靠记忆,计算机中的存储远远不能覆盖记忆的丰富内涵,认知机器需要模拟人脑数百亿神经元和数百万亿突触组成的记忆网络才行。互联网协议的伟大之处在于将应用程序和内容服务环境与底层传输结构的特征分开,互联网搜索技术历经的30多年发展演化和ChatGPT大模型的成功,都证明了一个事实:可以把互联网看成是一个超级记忆网络,无论是根据语法、语义、语境或者语用进行搜索,云计算或者生成式人工智能,是一个类似超级人脑的、动态的、不确定性的记忆网络修剪和提取过程,不同粒度的记忆就是不同尺度抽象了的网络拓扑和表达,是复杂网络的数据挖掘而已。所以,一定要把记忆的形成、调控和提取机制引入到认知机器的架构中去。
1.3 计算机架构中缺失具身交互认知
曾经的计算机是一种开环设计,它根据特定的输入,通过程序运行完成计算,给出输出结果。今年计算、明年计算,在这里计算、在那里计算,结果都一样,不具有空间定位在内的感知能力,不具有时空智能,也没有具身行为动作的存在,只有启动状态和目标状态。要达到目标状态,其解决方案就是一个行动序列,确保机器能够从启动状态最终达到目标状态,只要知道了问题答案就认为是解决了问题。如果在解决计算问题的过程中用户需要干预,则可以通过预设的人机交互界面,用鼠标、键盘、甚至语音等手段“填入”预设规格的相关内容。当然,这类交互技术进步很快,越来越趋于自然。因此,在计算机科学和技术领域,输入输出司空见惯,人机交互耳熟能详,但把持久地和外界环境交互作为一种认知手段,作为智能体的具身智能,却不多见。然而,实体机器一旦具身有了感知、认知和行为能力,能够学习、创作、成长的时候,越来越多的个性化虚拟数字人、千姿百态的实体机器人就可以作为我们的智能代理,替代我们的工作岗位。这时候,思考人和机器关系中的基本问题−具身交互认知,就被提上议事日程了。机器在物理空间表现出的具身交互智能,完全应该也完全可以和认知空间的计算智能媲美,成为新一代认知机器体系结构组成的重要部分,一定不能再缺失了。
图1 机器驾驶脑结构
图2 认知机器中记忆的形成、调控和提取
2.4 可交互、会学习、自成长的认知机器的通用架构
认知机器已经越过了算力、算法和数据3个硬核的阶段。机器中的瞬时记忆组块和短时记忆组块,除了CPU,还可根据需求采用DPU、GPU、TPU、FPGA、SSD、搜索引擎等并行处理单元,而计算组块则可采用CPU和GPU等处理器实现,也有可能采用处理效率更高的3D存算一体化。有的组块里,DPU为核心,CPU围绕DPU转;有的组块里,GPU为核心,CPU围绕GPU转。总之,新架构中的系统架构一定是分布式的、并行的、异构的,甚至是超异构的,只要它们能够和机器的时序整体上合拍,能实时地进行数据交互即可,认知机器的时间精度越高,并行效率越高。
可交互、会学习、自成长这三方面成为认知机器的新硬核,其最基本的特征是能够在与环境的交互过程中学习、纠错和成长,可以接受指导学习和强化学习,也可以自主学习,增强记忆。认知机器的学习和作业,包括先入为主、赋予任务、引导、释疑、解惑、交互认知、监督等有指导的学习。自主学习是把指导学习的结果转为长期记忆的重要环节,例如复习、消化理解、自己纠错。如果简单地把指导学习称为有监督学习,自主学习称为无监督学习,就过于简单化了。一次性学习之后常是短期记忆,间隔性地重复学习有利于形成和巩固长期记忆,重复学习的时间间隔非常重要,充满不确定性,体现自纠错和长期记忆的自成长能力。ChatGPT在训练过程中高薪聘请了“提示工程师”。同理,在认知机器中也需要“指导工程师”。人与机器能有效沟通完成预设任务,人教机器学,机器自主学,机器逐渐地理解人设定的任务目标,其统一的过程可称为使命对齐,精准完成作业,具身体现智能。机器会学习包括3个环节:专家操作,机器学习;机器自动运行,人干预;机器自操控、自学习、自纠错、自成长。这3个环节循环迭代,实现有指导学习、半/弱指导学习、自主学习。可交互、会学习、自成长的认知机器的通用架构如图4所示。
图4 认知机器的通用架构
3.1 激活机器的钥匙:时钟、时序和递归
机器中的软构体是承载或者寄生在硬构体上的,如同人的精神寄生在硬构体之上一样。当然,它也可以寄生在已有的其他软构体上。机器里一定要有一个最基本的时钟,而时钟赖能量为生,时间寄生在时钟上,形成时序。激活机器的钥匙是时钟、时序和递归。认知核中的物质硬构体和思维软构体在加电后的纠缠,表现在时钟、芯片、机器主板、BIOS(basic input output system)和OS在自举状态的递归复用,才让机器“活”起来。作为工具的机器,结构寄生在物质上。要激活机器,需要能量,能量激活时钟,时钟产生节律。如同生命有节律一样,机器利用时钟形成时间和节律,可以在当前的周期内为下一个周期提供一个更新的输入,总是存在下一个周期能够保持思维的连续性,机器思维才能活动起来。创造机器智能这样的人造物扩展人类智能,这是图灵的划时代贡献,堪与牛顿、爱因斯坦媲美,可惜很多人对此认识不足。正是图灵和冯·诺依曼的计算机体系结构设计中的CPU,保证了指令和数据一样存储,指令和数据形式上并无区别。将程序指令存储器和数据存储器合并在一起,顺序执行程序,让机器能够自举。依靠只读存储器中的基本输入输出系统(ROM-BIOS)引导。基本输入输出系统BIOS是一组固化到只读存储器ROM芯片上的程序。在BIOS引导下,机器启动时加载的第一批控制指令,所有后续的物质硬构体和思维软构体,类似于承载生命基因编码的DNA,被称之为机器初始的认知核。这个只读存储器是把结构和时间完全寄生到物质和能量上的客观存在,规定了机器基本的输入输出次序,包括开机后自检程序和系统自启动程序,为机器提供最底层的、最直接的硬件设置和控制,体现了硬构体和软构体之间的纠缠,然后激活操作系统。整个过程是认知核中的硬构体和软构体纠缠的正反馈过程,导致涌现。物质、能量、结构和时间之间的这种纠缠状态,可类比为“薛定谔的猫”,导致新的宏观有序状态,认知就绪,机器从原先的“死物质”变“活”了。
3.2 宕机后的再激活
生命不能重来,机器可以关闭后重启。认知核包含机器具身物质硬构体,如时钟、集成电路芯片、主板等,也包含思维软构体,如机器指令、BIOS和OS等。机器如果没有了能量供给,如断电,便会停止工作;恢复供电后机器又可以再次自举,通过激活操作系统,重新进入认知的工作状态。但是,硅基机器中的物质硬构体不能自繁衍、自成长、自修复,只能被组装、被生产、被修复。硬构体老化了、失灵了,被修复之后可以重启,死活多次。如果有新的硬构体、软构体加进来,只要适配,升级之后,可以提高机器认知的性能。硅基机器可通过认知核更新,完成升级换代。
李德毅,张天雷,韩威,等.认知机器的结构和激活[J].智能系统学报,2024,19(6):1613-1622.
LI Deyi,ZHANG Tianlei,HAN Wei,et al.Structure and activation of cognitive machinesJ].CAAI transactions on intelligent systems,2024,19(6):1613-1622.
顾 问
杨 强院士 前海微众银行、香港科技大学
吴启迪教授 同济大学
吴朝晖院士 浙江大学
沈向洋院士 清华大学
张 旭院士 中国科学院上海分院
张 勤院士 中国科协、清华大学
郑南宁院士 西安交通大学
姚 郁教授 哈尔滨工程大学
赵沁平院士 教育部科技委、北京航空航天大学
高 文院士 北京大学
韩端锋教授 哈尔滨工程大学
主 编
李德毅院士 军事科学院
副 主 编
戴琼海院士 清华大学
郭毅可院士 香港科技大学
徐宗本院士 西安交通大学
陈 杰院士 同济大学
张 军院士 北京理工大学
焦李成院士 西安电子科技大学
唐 杰教授 清华大学
领域编委
马少平教授 清华大学
王国胤教授 重庆邮电大学
王科俊教授 哈尔滨工程大学
方勇纯教授 南开大学
朱小燕教授 清华大学
刘 宏教授 北京大学
孙茂松院士 清华大学
孙富春教授 清华大学
苗夺谦教授 同济大学
周志华院士 南京大学
段海滨教授 北京航空航天大学
徐 波教授 中国科学院自动化研究所
黄铁军教授 北京大学
蒋田仔院士 中国科学院自动化研究所
卷首语、综述、学术论文、人工智能院长论坛、吴文俊人工智能科学技术奖论坛、洞见与碰撞、热点与评论、学会动态等。
卷首语——主要刊登具有突出贡献的两院院士和权威科学家在智能科学领域学科发展和建设、未来趋势研判、科学决策等能够引领学科和社会发展、助力政府科学决策的重要文章。此栏目每期一篇文章,均为约稿,采取快速审稿和出版模式。
吴文俊人工智能科学技术奖论坛——吴文俊人工智能科学技术奖被誉为“中国智能科学技术最高奖”、“人工智能领域皇冠上的明珠”,为盘点中国人工智能领域研究进展,报道最新高水平科研成果,特开设“吴文俊人工智能科学技术奖论坛”专栏,欢迎历届吴文俊人工智能科学技术奖获奖者踊跃投稿。
人工智能院长论坛——围绕“高等学校人工智能创新行动计划”国家战略,特开设“人工智能院长论坛”专栏,主要刊登各高校人工智能学院、研究院所和相关交叉学院的院长、副院长关于我国新一代人工智能领域前沿、引领学科发展和具有重要影响的理论研究、创新技术与应用成果。采取约稿和自由投稿相结合的方式,实行快速审稿模式。
感谢智能科学领域专家多年来对《智能系统学报》的关注和支持,热诚期待各位专家踊跃赐稿。
期刊网址/在线投稿地址
https://tis.hrbeu.edu.cn/
联系我们
长按识别二维码关注我们