新一轮AI浪潮之技术溯源 | CCCF精选

学术 2024-11-16 13:55 浙江

新一轮人工智能（AI）技术浪潮已来，从深度学习到预训练大模型，正在影响整个世界的前进步伐，甚至今年的诺贝尔物理学奖与化学奖都前所未有地授予AI领域。众所周知，算法、数据、算力被誉为推动本轮AI浪潮的“三驾马车”，本文旨在溯源这三驾马车是如何推动这一轮AI浪潮的。

算法：深度神经网络

杰弗里·辛顿(Geoffrey Hinton)教授一生笃信人工神经网络。不管人工神经网络是热还是冷，也不管外界如何反应，他都从没有放弃过人工神经网络，甚至可以说从未更换过研究方向。幸运的是，他的坚持打动了一批有识之士，得到一批“伯乐”的认可。也许，这些“伯乐”似乎根本不在乎辛顿教授最终是否取得重大成果，仅仅因为他的这份坚持而被感动。

2004年，转入多伦多大学的辛顿教授得到加拿大高等研究院（CIFAR）一笔5年共250万美元的经费资助，开展神经计算和自适应感知(Neural Computation and Adaptive Perception, NCAP)项目。2006年，辛顿团队先后在《神经计算》(Neural Computation)期刊和《科学》(Science)杂志上发表了两篇关于深度神经网络的论文。

然而，很多开创性工作的价值往往在一开始并不能被人们认识，哪怕是同一领域的学术同行也未必都认同新技术路线。即使是发表在《科学》这样的顶级学术刊物上，辛顿团队关于深度神经网络的工作在发表后，关注者也是寥寥无几。例如Reducing the dimensionality of data with neural networks这篇论文，2007~2010年期间每年引用次数仅为100次左右，而2019~2021年期间每年引用次数则跃升至2600次左右（见图1），提升了20多倍。今天，这两篇论文当之无愧地被认为是深度学习领域的里程碑之作，开启了新一轮AI浪潮的新篇章。今年，辛顿教授因为在人工神经网络领域的卓越贡献而荣获诺贝尔物理学奖，但谁能想到他的一些开创性论文也曾被如此冷落。

图1 辛顿团队于2006年发表在《科学》的论文引用情况

数据：ImageNet

2005年，李飞飞从加州理工学院博士毕业，她的博士工作主要是实现了一个面向计算机视觉研究的数据集Caltech 101。这个数据集共包含了101类、9146张标注好的图片，每一类有40~800张图片，可用于评估和设计计算机视觉识别算法。博士毕业后，李飞飞加入了伊利诺伊大学厄巴纳-香槟分校（UIUC）担任助理教授，那时她开始反复思考一些新问题：更大的数据集对计算机视觉会产生什么影响？如何产生更大的数据集？……

2006年，李飞飞转到普林斯顿大学计算机系任教，并于2007年初与同在计算机系的李凯教授一起启动ImageNet项目，目标是建立一个包含上万类、上千万张图片的数据集。同年，李凯教授的博士生邓佳也全力投入到这个项目中。然而，当时的ImageNet项目并不被看好，申请美国国家自然基金委（NSF）经费屡屡碰壁，但李飞飞教授与李凯教授都坚信数据的作用，哪怕没有美国的国家级经费支持，他们仍决定先依靠自有经费把工作开展起来。李凯教授是笔者2010~2012年在普林斯顿大学的博士后导师，他曾用一个形象的类比向我们讲述ImageNet项目背后的逻辑：如果总是用小学生的课本让一个人学习，则无法培养出大学生。这个类比形象地体现了数据的重要性。

关于ImageNet的论文于2009年正式发表，但其命运就如辛顿那篇发表在《科学》上的论文，也未受到同行的广泛关注。为了推广ImageNet，李飞飞团队决定发起一个竞赛，然而前两届推广效果依然不尽如人意——2010年收到35份提交结果，而2011年一下子滑落到仅仅13份提交结果，这预示着ImageNet似乎越来越不受同行待见。不过，金子总会闪光。2012年的ImageNet竞赛成为了推动这一轮AI浪潮的关键转折点，从而载入AI技术发展史册。

算力：英伟达GPU与CUDA

2001年，斯坦福大学威廉·达利(William Dally)教授团队在处理器微结构旗舰期刊IEEE Micro上发表了一篇题为“Imagine: Media Processing with Streams”的论文，正式介绍Imagine项目，一个可加速多媒体应用的流处理器(stream processor)结构。这项工作2006年11月，第一款GeForce 8800 GTX GPU发布，包含128个流处理器，单精度浮点运算性能达到345.6 GFLOPS，访存带宽86.4 GB/s，远高于同期CPU性能。

与此同时，斯坦福大学一位年轻的博士生伊恩·巴克（Ian Buck）在导师帕特·汉拉汗(Pat Hanrahan)教授（2019年ACM图灵奖得主）的指导下开展如何方便且高效地发挥GPU能力的研究。2004年，巴克发表了一篇题为“Brook for GPUs: Stream Computing on Graphics Hardware”的论文，为GPU设计了一套支持流编程(stream programming)语言的编译器和运行时系统Brook，从而让开发者能够像在通用CPU上那样在GPU上编程。这项工作旋即得到英伟达的青睐，于是巴克在博士毕业后立刻加入英伟达，带领两位工程师创立了统一计算设备架构(Compute Uniﬁed Device Architecture, CUDA)项目。2007年，CUDA 1.0正式发布，全面适配GeForce 8800系列GPU。随后，UIUC胡文美教授团队在GeForce 8800 GPU上用CUDA实现了一些程序，性能比在通用CPU上高出10倍到400倍不等，充分展示了GPU的高性能与可编程性。至此，英伟达的GPU生态大厦的地基已基本构成，英伟达的GPU开始被称为GPGPU（General Purpose GPU，通用图形处理器）。

彼时的GPU生态大厦其实还缺一块——应用。当传统上用于图形处理的GPU具备了高性能浮点运算能力，并且能像通用CPU那样可编程时，它可以用来做什么呢？对于这个问题，中国的计算机科学家给出了答案——科学计算与超级计算机。2007年，国防科技大学杨学军院士带领团队在国际计算机体系结构旗舰会议ISCA上发表题为“A 64-bit Stream Processor Architecture for Scientiﬁc Applications”的学术论文，揭示了流处理器架构可大幅加速科学计算。这项工作不仅为具备大量流处理器的GPU开辟了新的应用场景，也为超级计算机架构设计开辟了一条新的技术路径，即采用“CPU+GPU”异构结构提升性能。很快引起了英伟达（NVIDIA）公司的关注，英伟达向达利教授伸出了橄榄枝。随后在2003年，达利教授担任英伟达的顾问，参与GeForce 8800系列GPU的微架构设计，指导如何在GPU中加入流处理器，让GPU具备浮点运算能力。

2006年11月，第一款GeForce 8800 GTX GPU发布，包含128个流处理器，单精度浮点运算性能达到345.6 GFLOPS，访存带宽86.4 GB/s，远高于同期CPU性能。

与此同时，斯坦福大学一位年轻的博士生伊恩·巴克（Ian Buck）在导师帕特·汉拉汗（Pat Hanrahan）教授（2019年ACM图灵奖得主）的指导下开展如何方便且高效地发挥GPU能力的研究。2004年，巴克发表了一篇题为“Brook for GPUs: Stream Computing on Graphics Hardware”的论文，为GPU设计了一套支持流编程（stream program-ming）语言的编译器和运行时系统Brook，从而让开发者能够像在通用CPU上那样在GPU上编程。这项工作旋即得到英伟达的青睐，于是巴克在博士毕业后立刻加入英伟达，带领两位工程师创立了统一计算设备架构(Compute Uniﬁed Device Architecture, CUDA)项目。2007年，CUDA 1.0正式发布，全面适配GeForce 8800系列GPU。随后，UIUC胡文美教授团队在GeForce 8800 GPU上用CUDA实现了一些程序，性能比在通用CPU上高出10倍到400倍不等，充分展示了GPU的高性能与可编程性。至此，英伟达的GPU生态大厦的地基已基本构成，英伟达的GPU开始被称为GPGPU（General Purpose GPU，通用图形处理器）。

此后，GPU便开始出现在超级计算机排行榜（Top500）上，并逐步成为主流：2009年11 月，采用Intel CPU+ATI GPU异构结构的“天河一号”名列Top500排行榜第五；2010年6月，采用Intel CPU+Nvidia GPU异构结构的“曙光 6000”在Top500排行榜跻身第二；2010年11月，采用Intel CPU+Nvidia GPU+FT-1000异构结构的“天河一号A”荣登Top500榜首，打破了长期以来美日霸榜的格局。

汇流：算法+数据+算力

在四川宜宾，长江、金沙江、岷江三江汇流于此。有人说，长江自此被称为“长江”，一路奔流向东，最终成为一条波澜壮阔的大江。今天，人们也常说这一轮AI浪潮离不开三个要素，即算法、数据与算力。那它们又在何时何处汇流？答案是2012年的ImageNet竞赛。

如前所述，ImageNet在2009年正式发布后并未得到很大的反响。为了推广ImageNet，李飞飞教授团队决定启动一项基于ImageNet的物体识别竞赛。2010年第一届竞赛冠军识别的错误率为28%，2011年第二届竞赛冠军错误率降到约26%。

2012年的第三届竞赛正是转折点——辛顿教授与其两位学生伊尔亚·苏茨克维（Ilya Sutskever）和亚历克斯·克里切夫斯基（Alex Krizhevsky）带着使用英伟达GPU+CUDA训练出来的深度神经网络AlexNet参加竞赛，将错误率大幅降低了近11个百分点，高出第二名41%。

这个结果不仅让ImageNet竞赛组织者李飞飞教授与邓佳博士感到震惊，也震撼了整个AI学术界。余凯博士的故事是一个典型案例：他是第一届ImageNet竞赛冠军团队的核心成员，更能深刻地认识到AlexNet背后深度学习技术的潜在影响。余凯博士于2012年11月在中国科学院计算技术研究所作了一场学术报告“Recent Advances on Deep Learning”，对比并分析了2010—2012年三届ImageNet竞赛背后的技术变革，旗帜鲜明地提出深度学习时代已经到来。彼时，他回国加入了百度公司，随后创立百度深度学习研究院，投入到深度学习浪潮中。

算法、数据、算力汇流而成的“大江”势不可挡，在学术界掀起了惊涛骇浪。此后几届ImageNet 竞赛冠军都采用深度学习技术，并在短短的四年内就将识别的错误率降低到3%（2016年冠军成绩），超越了人类（见图2）。

图2 历届ImageNet竞赛冠军的识别错误率

颠覆性技术的识别与感知

毋庸置疑，深度神经网络在今天已被视为一种颠覆性技术，三位深度学习先驱辛顿、杨立昆(Yann LeCun)和约书亚·本吉奥(Yoshua Bengio)也被授予2018年度ACM图灵奖。但是，辛顿教授在2006年发表两篇关于深度神经网络的论文时，即使是大多数同行也并没认识到这将会在未来成为颠覆性技术，直到2012年的ImageNet竞赛。进一步，虽然ImageNet竞赛让学术同行感知到了深度学习技术的颠覆性，但彼时绝大多数企业、风投机构、政府部门以及社会大众都还未感知到深度学习将会掀起新一轮AI浪潮，直到2016年AlphaGo战胜围棋世界冠军李世石。改变人的思想和观念也许是世界上最难的事情之一。

可见，对颠覆性技术的识别与感知并不容易，因为颠覆性技术可能是一系列各自发展的技术在某个时刻的汇合，就如算法、数据、算力三条技术线在2012年ImageNet竞赛上的汇合。但是，这次汇合离不开辛顿教授几十年来一直坚持对神经网络的研究，离不开李飞飞教授坚持认为数据对于AI的作用不可替代，离不开黄仁勋率领英伟达不断追求GPU的高性能和易编程。

三点启示

在对这一轮AI浪潮的技术溯源过程中，笔者得到了三点启示：

1.每一条技术线都值得探索。从科技管理者角度来看，要鼓励和支持有人去探索一些不随大流的技术路线，就如那批始终支持辛顿教授的“伯乐”；对于科研团队来说，找到自己坚信的事很重要，一旦找到，那就在现有资源条件下努力做到最好，然后坚持、坚持、再坚持，用这份坚持来打动“伯乐”。

2.信息传播与交换对于促成技术组合很重要。从信息传播视角来看，ImageNet竞赛是一种信息扩散方式，超级计算机Top500排行榜也是，通过“出圈”让更多人了解到了超算背后的技术信息。辛顿教授团队一定是获取到了这些信息，才会用GPU训练AlexNet参加ImageNet竞赛。因此，当工作做到一定阶段，有必要用合适的方式扩散信息。

3.一定要将工作做到让外行觉得“好用”。要促成技术组合的产生，往往意味着一项技术要能被来自其他领域的外行方便使用。ImageNet能支撑竞赛表明它很容易上手，英伟达开发CUDA正是为了让GPU更好用。可以说，正是因为ImageNet和GPU的“好用”，才促成了算法与数据、算力的汇流。

（本文仅代表个人观点，不代表任何单位和机构；个人接触到的信息有限，因而文中资料和观点难免存在偏颇，恳请相关专家指正。）

包云岗

CCF高级会员、开源发展委员会副主任，2019年“CCF-IEEE CS青年科学家奖”得主，CCCF前编委。中国科学院计算技术研究所研究员。主要研究方向为计算机系统结构，包括处理器芯片敏捷设计、开源芯片等。baoyg@ict.ac.cn

本文转自“中国计算机学会”微信公众号。

加关注 ID: fitee_cae

本公众号为中国工程院院刊《信息与电子工程前沿（英文）》（SCI-E、EI检索期刊）官方微信，功能包括：传播期刊的学术文章；为刊物关联学人（读者、作者、评审人、编委，等）提供便捷服务；发布学术写作、评审、编辑、出版等相关资讯；介绍信息与电子工程领域学术人物、学术思想、学术成果，展示该领域科学研究前沿进展；为该领域海内外学者提供友好互动平台。

http://mp.weixin.qq.com/s?__biz=MzUxOTcyNjQzNA==&mid=2247534552&idx=2&sn=65a1d0f533776f1ef73bc6a356346c1c

信息与电子工程前沿FITEE

传播中国工程院院刊《信息与电子工程前沿（英文）》（FITEE）的学术文章；为FITEE关联人群（作者、读者等）提供便捷服务；提供学术写作、出版等相关资讯；介绍信息与电子工程领域学术人物、学术思想、学术成果，展示该领域科学研究前沿进展。

最新文章

CIIS 2024前瞻丨《Engineering》大讲堂聚焦生成式人工智能模型

新一轮AI浪潮之技术溯源 | CCCF精选

FITEE｜福建技术师范学院郭永宁、苏国栋等：基于自适应RZL旋转的加密JPEG比特流可逆信息隐藏方法

2024～2025年度行业开放课题基金申请指南

广西机器视觉与智能控制重点实验室2024年度开放课题基金申请指南

FITEE｜中国科学院冉登宇、宋磊等 | HSDBA：一种面向可编程数据平面的分层可扩展动态带宽分配方法

100万！2024年管理科学与工程学会——玻色量子基金开启项目申报

关于征集2024年度深圳市“脑科学与脑机工程”科技重大专项市区联动项目课题的通知

FITEE｜区块链和物联网的融合：集成、安全性和用例

自动目标识别全国重点实验室2024年度重点实验室基金开放项目申报公告

信息光子学与光通信全国重点实验室（北京邮电大学） 2024 年开放课题申请指南

FITEE｜孙成龙、欧阳一鸣等：基于端口间缓冲区共享的流量感知可重构片上网络

中国高校产学研创新基金—梦渚育为智能教育创新研究专项申请指南

俄罗斯互换奖学金（中俄政府奖学金）

FITEE 2024年第10期摘要

浙江大学孙斌勇教授获2024未来科学大奖——数学与计算机科学奖

机器人技术与系统全国重点实验室2025年度开放基金申请公告

产学研融合助力科研探索，2024年度“CCF-蚂蚁科研基金隐私计算专项&绿色计算算效专项”正式发布

国家工程中心2025年开放基金申请通知

智能光电教育部重点实验室2024年度开放课题申请指南

简讯 | 中新工程院联合主办首期研讨会，共话人工智能前沿与治理

CCF隆重颁发四大奖项——王选奖、海外科技人物奖、青年科技奖、科技成果奖

2025年光纤国重（上海实验区）开放课题基金申请书及申请指南

智控实验室2024年度开放基金申报公告

决赛入围名单公布 | 欢迎莅临“钱塘信息杯”2024智能超表面技术创新应用大赛

华中科技大学智慧健康研究院开放课题申报通知

会议议程更新 | 欢迎莅临第三届智能超表面技术论坛

2024年中国高校产学研创新基金—数智创新与人才专项申请指南

广东省科技厅关于发布2025年度粤澳科技创新联合资助专题申报指南的通知

CNCC | CCF-腾讯犀牛鸟基金青年学术交流会

中国电子学会区块链分会—星火多维全连接实验室（星火i² Labs）开放课题申报通知

关于发布上海市2024年度“科技创新行动计划”技术标准项目申报指南的通知

FITEE｜黄梓煊、王焕清等 | 具有时变非对称约束的不确定非线性系统实际固定时间自适应模糊控制：一种基于统一障碍函数的方法

关于征集2025年度北京市自然科学基金-小米创新联合基金指南需求的通知

特种发光科学与技术重点实验室2024年度开放课题申请指南

FITEE｜深圳大学何玉林、路璇等：一种用于不平衡学习分类的新型交叠最小化SMOTE算法

国家自然科学基金委员会信息科学部2024年度专项项目（科技活动项目）申请指南

浙江理工大学计算机科学与技术学院（人工智能学院）2025年硕士研究生招生简介

FITEE｜辽宁师范大学周梓怡、石慧等：基于加性秘密共享和智能预测器自适应联合编码的密文图像可逆信息隐藏

2025年度航空航天结构力学及控制全国重点实验室开放课题申请通知

课题发布｜智慧计算集成电路关键技术公开研究课题开始申报

FITEE｜浙江大学丁王辉、刘佐珠等：基于深度学习的口腔三维扫描中六方位自由度牙齿姿态准确估算

开放报名 | 欢迎莅临2024“钱塘信息杯”全国智能超表面技术创新应用大赛决赛

机器智能与系统控制教育部重点实验室2024年度开放课题申请指南

为什么诺贝尔化学奖又被人工智能学者拿了：阿尔法折叠，蛋白质结构预测易手

FITEE｜哈尔滨工程大学彭锐晖、赖杰等：基于多模态图像输入端像素级融合的伪装目标检测

开放报名 | 欢迎莅临第三届智能超表面技术论坛

2024年诺贝尔物理奖官方解读：他们用物理解码信息

为何今年诺贝尔物理学奖颁给两位人工智能学者？谈人工智能的历史变迁及对人类社会的影响

FITEE｜电子科大武丹丹、西北工大陈捷等 | OntoCSD：基于本体的网络空间防御综合解决方案安全模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉