【读书】AI探索之旅——李飞飞自传

文摘   2024-08-24 16:58   北京  

欢迎关注!

前言&书籍:1950年代人工智能概念开始兴起,但是在人工智能发展的前60年,神经网络算法从来都算不上主流。李飞飞是一名出生在北京,生长在成都,初中跟随家人移民美国,其天资聪明,且从小就对科学充满了兴趣和热情,而她建立的ImageNet大型数据集开启了深度学习时代,让神经网络算法一举奠定基石算法地位,也奠定了李飞飞在AI科研的江湖地位。本书是李飞飞近期出版的自传,从自己求学经历开始,到科研经历,人生感悟,值得一读。

儿时经历:从成都到美国

父亲“玩世不恭”,母亲渴望逃离。李飞飞1976年出生于北京,但是在成都长大,成都是她母亲的老家(开样子北京可能是父亲的老家),她目前的家庭原来在杭州,因为抗日战争迁移到成都。李飞飞的父亲很特别,用她的话来说就是一个“长不大的孩子”——始终保留着对世界的好奇心,比如经常带着女儿捉蝴蝶,观察水牛等,但是几乎不承担年龄所对应的责任。连李飞飞出生那天其父亲也因为在公园看鸟而姗姗来迟。而李飞飞这个名字也是父亲也是因为那天看鸟而一时兴起起的。李飞飞对于世界强烈的好奇心可能就和她父亲的作风有关系,可见“玩世不恭”(主要不是黄赌毒)还是有好处的。李飞飞母亲家庭有国民党背景,因为这层身份问题,其母亲在国内生活一直挫败感严重,对人际交往耐心全无,渴望逃离(那个年代必然经历了文革)。然而,其母亲热情和女儿分享各种类型的书,因为想象力不受现实世界限制,李飞飞因此也很小时候就熟读《道德经》(比较适合),鲁迅的作品(比较愤世嫉俗),也包括《老人与海》《基督山伯爵》很多西方经典。在80年代中国改革开放之后欣欣向荣,万象更新的时代,这是一家特别的人,父亲在化工厂计算机部门工作,他反感别人拼命往上爬的人生态度,而母亲本来是高中教师,后来变成办公室职员,一直保持自己的自尊和高傲。在普遍教育孩子要听话的社会,李飞飞父母完全不在意社会共识,其母亲教导孩子努力学习不是让老师满意,而是为了自己。

影响一辈子的一番话,全家移民美国。小学六年级,一次下课后,老师要求女孩先离开,然后说:“”男孩子比女孩子聪明,但是你们现在竟然成绩比女生还低,我今天对你们很失望。但你们也不要自暴自弃,等到十几岁,你们就会发现身边的女生自然就会变笨”。这一番话被躲在角落的李飞飞听到了,而这个老师竟然是个女老师。这番话让李飞飞感到愤怒。后来她进入了一所重点中学。1989年,其父亲就准备移民美国了。其父亲到美国后三年,李飞飞和母亲才前往美国,这三年对于李飞飞和母亲又是一种煎熬,但是她仍然保持了学业的优秀。1992年,刚满15岁不久,李飞飞和母亲的美国签证下来了,他们落脚点是新泽西州一个叫帕西帕尼的小镇,那里移民众多。

美国生活,从迷茫到找到北极星。李飞飞父亲在一位台湾商人那里修理相机,而母亲则在台湾人妻子礼品店当收银员,移民第一代基本上是要牺牲自己的,而15岁李飞飞也开始在餐厅当服务商,她每周还去给人做家务。每逢周末,他们都会驱车数英里寻找车库市场,找便宜货或者别人不要的家具,她父亲尤其热爱意大利的东西,比如皮革制品。而其母亲有先天性疾病导致心脏问题,健康状况每况愈下。更重要的是,李飞飞就读美国高中,语言是第一个要攻克的难题。当然还有校园暴力,她最初和几个移民同学一起学习时候,其中一个同学就被美国学生暴打。在这种看似更艰苦的条件下,李飞飞开始更加埋头苦读。当然,学习可能也是一种分散压力的方式(这就是天分了,大多数人学习是一种痛苦)。她开始逐步克服语言的障碍,熟悉了速度、加速度、角度等术语英语说法。而一旦克服语言障碍,以她本身学习能力几乎肯定是成绩最优秀的学生。入学后几个月,父亲就带着她来到附近的普林斯顿大学参观,李飞飞看到了爱因斯坦的雕像,她想到了自己的物理学梦想。李飞飞到美国后,幸运的得到了当时数学老师萨贝拉照顾,他们兴趣相投,萨贝拉发现了李飞飞对科学的兴趣,以及超越常人的学习能力,同时萨贝拉也提供了李飞飞缺失的父爱部分。对此,李飞飞很感恩,李飞飞和萨贝拉一家成为了终身好友。

大学生涯:研究视觉机制

初入科研,踏入神经科学研究。高四那年,李飞飞已经适应了新环境,在SAT考试中,她拿到了1250分,其中数学满分,排名年级第六。最终她同时收到了MIT、普林斯顿和罗格斯大学录取申请。她选择了家门口的普林斯顿大学,其还给她提供了全额奖学金,就读物理专业,这个选择很自然。她的家庭依然艰苦,母亲的心脏病情愈演愈烈,而经济拮据使他们选择开一家干洗店来赚钱,李飞飞每周都回家帮忙。进入大二,李飞飞开始不断阅读爱因斯坦、费曼、波尔等人的传记,她发现这些物理界伟大人物不约而同对生命本身奥秘产生兴趣。此外,她开始接触计算机(1997年,互联网开始兴起),并且学习C语言。大二暑假,她来到UC Berkeley,参与一个神经科学、生物学和视觉较差的科研项目,主要研究哺乳动物视觉皮质工作,通过播放视频,探测猫的脑电波信号,尝试通过信号来重现内容。随着实验进程,他们发现猫的每个神经元群都显示出独特的音调和特征,基于这个特征他们重现了猫看的视频,研究成功在《神经科学杂志》发表(影响因子4.4)。

视觉是动物智能出现重要前提。5.4亿年前,地球被原始海洋覆盖,当时生物稀少,竞争还不激烈,捕食主要靠运气,而猎物也不刻意躲避捕食者,双方靠运气生存。自然界竞争不激烈时候,智能存在没有意义,徒增成本。接着在一个时期,生命体的复杂性呈爆发式增长,为了应对愈发激烈竞争,动物演化出了牙齿、下颚、爪子等攻击性器官,这就是寒武纪生命大爆发。这场自然演化大爆发背后潜在导火索之一可能就是光敏感性的出现,这也是视觉的基础。光敏感性来自于视蛋白,其吸收光子时会改变形状,形成电信号。仅仅通过光信号,生物开始意识到自己不是独立存在,周围环境无比严酷,这可能开启了进化军备第一枪。此外,触觉的出现使得进化进一步复杂,其很快与视觉形成了互补和平衡。触觉和视觉出现后,生物体有了所见所感,而外部输入信号和本体输出信号中间需要一个处理单元,这就是大脑。而随着外部环境变化,以及自然竞争愈发激烈,大脑的发育也越来越复杂。直到现在,人们也没有完全研究清楚人类大脑完全机制。

加州理工读博士,兼修神经科学和计算科学。1999年,李飞飞大学毕业,她思考未来职业方向,一方面她可以选择高薪华尔街工作,当时正值互联网泡沫高峰期,资本市场对顶尖大学物理系学生持拥抱态度。这份工作也可以解决家庭拮据的问题。但是母亲的反应很简单:“这是你想要的吗”,李飞飞说她想成为科学家。“那还有什么好说的呢?”UC Berkeley的实习生涯让李飞飞看到了智能的奥秘,她面临两个选择即神经科学和计算科学,她准备两者兼修。在斯坦福,MIT和加州理工三个选择中,她最终选择了Caltech,一方面她喜欢南加州的气候(加州理工在Pasadena,漂亮小城),另一方面,她和加州理工两位导师聊天很投缘,导师之一神经科学家Christof Koch问她如何用语言描述颜色,人看到红色自然就能自然感受到,但是却很难用语言描述。视觉是一种复杂的现象,为什么红色会让人产生一种主观感受呢?这种类似哲学问题让李飞飞进入了深思,她很快决定进入加州理工攻读博士学位

人类视觉的基础是分类,机器视觉也应该如此。从计算机诞生那天起,文本搜索就自然发生,但是对图像搜索却依然靠人工来完成,但是随着图像数据规模庞大,人工搜索效率显著降低。而在人工智能发展的早期(关于人工智能发展历史可以见【读书】深度学习发展史:相信和看见,这里不在赘述),科学家们就发现视觉理解挑战很高,在机器看来图片像素不过是一串数字,但是如何根据意义概念来理解图像,这是难题。从人类角度,很多事物我们属于看到即理解(比如颜色),视觉不过是人类智力的应用,或者说是同义词。因此,了解人类如何看见,就是了解自己,也是让机器产生视觉理解能力最可行的方法(仿生学)。一个经典理论来自普林斯顿大学心理学教授特雷斯曼,经过一系列实验之后,他发现人们在不同层次上理解图像时间不同,比如人们几乎可以立刻意识到红色的存在,但是找到红色圆圈则需要更长时间。一个物体同时包含颜色和形状两种特征时,将两种特征整合在一起需要更长时间。这套理论核心是人类视觉是从识别微小的细节开始,然后建立他们之间的关系,直到揭示出一幅完整的画面。李飞飞觉得这种解释逻辑很有道理。然而,此后的实验结果几乎否定了这种看似逻辑严密的结论,因为李飞飞后来在实验室发现人类对很多图像的理解几乎是瞬时的,甚至可以注意力不集中情况下,准确识别,这种分层并不明显。此外,根据其他科学家实验发现,人类大脑有一个特定皮质区域似乎是为了识别人脸而量身定做的,也就是人类视觉神经基础功能其实是分类,不同视觉神经似乎是专门识别某些类别的事物而存在,而不是识别轮廓和颜色的组合。基于这个重要发现,要引领机器具备视觉,核心就是让机器理解各种物体,通过学会分类能力而具备视觉。

打造ImageNet,开启深度学习时代

回归数据本质。2003年,只有通过大量数据训练后,计算机才能从图片中认出飞机,而且成功概率也很低。而这个工作即使是3岁儿童也很容易完成。李飞飞运用单样本学习成功让模型认出第二架飞机,这本质上有点像一个通用视觉模型了,其底层有各种分类能力,然后当看到第一架飞机后,就能顺利认识第二架飞机,这和很多小孩子学习方式也类似,因为很多小孩见过第一个物体后就能顺利认出第二个类似的。李飞飞关于这次实验论文受到了高度关注,并且在国际计算机视觉会议上得到口头报告机会。在这次报告会上,每一个相关问题几乎都和算法相关(当时用的贝叶斯概率算法,关于物种不同算法,详见【读书】走向AGI的N条路径:科普篇),没有一个人问训练所用的数据。李飞飞越来越觉得奇怪,数据具有微妙神奇的力量,为什么没人关注数据呢?反过来想,更多数据意味着什么呢?很明显,在她看来数据才是真正的主角。接下来,她们准备创建一个全新的数据集,在和导师彼得罗讨论数据集应该多大时,当时加州理工最大数据集包含7个随机类别,最开始李飞飞说“10个怎么样?”来回几轮后,最终决定做100个类别,这显然是个大突破,但是也意味着巨大的工作量。在此期间,李飞飞的母亲心脏状况变差,她决定让父母搬到洛杉矶一起居住,并且她本人还想着转型去麦肯锡赚钱维持家用,但又一次被母亲劝阻了,她应该坚持自己的梦想。

数据集=真实世界的映射。为什么李飞飞会更关注数据,而其他人更关注算法?博主觉得还是出发点不一样,李飞飞是从视觉智能本质即分类出发,要想让机器真的具备智能就必须对于事物类型有一个特定框架(类似大脑皮层),这样才能准确进行视觉分类。而其他人更多从表面出发,聚焦更高效分类工具(算法)。如何建立100个图像类别?他们决定基于词典,大部分强调有形物体的名词都可以成为分类。于是他们建立3-4名本科生小型标签团队,从Google搜索上面下载图片(互联网发展的红利),然后进行相应分类标注。数据集建设过程,本质上是对世界奥秘一次发掘。2004年数据集完工,包含9000张图像,分在100个类别,命名为Caltech101。基于新的数据集,现有模型性能显著提升,他们立即又发了一篇关于单样本学习的论文,但这次反响刚开始没有上一次强烈(没那么新颖了),但六个月内就有不少效仿类似做法的研究成果出来。此前一系列的尝试让李飞飞更加坚信分类是连接一切研究核心思想,但为何当时模型识别进展缓慢呢?原因是当时算法相对于数据出现了过拟合现象,无论算法设计多么巧妙,模型都无法识别新的案例。这和人类泛化学习能力相反,人类感知能力是由泛化能力决定的。很明显,李飞飞优势是数据量,但是当时主流算法似乎和其不匹配(算法模型太小了)。但由于get到了视觉智能底层是分类这个第一性原理,李飞飞并没有被当下算法-数据匹配的瓶颈局限住,她准备建立一个更大的数据集(相对于现实世界有更高的分辨率),又是从词典中找到灵感,现代视觉专家彼得曼在论文里面提出的数字是3万个分类,这显然是个天文数字。最后,此时李飞飞开始和同实验室的西尔维奥展开热恋(后来俩人结婚成家)。

灵光乍现。从加州理工博士毕业后,李飞飞来到UIUC成为助理教授,对视觉分类本质研究仍然是工作重心。一次,她和普林斯顿大学语言学教授Christiane聊天(实际上是教职面试),后者提到WordNet项目,其是心理学传奇人物米勒杰作,其用词语之间的关系和连接绘制出语言结构图。不像词典,Apple不会和Appliance放在一起,而是和Food,fruit,tree进行关联,这样一张语义的网络就是WordNet。1985年启动以来已经收录了超过14万个单词。从这个角度来看,WordNet就是个人工版本大语言模型框架,我们有理由相信LLM也是让机器自己从海量文字里面学习了一张类似WordNet的关联网络。从规模来看,Caltech101分类还不及WordNet的千分之一,后来Christiane还提到了一个用照片和图表来诠释WordNet项目,名字叫ImageNet,但是后来被搁置了。这无疑点燃了李飞飞的激情,因为这件事本质和她想做的事情很像,如果用WordNet规模来打造类似Caltech101数据集会发生什么事情?于是打造巨型图片数据集的思想从此扎根大脑,让算法能够识别出任何东西秘诀,或许就是打造一个无所不包的数据训练集,让计算机看见完整的世界

遭遇众人质疑和反对。此后,李飞飞加入普林斯顿大学,并且确立了此后自己的工作核心方向,即打造ImageNet。不过这个想法在当时看起来显然是共识,每次和同事讨论想法,同事都说打造那么大数据集有什么用,当时大部分模型连一两个类别都识别不准(算法瓶颈),你知道用这么多图像训练一个模型要花多久时间吗(算力瓶颈)?这个图像集别人怎么下载,很多人硬盘都没这么大?(硬件瓶颈)具体怎么做,几百万张图片标注要多久,如何验证所有内容准确性?(实操问题)。这么聊下去结论是必然的,这个项目没法做,李飞飞甚至连个队友都找不到,连李飞飞导师的导师(师爷)吉腾得拉都劝李飞飞换个方向。2006年,算法才是计算机视觉的核心,而算法就像突触,或者说大脑里面复杂的神经回路,算法问题实际上就是找到让回路更高效方法。而李飞飞认为,人类视觉智能靠的是生物数亿年进化史,这种瞬间识别技能背后恰好是数亿年的“大数据”塑造的(又是个第一性原理,数据是积累的,而脑回路可能是随机正好产生了适应环境的就进化占有了)。遇到了足够多的劝阻者后,李飞飞遇到一个支持者,普林斯顿的李凯教授是微处理器架构的领军人物,他更了解数据思维,自然也就了解大数据的价值,以及算力进化速度会让当下看似大数据变成不是问题,李凯当即赠送给李飞飞一台工作站。李凯也是一位80年代来到美国攻读研究生的移民,这种老乡见老乡的身份认同也使得关系不一般。李凯教授当时即将休长假,但是给李飞飞推荐一位同事叫邓嘉,此后邓嘉和李飞飞组队来完成ImageNet。

靠外包服务完成ImageNet,李飞飞加入斯坦福大学。首先,俩人需要搞清楚项目到底应该多大规模。他们以WordNet为起点,同样仅留下有形的名词,从14万条删减到大概2.2万,这个数字比当时最大的数据集都要大很多倍,但是跟前文提到彼得曼的3万个接近。每个类别应该有多少张图片呢?从第一性原理来说,一个物体可以从无数个角度来看,答案可能就是越多越好。最终他们确定1000张,这样总数大概就是2200万张图片,而要选取这么多图片,样本甚至可能需要10亿张。且这些图片必须通过人工准确标注后才有用。这些在当时听起来都是一项奇迹。第一轮,他们找了一些本科生来从网上下载图片,然后标注,每小时10美元,过了一段时间邓嘉计算发现完成项目需要19年。这显然不切实际,他还要考虑自己博士尽快毕业呢。于是邓嘉开始优化整个系统,图片可以用爬虫提前下载,人工部分更多至负责标注。美国多久他们就被Google封禁了(爬取过度),此后他们用动态IP逃过了反爬虫,不过重新估算项目完成时间仍然需要18年。这几乎让俩人绝望,要加速项目,似乎唯一方法就是扩大标注团队,增加10倍人手,但是当时资金不允许这么干。经历了几个月迷茫期后,一天一位叫孙民研究生提到众包服务,这是亚马逊一个新业务叫Amazon Mechanical Turk,其采用劳力外包方式来完成人工智能的人工部分。这使得ImageNet迎来曙光,很快完成时间被缩短到不到一年。这也是互联网力量,没有众包估计ImageNet也无法实现,至少无法如此高效实现。ImageNet花了约2年时间,在此期间李飞飞和斯坦福大学Andrew Ng等计算机视觉先驱定期沟通,也获得一些肯定。最后计算机系主任Bill打电话给她询问是否愿意把实验室搬到加州。加州气候,以及斯坦福大学更浓厚的科技行业氛围(背靠硅谷),2009年,李飞飞加入斯坦福大学。

开展ImageNet算法比赛。2009年6月,ImageNet初始版本终于完成了,里面收集了1500万张图片,涵盖2.2万个不同类别,图片筛选自10亿张图片,并由来自167个国家4.8万名全球标注者共同贡献。ImageNet不仅在规模和多样性达到了理想水平,还保持着一致的精确度,每张照片都经过了三重标注,其是当时最大的人工编辑数据集。2009年计算机视觉大会在迈阿密召开,李飞飞正准备高调向全世界展示自己满意的成功,结果却大失所望,原本主题演讲临时降级为海报展示,期间进行了几次愉快的交谈,但是成功微乎其微。很明显,李飞飞必须先证明ImageNet的价值,其实验室用几百万张图像训练了一个能够描述场景的模型,比如算法检测发现一个人、一艘船、一只浆,就会将这个动作整体归纳为划船。邓嘉一篇论文中也提到,因为ImageNet定义的语义空间不断扩大,也变得更加密集,正确和错误答案之间的差距越来越小,以至于常用的分类算法表现不佳。据此,未来算法可能不是当前算法的改进,而可能是一种根本性变化。ImageNet相当于一个行业标准,为什么不基于这个数据集展开一个算法效果竞赛呢?当时最知名视觉竞赛是PASCAL,其数据集大约包括1万张图片,20个类别,大小和Caltech101类似,只有ImageNet的千分之一。组织比赛背后需要一系列详细标准制定,李飞飞和邓嘉为此也进行各种讨论,最终决定比赛所用数据库为ImageNet十分之一,总类别数二十分之一,包含140万张图片,涵盖1000种日常用品、动植物。这种庞大数据对当时任何一种算法都是难以驾驭的。“你认为ImageNet会让当时算法变得更好吗?”,李飞飞说:“我认为他会让它们过时”。首届比赛2010年举行,5月开放报名,9月公布结果。第一次有11个团队提交35个参赛作品,第一届获胜算法来自NEC实验室等组成联合团队,他们用SVM支持向量机方式识别(行业比较通用算法)获得了不错效果。2011年算法获胜者同样采用是SVM,他们将准确率提升了2个百分点。这个结果不及预期(因为还是老算法),且第二次报名人数从150人降低到96人,看起来ImageNet的竞赛要黄了,预期颠覆效果并没有出现。

AlexNet横空出世。2012年,李飞飞正好怀孕期间,第三届ImageNet比赛终于出现了意外,一种尘封多年的神经网络算法竟然获胜,其识别准确率高达85%,比前一届第一名高了10个百分点,而人类准确率是97%。AlexNet底层原理是传统CNN视觉卷积算法,其模仿人体视觉原理,逐层处理视觉信息,每一层都会整合更多细节信息,其类似ImageNet,同样忠实于生物进化的本质。杨立昆很早90年代就用CNN打造了能够识别手写笔记的算法,而AlexNet不过是个放大版本的CNN(多几层,有6.3亿参数,能够处理10倍大的图像,是当时最大的神经网络),其背后团队是Hinton的学生(深度学习传奇,反向传播发明者,一直坚信神经网络),包括Ilya Sutskever(OpenAI创始人之一,GPT系列奠基者)和Alex Krizhevsky。而让AlexNet能够实现的另一个必要因素就是GPU,很长一段时间神经网络算法训练难度大是致命性缺点,但是GPU出现使得AlexNet训练时间缩短到1周。算力,数据和算法在此交汇,新的深度学习时代正式开启,其他算法几乎一夜之间出局。第二天一早,消息就传开了,研讨会人满为患,连杨立昆本人都不得不站在墙角。但即使如此,研讨会提问环节仍然充满了质疑,大家仍然觉得不需要这么大数据库。

深度学习时代来临

成为斯坦福人工智能实验室主任。2013年,由于吴恩达离开,李飞飞成为斯坦福大学人工智能实验室第七任主任,凭借ImageNet,李飞飞足以成为深度学习时代重要奠基者,自己的学术地位自然也水涨船高。她的实验室也越来越壮大,邓嘉开始解决模型对模糊不清物体(比如鸭鳄兽,世间不存在的动物)如何做出明智判断的问题,结果就是直接给出更大范畴即“动物”分类。而ImageNet现在看起来分辨率仍然不够,比如全世界有1万种鸟,ImageNet只收录了59种。比如汽车,他们又做了一个包含2657种车型训练图像集,包含了2014年路面上所有车型。他们基于Google街景搜集了5000多万张图片,算法识别了2200万台汽车,占全美10%,他们发现如果一个城市叫轿车比例高时,88%人会投票给民主党。而当皮卡比例高时,82%人会投票给共和党(大数据发现秘诀)。

商业公司后来居上,引领深度学习时代。而ImageNet挑战赛已经成为计算机视觉领域基础赛事,机器误差率越来越小,接近人类水平。当然这只是从一个很小维度,机器不及人的维度还有很多。李飞飞的博士Andrej Karpathy(也是后来AI大神,特斯拉和OpenAI背景)打造一个可以阅读图像给出描述模型,最开始这个模型看起来只是某种图片说明匹配系统,泛化能力远不够,后来他把CNN和RNN(递归神经网络,一种专门处理单词序列设计算法,transformer前一代)结合起来,这个模型效果号很多,其甚至会出现很多有意思的错误,比如将青铜雕塑人和马识别为人和马,这更像孩子般的笨拙,这更像多模态大模型的前身了,这个成果在2014年NIPS上发布分享。而当时,恰好有一个另外一支团队也在做类似的事情,而这个团队来自Google。这似乎意味着一个变化,其商业巨头开始在深度学习时代接棒,成为行业发展的引领者。

深度学习狂飙,人才流入公司。基于母亲常年疾病历史,李飞飞经常和医院打交道,她开始思考人工智能在医学领域应用。实际上,护士的失误(比如不洗手)每年会造成10万人死亡。她和斯坦福大学医学院教授探讨合作人工智能和病人护理结合起来,第一个切入点就是洗手环节。不过在医疗特殊领域里面要面临数据稀缺、隐私和伦理等多方面问题。2014年,Google神经网络分类器GooLeNet错误率仅为6.67%,人类要失去榜首地位了。2015年,微软年轻研究员何恺明带头研发了ResNet,其达到竟然152层,识别错误率仅为4.5%。而2016年AlphaGO横空出世,其战胜李世石震惊世界,甚至连李飞飞的父亲都因此问女儿AI下围棋是怎么回事,此外,Flickr模型将黑人描述为猿猴等一系列偏见伦理问题也开始吸引大量外界注意,深度学习真正破圈了。而此时,优秀研究生的去处也越来越导向大公司了,他们承诺高薪高达六位数,且有丰厚的股权。2010年Uber一下从CMU挖走40多位机器人专家。而李飞飞的博士生Andrej Karpathy虽然普林斯顿给他提供了教职机会,他仍然选择加入当时名不见经传的OpenAI。随着AI需要数据越多,算力要求越强,这种差距越来越明显,比如,2018年,Google测试中使用了800个GPU,而每个GPU是1000美元,相比2012年AlexNet仅用2个GPU。2016年,李飞飞开启了21个月学术休假,她本人也加入了Google,出任Google云计算的首席科学家,他在这里进一步感受到了真正大数据(比ImageNet大几个数量级,且来自不同行业,真正一手数据资源),科技(Google线上办公体系,相比于大学传统办公体系),当然还有人才

未来之路——以人为本的人工智能。如果人工智能可以归类为简单量化,越大越好,蛮力获胜,那么思考和创新又有什么意义呢?人工智能当下已经变得越来越难以捉摸,仿佛其是需要先识别、后理解,而不是根据第一性原理设计产生的技术,它们内部到底在做什么,完全不透明。学术界开始研究可解释的人工智能,以及人工智能特权被硅谷巨头垄断后,可能带来发展风险。未来行业从业者一定不能是简单技术或者商业专家,更应该从哲学、伦理学、甚至法律角度来思考人工智能行业,这个是大学必须承担责任。2018年,李飞飞受邀出席美国众议院关于科学听证会,阐述了自己对这些问题理解,而以人为本的人工智能成为她更加感兴趣的话题,并且斯坦福成立了以人为本人工智能学院。在李飞飞看来,机器更多还是被动观察规律,并不具备主动思考能力。未来,人工智能应该始终致力于提高人类能力,而不是与人类竞争。此外,为了打破巨头垄断,国家研究云计划推出。其人工智能医学探索研究成果于2020年登上《Science》,这种跨学科的横向研究也将成为未来科研重点方向。对于LLM横空出世,李飞飞同样感到非常超现实(和普通人感受无异),他觉得LLM并不具备真正意义上思考能力,不要过度迷恋模型的能力。

结语:关于学习

求学时期,李飞飞天资聪慧,且幸运的从父母那里主要吸取了优点,尤其是养成从小阅读(学),且保持了对世界好奇心(思)。

科研生涯,李飞飞核心是把握了第一性原理,比如坚持认为视觉本质就是分类,所以分类数据集是核心。而抛开了当时大部分看到的算力阻碍、算法阻碍等,由此做出了非共识但是正确的决策,且幸运的开启了一个重要时代——深度学习时代。

如今,即使到LLM时代,行业发展脉络依然是ImageNet和AlexNet奠定的更大的数据和更大的模型,当然Transformer出世提供了新一代算法,但到如今AI发展资源(数据、算力、人才)绝大部分集中在巨头手中,这种状态对吗,巨头有足够创新能力吗(恐怕没有)?Transformer是我们需要唯一算法吗?数据集真的越大越好吗?这些问题仍然值得我们思考,正如李飞飞所说,恐怕不要太过度迷信模型的能力,AI未来估计还是需要人类创新才能推动。

本文大约1万字,欢迎点赞、在看、转发、关注!


XYY的读书笔记
坚持读书、坚持学习、坚持思考,为学日益,为道日损。