![]()
看到不认识的植物?拍张照片,分分钟就能找到答案。自动驾驶汽车也好像长了眼睛一样,能轻轻松松判断出,哪里是道路,哪里是树木。人脸识别技术,也让我们实现了刷脸支付。而这一切,都离不开一项技术——卷积神经网络。这项技术,就像 AI 的眼睛。想了解 AI 的眼睛是怎么工作的,我们先要看一看动物的眼睛是怎么工作的。
20 世纪 50 到 60 年代,大卫·休伯尔和托斯坦·威泽尔对猫的视觉进行了研究,他们发现,在一幅画面进入猫的视野之后,猫大脑中负责视觉的神经元,被不同的东西激活了。为了方便理解,我们看个例子。比如这样一幅画面,有的神经元对画面中物体的边缘线条非常感兴趣,会着重处理这些信息,有的神经元对大块的颜色比较敏感,更擅长处理这些信息。这些神经细胞一起工作,帮助生物识别各种复杂的图像。埃德加·德加 《去外省的赛马场》(At the Races in the Countryside)1869这项研究,让大卫和托斯坦获得了 1981 年诺贝尔生理学或医学奖,也启发了人工智能领域一个非常重要的算法,卷积神经网络。在 1980 年代,日本科学家福岛邦彦设计了一个叫做 Neocognitron 的模型,用来识别日文手写字符,Neocognitron 中有不同的“层”,用来提取对不同的信息,最后综合这些信息对识别到的字符进行判断。这启发了一位叫做扬·乐昆的法国科学家,扬·乐昆设计出了最早的卷积神经网络,并且基于卷积神经网络,建立了 LeNet 模型。这个模型在当时被很多银行用来识别手写字符。我们通过一个简单的例子,来看看卷积神经网络是如何工作的。
和神经网络相比,卷积神经网络在识别图片的时候,多了两个过程:卷积和汇聚。一张图片,在计算机的眼里,其实是一个个像素点组成的矩阵,卷积核不是单独去考虑每一个像素点上的信息,而是同时对某个区域,比如 3×3,5×5 的像素点信息进行处理。这样可以综合考虑相邻像素点的信息,更好地提取出更高级特征。你可以想象一下,卷积核就像是一个观测员拿着有特定视野的望远镜去看一幅图片,把看到的信息处理记录下来。而且我们可以设置有不同侧重点的观测员,以提取图片中的不同维度信息。比如,有的观测员着重提取颜色信息,有的着重提取物体边缘轮廓信息,有的专门提取某个特定形状的信息。最后综合这些信息,帮助神经网络做出更好的判断。此外,卷积神经网络还有一个重要的步骤——汇聚(又称池化)。图片往往是一个非常大的矩阵,汇聚能够把一块区域里的信息压缩成一个信息。假如,对一个 16×16 的矩阵,可以通过汇聚的方法,提取 2×2 格子里颜色最深一格的信息,就能把它变成这样的 8×8 的矩阵。如果再进行一次相同的汇聚,就可以把 8×8 的矩阵,变成 4×4 的矩阵。虽然图像汇聚后会有一些变化,但是依然保留了整个图像中的基本特征。卷积和汇聚,让卷积神经网络能够非常好地对图片信息进行提取,对于图像的学习处理效率上有了非常大的提升。当然,卷积神经网络也会使用跟神经网络一样的反向传播算法,不断根据已知结果逆向调整神经网络中的参数,以做出越来越准确的判断。那么,AI如何改变一些行业的生态?在未来,我们将一同探究。
本文授权转载自 科普中国 微信公众号
审核:秦曾昌 北京航空航天大学 自动化科学与电气工程学院 副教授
- 相关推荐 -
《 大话计算机科学:生活中的计算思维 》
作者:商静波 赵馨 著 费赛尔 绘
计算机科学是当下最火热的学科之一,看似复杂、高大上,其实离每个人并不遥远。本书作为该学科的专业科普图书,通过常见的生活场景切入 38 个计算机科学知识点,涵盖计算机科学本科教育中的经典课程,包括大一、大二必修的“程序设计”“数据结构”“算法”课程,以及大三、大四选修的“数据科学”“机器学习”“智能系统”“信息安全”“计算机硬件”等课程。每个知识点通过独立故事呈现,读者可以按任意顺序阅读。本书最大的特色是,以一个个日常生活中的寻常事例来讲计算机科学,没有公式和代码,旨在从原理和本质上讲透计算机科学的重要概念,同时让读者真切体会到计算思维在生活中随处可见。本书不仅故事丰富有趣,还配了精美插图,方便读者透彻理解内容。本书适合对计算机科学感兴趣的中学生和非专业大众读者,亦可以作为高等院校计算机相关专业的导论课程、非计算机专业的通识课程的教材。
![]()
分享、点赞与在看,至少帮我拥有一个吧~