对终极学习机器的追求将如何重塑我们的世界?
How the quest for the ultimate learning machine will remake our world?
很多人没有意识到,机器学习已经无处不在。
机器学习算法与传统算法最大区别在于,“they program themselves”。
Traditionally, the only way to get a computer to do somethingfrom adding two numbers to ying an airplane—was to write down an algorithm explaining how, in painstaking detail.
But machine-learning algorithms, also known as learners, are different: they gure it out on their own, by making inferences from data. And the more data they have, the better they get. Now we don’t have to program computers; they program themselves.
社会正在变化,每一次都由一个学习算法(Learning Algorithm )驱动。机器学习正在重塑社会,而学习算法则将海量数据转化为新的科学知识。
公司前所未有地了解他们的客户;教育系统前所未有地了解他们的学生;医疗机构前所未有地了解他们的病患;信息推荐系统前所未有地了解他们的用户;拥有最佳选民模型的候选人得以获胜;无人驾驶车辆可以在陆地海洋空中自我驾驶;农业也通过引入机器学习,实现对气候和土壤条件的精准预测,提高农作物产量......
人猿相揖别。只几个石头磨过,小儿时节。铜铁炉中翻火焰,为问何时猜得?自从远古祖先将石头磨成工具以来,人类一直在设计人工制品(无论是手工制作还是批量生产),但学习算法是设计其他人工制品的人工制品,是一种可以自我构建的技术。
“Computers are useless,” said Picasso. “They can only give you answers.”
然而,学习算法是一个巨匠大师。它的每一件作品都是不同的,并根据需求精心定制。但学习者不是将石头变成石造建筑,或将黄金变成珠宝,而是将数据变成算法。它拥有的数据越多,算法就越复杂。
智人让世界适应自己,而不是让自己适应世界。机器学习和智人一样。有了机器学习的存在,世界就能感知到你想要什么并相应地改变,而无需你去关注。
因为机器学习的核心是预测:预测我们想要什么、我们行动的结果、如何实现我们的目标、世界将如何改变。
Like a magic forest, your surroundings—virtual today, physical tomorrow—rearrange themselves as you move through them. The path you picked out between the trees and bushes grows into a road. Signs pointing the way spring up in the places where you got lost.
矛盾的是,我们见证了机器学习的存在,但学习算法本身却是个黑箱,没有人真正知道它是如何运作的。
当一项新技术像机器学习一样普及并改变游戏规则时,未知会带来焦虑。在无法理解黑箱是如何运作之前,至少要知道它的基本原理是什么,如何使用它,建立机器学习的概念模型。
概念模型(Conceptual Model),由认知科学家、心理学家 唐·诺曼(Don Norman)提出,指的是我们为有效地使用一项技术而需要拥有的粗略知识。
每年都会发明数百种新学习算法,但它们都基于几个相似的基本思路。为了建立机器学习的概念模型,理解这几个基本思路十分必要。它们远非深奥,甚至与它们在计算机中的应用无关,而是对我们所有人都关心问题的回答:
How do we learn? Is there a better way? What can we predict? Can we trust what we’ve learned?
机器学习领域的不同思想流派对这些问题有截然不同的答案。
机器学习主要有 5 个思想流派:
符号主义:把学习看成是基于哲学、心理学、逻辑学的逆向演绎。
连接主义:受神经科学和物理学启发,对人类大脑进行逆向工程。
进化主义:引用生物科学和基因科学,在计算机上模拟进化。
贝叶斯主义:认为学习是基于统计学概率推理的一种形式。
类比主义:受心理学和数学优化的影响,通过推测证据之间的类似性来学习。
在构建学习机器的目标推动下,我们将回顾过去百年大部分思想史,并以新的视角来看待它。
然而,我们真正想要的是一个解决所有应用问题的通用算法 —— 终极算法 (The Master Algorithm)。
如果存在终极算法,那么它可以从数据中得出世界上所有的知识 —— 过去、现在、和未来。
终极算法之于机器学习就像标准模型之于粒子物理学或中心法则之于分子生物学:一种统一的理论,它解释了我们迄今为止所知道的一切,并为未来几十年或几个世纪的进步奠定基础。
发明它将是科学史上最伟大的进步之一。它将加速知识的全面进步,并以我们几乎无法想象的方式改变世界。
你可能会认为这需要大量数学和严格的理论工作。相反,它需要的是从数学奥秘中退一步,看到学习现象的总体模式。为此,从远处接近森林的外行在某些方面比已经深入研究特定树木的专家处于更好的位置。一旦我们有了概念性的解决方案,我们就可以填写数学细节。
没有一个盲人能看到整头大象。我们要做的,是先让自己有一双明亮的眼睛。
本书作者:佩德罗·多明戈斯(Pedro Domingos),华盛顿大学计算机科学荣誉教授。他曾获得数据科学领域的最高荣誉SIGKDD创新奖。他是人工智能发展协会(Association for the Advancement of Artificial Intelligence)的研究员,现居西雅图附近。