1、书名:算法与预言
作者:亚历山德罗·韦斯皮尼亚尼 罗西塔·里塔诺
译者:潘源文
出版社:中信出版集团
出版时间:2023-04-01
ISBN:9787521753912
品牌方:中信联合云科技有限责任公司
2、这一切不过是最近30年的事情。在这30年里,我亲历了两场科学革命。第一场是概念革命,它见证了复杂科学从无到有的发展。复杂科学是人类社会可预测性的根基。在蚂蚁社会里,蚁后地位尊崇,但从根本上说,群体才最重要。我们观察蚂蚁得出的结论,同样适用于人与人的关系。复杂科学破解了人类社会的“蚁后神话”。蚂蚁社会清晰可见的等级制度并非存在某个“领导”的结果,而是发生于大量个体间的群体现象,这种现象能通过数学和统计学手段来描述。在人类社会,某种时尚何以风靡某个社会,公众舆论又为何会两极分化,这些社会问题同样可以用数学和物理的手段来描述、分析和解答。
3、第二场是数字革命,它是海量数据和计算机运算能力升级的产物。数字革命为科学家打造了全新的“实验室”。我们的日常生活无时无刻不在接触数字世界,制造出海量的信息。这些信息构成了科学家研究社会的基本素材。什么是“海量的信息”?这里不妨给出一个直观的说明:人类每天都会制造出2.5个艾字节(exabyte,缩写为EB)的数据,1个艾字节等于260字节,将这些数据刻录进DVD光盘,需要足足50万张。
4、何为算法?我们不妨给出一个简单的定义。所谓算法,是一系列精确的指令或数学表达式,用以明确信息间的关联,推演事物的发展趋势,总结出规律和法则,基于这些规律和法则便能预测疫情的蔓延、思想的传播、金融市场的波动等。
5、1942年12月2日这一天注定要被写进历史。这天,恩里科·费米(Enrico Fermi)来到芝加哥大学体育场的地下室,这里是芝加哥一号堆,也是世界上第一座铀—石墨原子反应堆。这位意大利物理学家是斯多葛主义信徒,向来喜怒不形于色。如今,实验到了最后关头,在场所有人都能感受到他内心的紧张与兴奋。他手持计数器站在控制台前,9时45分,反应堆正式启动,能够吸收中子的镉控制棒被慢慢抽取出来,使越来越多的铀接触到中子。中子轰击铀核,使铀核发生裂变,裂变过程中会释放中子,这些中子会再引发其他铀核裂变。石墨使铀核裂变释放出的中子速度放慢,从而使中子更容易与其他铀核碰撞发生裂变。随着计数器咔咔声节奏越来越快,铀核裂变开始了。下午3时20分,费米下令把控制棒继续往外抽取,几分钟后,计数器的声音稳定下来,反应堆达到临界点。人类历史上第一次核链式反应开始自动进行了。大家打开提前准备好的红酒,斟满纸杯,无声而热烈地庆祝。诺贝尔物理学奖得主、物理学家阿瑟·康普顿(Arthur Compton)给时任美国国防研究委员会主席詹姆斯·科南特(James Conant)发去一封著名电报,内容相当简洁:“意大利航海家已登陆新世界。”
这封电报宣告人类进入了原子时代。这场始于17世纪的探索在1942年12月2日有了完美结局。
6、预测能力帮我们战胜了最古老的恐惧。
7、物理学家在把原子、电子这些视之不见、抟之不得的微粒写成方程时,会产生智力上的愉悦。但我还要告诉大家,真正优秀的物理学家不会沉溺于这种快乐,而是随着研究的深入越来越清醒。
8、换言之,预测科学将求索的目光投向未来,而研究进路的起点却在数千年前。预测科学正是基于周期长达几十年甚至数百年的观测,寻找规律和重复的痕迹。
9、还要等几十年,更准确地说,要到1950年,数字计算机才开始执行第一次天气预测。位于美国新泽西州的普林斯顿高等研究院的气象专家在第一代电子计算机“埃尼阿克”(ENIAC,电子数字积分计算机)上以大气动力学为基础,进行了第一次天气预测。“埃尼阿克”有2万多个电子管、7万多个电阻,是个不折不扣的庞然大物。1955年,美国空军、海军和气象局制成了第一张气象图,天气预报从此驶上了飞速发展的快车道。
10……正确认识局限性,也是预测科学发展的一部分,它改变了预测科学自身。精确的气象预测,难度不在于方程演算和大量的变量,而是在气象方程的演算中,某个极微小的初始变量不易察觉的微弱变化,都可能导致最后结果出现极大偏差。你一定听过“蝴蝶效应”
11、意识到预测的局限性之后,我们就必须放弃把握所有变量的想法,引入“概率预测”的概念。
12、人类活动制造了数据,海量数据同时也在“谈论”人类。
13、由于掌握了海量数据,在数学模型和人工智能的推动下,预测科学得到了前所未有的发展,将人变成了“可预测”的“社会原子”。
14、通过改变人类控制人类,但却不知道人类本身。
15、需要指出的是,谢林在解释人群这种“择邻而居”的现象时,仅使用了一种特征界定同类,并未将经济水平、文化差异、宗教信仰等因素考虑在内,但这并不影响这一模型的理论价值。我们因此明白,复杂的社会现象是能够以线性、简约的方式进行描述和分析的,个体行为并不足以改变集体行为。
16、两位科学家提出的模型成功解释了“小世界效应”,又称“六度分隔理论”:世上任何两个人之间最多只需通过六层关系便能建立起联系。简言之,就是“我朋友的朋友就是我的朋友”。
17、在1986年,92%的数据都通过模拟电路存储,到了2007年,存储方式已发生了逆转,94%的数据已数字化。智能手机和笔记本电脑已经可以“运行”我们日常生活中的大部分活动
18、布莱恩·K.沃恩(Brian K. Vaughan)在漫画小说《私家侦探》(The Private Eye)中想象了2076年的洛杉矶,如果他的想象成为现实,我们会看到人们的“病历、信用卡账单、密码、评论、上网浏览记录、脸书上的照片、亚马逊网站的书评,甚至是酒后失态发给前男友或前女友的可怜兮兮的短信”从天而降。这些数字化碎屑的聚合,就是科学家处理、分析的社会经济数据,其体量之大,还是人们几年前不可想象的。
19、今天,我们生活中的每一条信息,都是一个数字数据,因此我们可以存储它、分析它,进而将社会的微小面向置于算法的显微镜下。
20、算法是显微镜。
21、这个微型传感器只有一张信用卡大小,只需要有Wi-Fi就可以记录下数据。2018年,两位同行将最新一代传感器展示给我看,只有1欧元硬币大小。它不仅小巧方便,造价更低,而且功能更自动化。
22、各类社交网络制造了如海啸般的数据浪潮,在退潮时,我们生活的秘密在算法的显微镜下一览无余。
23、海量的新数据和便捷的检索手段,使社会学家能对社会的群体心理展开持续跟踪。美国佛蒙特大学复杂系统中心的两位应用数学家克里斯·丹福思(Chris Danforth)和皮特·多兹(Peter Dodds)在2008年底开发了一个专门系统,在网络上追踪公众情绪(见图3.1)。他们将这一系统命名为“快乐测量仪”(Hedonometer),以此向英国统计学家弗朗西斯·埃奇沃思(Francis Edgeworth)这位前辈致敬。根据埃奇沃思当年的设想,这是一个“能持续记录个体体验到的快乐强度的理想化完美工具”。
24、“大数据”精准概括了我们正经历的数字革命的精髓,但这个词已经被滥用了,有必要给出更精确的定义。所谓大数据,多“大”才算“大”?
25、有学者提出“3V”原则,即容量(Volume)、速度(Velocity)和多样性(Variety)。顾名思义,首先,大数据要容纳大量信息。其次,这些数据要能实时获取与分析,过时的信息或者经年累月积累的大数据不符合时效性,意义必然大打折扣。最后,数据应体现多样性,单一数据的大量堆砌会导致分析结果失真。“3V”原则道出了大数据的本质。通过设定某个数字门槛来定义“大”,恰如水中捞月,不得其法。大数据的真正价值其实是“新”,庞大的体量不仅意味着可供支配的数据更多,还意味着有待分析的信息变多了。举个简单的例子,一个只有几百名人口的小城市的居民一天的活动数据,相比欧洲核子研究中心产生的数据,简直不值一提,但相比几年前只能靠追踪几十个人获得的数据,已经是10万倍之多。
26、会员卡表面上是商家对顾客的回馈或奖励,实际上是商家派出的“特洛伊木马”。通过会员卡进行的消费更容易被追踪,便于商家分析消费数据。换言之,会员卡的主要功能就是绑定消费行为与消费主体,打造消费记录和消费习惯的数据库。通过会员卡,每位顾客都成了与“购物篮”(market basket)相关联的数据。在积累一定量的数据后,商家的算法就能预测顾客的需求,在顾客意识不到的情况下“唤醒”其需求,比如在适当时机推出打折促销活动。
27、谷歌公司的科学家在获取数据这方面显然拥有天然优势。“谷歌流感趋势”实现了预测模式的巨大突破,这是利用大数据进行预测的鲜活案例。我们不妨发散思维,谷歌能做到的,推特也能做到。通过搜索推文,看多少用户发推文更新病情,就能整合、分析相关数据,进行相似的预测。同理可证,既然能预测季节性流感,当然也可如法炮制,修改关键词,预测其他疾病。进一步推而广之,这一算法还能用于经济、人口、城市发展等方面的预测。
28、受到“谷歌流感趋势”的启发,《连线》(Wired)杂志总编克里斯·安德森(Chris Anderson)发表了著名的文章《理论的终结:数据洪流淘汰了科学方法》(The End of Theory: the Data Deluge Makes the Scientific Method Obsolete)。安德森指出,谷歌公司以数据的洪荒之力改变了传统广告业。今天,谁还会在乎广告业的旧传统,海量数据和强大的算法可以打败任何传统理论。
29、人工智能是个宽泛的概念,指使用计算机模拟人类的认知功能,诸如计算机视觉、机器人、电脑游戏、自动驾驶和无人机等技术,都属于人工智能的范畴。人工智能最重要的概念是模仿。机器学习(自动学习)、神经网络、自然语言处理、深度学习等关键词,都因拟人化的表述,常造成我们的误解和困惑。“人工智能”这一名词,往往会让我们误以为机器能思辨、具有自主意识,甚至有同情心等复杂情感。这当然是误会。究其本质,人工智能是运用数学和统计学等手段来表达复杂的人类行为的算法。
30、这是人工智能发展史上的首次盛会,信息科学领域最聪明的头脑济济一堂。麦卡锡在会上给出了他的定义,称人工智能是“令机器具有智慧的科学和工程学”。不难看出,麦卡锡在学术上给出的定义远未回答图灵的提问。
31、实现机器学习的技术可谓数不胜数,不过,机器学习主要分为三类:监督学习、无监督学习和强化学习。
32、所谓无监督学习,指的是由算法自己发现数据间的联系结构。比如我们根据顾客的购买行为对其进行分类,就属于无监督学习。聚类算法(clustering)就是一种无监督学习的算法,即在一些数据内部找出次一级的集合(见图3.2)。在塔吉特超市的故事中,根据顾客的性别、年龄、教育背景、购物习惯进行分类就属于聚类。不过,在这种情况下,对于将提供给算法的顾客群体之前的信息,我们并不掌握。
33、强化学习是机器学习领域的前沿。强化学习系统能通过不断试错,依靠自身经历进行学习。它会尝试各种范式,根据结果判断是维系还是放弃。通过不断尝试,算法能找到错误数量最小的范式。谷歌的AlphaGo的基础正是强化学习,这一程序曾经击败了人类
34、如果识别的答案不正确,反向传播算法(backpropagation)会重复上述过程,调整连接强度,优化下次回答。
35、越深层次的神经网络,节点能识别的特征就越复杂。
36、预测一切,就是现在!
37、当然,根据推特数据来预测选秀比赛的结果,只是科学家们心血来潮的一场游戏,不必太认真。不过,大家在兴奋之余很快意识到,这次成功的经验打开了通向新世界的大门。选秀节目的冠军得主能被精准预测,这意味着我们身处一个可被算法预测的世界。许多年来,我们的预测对象总是天气、流行病和其他严肃的社会现象。如今只要数据到位,加上掌握正确算法,我们就能在短时间内实施定量分析,预测此前根本想不到能被预测的事件。时至今日,预测科学已经“看透”了我们的生活。
38、协同过滤算法的巨大优势在于,它能精准地推荐复杂的内容,如音乐、电影,而不必真的理解推荐的内容究竟是什么。显然,要运用协同过滤算法,需要大量的用户和数据,而这恰恰解释了为什么许多平台运营商会提1供免费服务。
39、当然,不同算法究竟如何相互融合、彼此支持,从而得出最优方案,这恐怕不是本文能够说清的。说到底,这是商业机密。
40、将统计学运用到足球比赛中,显然是预测科学的重大突破。将比赛转化为可量化的数据,说到底并不难理解,因为比赛本身就是靠数据说话。牙买加运动员尤塞恩·博尔特(Usain Bolt)是这个星球上速度最快的人类,这个结论经得起数据检验。在2009年柏林田径世锦赛上,博尔特在男子100米比赛中以9秒58的成绩夺冠,刷新了自己创造的世界纪录。
41……艺术是主观的创造,艺术家是否成名却可以客观被预测,这便是巴拉巴西的“预测成功学”。他的研究正在打破预言的边界。预测算法正在渗透每个人的未来,预知我们的生活轨迹。当算法充分了解我们的努力,掌握我们的选择(比如未来去哪里定居,进入什么行业)时,就能判断我们未来成功概率的大小。也许有人还会“心存侥幸”,认为我们的感情生活是预测科学无法渗透的最后“一方净土”,其实不然,在算法面前,私人生活也不能幸免。
42、我们或许能从詹姆斯·帕特森(James Patterson)的故事中得到启发。这位出生于纽约的惊悚小说家今年已70多岁了,从2008年起,他每年11月都会推出新书,如原子钟般精确。他的每本新书在出版后,都能毫无悬念地进入畅销书排行榜。也许他的名声没有丹·布朗或史蒂芬·金那么响,可迄今为止,他已出版了51本小说,总计销量超过3亿本。在2022年全球作家富豪榜单上,帕特森位居第三。
43、《巴拉巴西成功定律》(The Formula)可不是什么“成功学”或鸡汤文学,而是阐述如何预测成功的学术作品。巴拉巴西在书中写道:“我沉迷于社会结构背后的数学,试图弄明白数字究竟如何形成一种框架,让我们得以理解各项联系的本质。”
44、所谓离散度,指的是两个人的共同好友之间缺乏联系的程度。如果两个人的共同好友之间的联系较少,两个人就有较高的离散度,则更有可能是情侣。究其原理,情侣在各自的社交关系之间起到了桥梁作用。
45、麻省理工学院的乔伊·布奥拉姆威尼(Joy Buolamwini)今天被称为“人工智能革命的良心”。她年纪不大,是位二十多岁的非裔美国人。在研究人脸识别技术时,她常遇到一个颇为恼火的问题:当她站在摄像头面前时,计算机经常对她视若无睹。于是,她只好找同事帮忙。她发现,只要是男性白人同事站在摄像头面前,就总能顺利过关。
46、借用美国哲学家和心理学家威廉·詹姆斯(William James)的话来说,“很多人工智能的算法自认为能思考,但实际上它们不过是在重组偏见”。言外之意,人工智能是否公正,与它所处理的现实数据有关。
47、今天,一项名为“流感挑战”(Flu Challenge)的应用能通过十几个模型,协同美国疾病控制与预防中心,最多可提前四周提供流感预测。失败者止步之处,后来者继续前行。从这个意义上说,谷歌流感趋势预测的失败比当年的暴得大名更有意义,它以自身的失败警示后来者,在社会体系中不加批判地笼统运用预测算法会遭遇何种局限性与风险。
48、换言之,谷歌搜索引擎自身的变化足以影响预测本身,但是造成这一影响的原因与季节性流感在现实中的发展毫无关系。
49、这一理论当然仍然是错的,只不过的确和当年不精确的部分天文观察吻合。当错误的理论“偶尔”奏效时,我们便会被引入认知上的陷阱。事实上,托勒密体系持续了2000年,直到哥白尼发表《天体运行说》,此后现代物理学又经过伽利略、牛顿等人的不断发展,“日心说”才完全取代了“地心说”。今天,我们身处人工智能和黑箱效应并存的时代,这意味着我们仍可能第N次掉进托勒密体系等概念陷阱。
50、当我在2004年开始以物理学家和计算机科学家的身份投身疫情预测领域时,我很确定这一领域与气象预测极为相似。今天,气象预测已经不再神秘,我们每个人的智能手机都具备这样的基础功能。而在1985年,隆基尼和勒瓦乔夫突破冷战思维,展开东西方科学合作时,疫情预测的技术仍处于蹒跚学步的阶段。到了2008年,流行病学家伊丽莎白·哈罗兰(Elizabeth Halloran)的研究再次实现了突破。她将不同的计算机模拟现实模型进行交叉对比,从而检验美国防治大流行病的各种干预政策的效果。最近20年的数字革命为这一领域的飞速发展提供了充足的燃料,从微观层面的病毒基因序列到宏观层面的人口迁徙,从社交媒体到手机,凭借形成的海量数据,我们对流行病的了解在不断加深。今天,疫情预测模型可以在计算机上构建出人工世界,这些虚拟世界能真实模拟传染病的传播,从而推动了计算流行病学的发展。
51、科学研究有明确的传承,前人的努力为后人奠定了基础,提供了灵感。
52、前人都是后人的灵感。
53、社会传染
能对单个个体进行模拟的预测模型具有多种优势。我们能够很轻松地导入与人的复杂性相关的种种假设,诸如个体的行为模式、是否理性、学习能力,以及与他人交往的原则等。
54、在20世纪60年代,社会学和经济学学者已经意识到了“社会传染”理论与流行病学的相关性。广告节目、政治集会、体育比赛、时装走秀,这些社会活动都是社会传染的渠道。社会传染的数学原理和生物传染的运作机制如出一辙。
55、司南·阿拉尔(Sinan Aral)在2017年的一项研究中成功搜集了超过100万名跑步者通过应用程序上传的运动数据,研究证明人们的健身习惯也会传染。
56、社会传染模型
他们提出了三个基本要素:
1.存在大量信息;
2.读者阅读信息以及决定是否传播该信息的时间和精力有限;
3.存在起支撑作用的社会网络结构。
57、“一切预测都是概率预测”,这一点本书已不厌其烦地反复提及。即便是最准确的预测,也存在一定的不确定性,而不确定性正是通过概率来量化的。对从事预测工作的人而言,这似乎是多余的提醒,但公众还是会经常忘记这一点
58、“要知道现在发生的是一场革命,而革命这匹烈马是不服管的。”马里奥·拉塞蒂(Mario Rasetti)几年前的话犹在耳畔。马里奥是位理论物理学家,1983年和图里奥·雷杰(Tullio Regge)共同创办了都灵科学交流研究院。在他的热情促成下,我也与这一机构展开过多次合作。