Robotaxi第一股上市,自动驾驶未来已来?

创业   2024-11-28 09:00   北京  


「创新理事会」栏目

创新是所有商业长期良性发展的核心要素之一,是商业不断进步的动力。Fast Company中文版「创新理事会」栏目,将邀请各界引领创新的杰出代表,进行深入对谈,分享技术创新、产品创新、商业模式创新、组织运营创新领域新锐的理念和经验,共同探索创新企业和个体在塑造未来方面可能发挥的积极作用。


11月27日,自动驾驶领域迎来了今年的第三次重要的IPO,也是今年以来美股自动驾驶领域最大规模IPO。一个月前,10月24日,自动驾驶芯片和软件提供商地平线在港交所上市,当地时间10月25日,通用自动驾驶企业文远知行在纳斯达克上市。


这次在纳斯达克上市的企业是小马智行,股票代码“PONY”。当地时间11月14日,⾃动驾驶企业小马智⾏开启IPO,几天后,11月20日,因投资者认购热情高涨,小马智行更新招股书,扩大了IPO规模,从原计划的1500万股ADS扩至2000万股ADS。此外有消息透露,小马智行启动IPO招股后实现超额认购。


从2016年底开始,一批来自百度的创业者陆续进入自动驾驶领域,今年IPO的三家公司创始人都曾供职于百度。小马智⾏成⽴于2016年,布局⾃动驾驶出⾏服务(Robotaxi)、⾃动驾驶卡⻋(Robotruck)、乘⽤⻋智能驾驶(POV)三⼤业务。如今8年过去,自动驾驶的技术研发趋近成熟,正在面临从技术到商业的关键一跃。换句话说,这些公司能否实现他们的愿景,真的让自动驾驶进入普通人的生活,就看他们的商业化能否成功了。


↗ 小马智卡自动驾驶卡车,主要应用于物流领域,可在繁忙的高速、快速路上实现L4级自动驾驶。


最近几年,距离我们更近的人工智能是手机里的ChatGPT,但如果要讨论我们与人工智能的关系,自动驾驶或许提供了一个更实际的视角,它与我们的生活息息相关,它有一个外在实体(车),比软件的运行更容易理解,它还承载着当今最先进的人工智能技术。清华大学智能产业研究院院长张亚勤曾说,无人驾驶可能是最快通过图灵测试的具身智能。


或许你还记得今年夏天的一个网络流行话题:自动驾驶会不会取代人类司机。事件起始于百度在武汉投放了400辆无人驾驶出租车。人对新技术总是抱有复杂情感,一些专家认为,我们倾向于高估新技术的短期影响(抢走饭碗),同时低估其长期影响(也许是彻底改变我们的生活)。


小马智行的CTO楼天城在几年前就意识到自动驾驶的水平已经超过人类司机,他相信自动驾驶将成为人与AI关系改变的先锋,而我们人类要面对的首要课题是:看到AI的能力,并且接受AI已经比我们强了。



Part 1

两种恐惧



今年7月,一份名为《巡游出租车已到死亡边缘》的文件在网上流传,文件称网约车和自动驾驶挤压了出租车的生存空间,“尤其近段时间无人驾驶网约车的盛行,科技垄断资源,抢夺底层人的饭碗,许多巡游出租车养家糊口困难,被逼退出这个行业。”


在武汉,这样的无人驾驶出租车有约400辆。从挡风玻璃看进去,它们的驾驶座上没有人,方向盘自主旋转。这种新形态的车还有一个英文名字,Robotaxi。作为对比,武汉注册出租车有18637辆,日均运营网约车29400辆,这400辆车算不上规模盛大,也还不足以抢夺司机们的饭碗。人们却感到前所未有的恐慌。


李开复在《AI·未来》一书中预测,截至2033年,有40%的工作岗位上的人类员工都将被AI和自动化技术所取代。人们此前自嘲,失业了还可以去干“铁人三项”:开网约车、送外卖、送快递,但现在无人驾驶出租车带着空荡荡的驾驶座行驶在路上,人们发现,在我们惯常于操作、控制的领域,人彻底消失了。


不只出租车和网约车司机,路上一些普通司机也不喜欢Robotaxi。他们从侧面超车,别停它,然后嘲笑它笨。此前这些车里还坐着安全员的时候,他们也听过不少司机的骂声。你怎么开车的啊,他们说,有时还带脏字,不知道是骂人,还是骂车。


今年夏天,我在北京乘坐了两次无人驾驶出租车。行驶时,方向盘自行匀速转动,让人感到新奇。它开得很平稳,在固定的车道内行驶,只在必要时变道,我坐在车里几乎没有感到身体晃动。我拿起手机拍摄视频,准备发在社交媒体上。但是新鲜感很快褪去——毕竟只是一辆车开在路上而已。


我把视频发给我妈,她首先看到方向盘上的雷克萨斯车标(她的车也是这个品牌),然后提示我第一次打车有补贴,之后可能会涨价(那次路程6.2公里,车费8.1元)。最后她终于想起关心我的安全,简短而有力地说,小心点儿,别为了这几块钱送了命!


↗ 无人驾驶出租车的后排显示屏



今年7月武汉还发生了另一件事,一辆无人驾驶出租车在路口与行人发生碰撞。人们因此更加担心自动驾驶的安全性。据后来的调查,车是在绿灯后起步,行人则是闯红灯,碰撞轻微。在访谈中,我与汽车安全专家和自动驾驶研发人员探讨这次事故,他们都认为,车的反应很快,刹车及时,正因为是自动驾驶系统,碰撞才能如此轻微。


人类面对新技术会有两种本能的恐惧:工作被替代,安全被威胁。前者是个复杂的社会问题,需要经济学家、社会学者来探讨。后者则更简单一些,安全总有标准,有数字和政策规定。


关于自动驾驶的安全,一个经常被提到数字是:自动驾驶的安全性已经达到人类的10倍以上。意思是,如果人类司机每行驶2万公里会发生一次事故,自动驾驶至少行驶20万公里才会发生事故。自动驾驶公司如百度(萝卜快跑)、小马智行的负责人,汽车企业如特斯拉、蔚来、小鹏的负责人,还有一些专家如清华大学智能产业研究院院长张亚勤,都公开提到过安全性10倍的说法。


我还查到另外一些数据。在萝卜快跑广为人知以前,百度的自动驾驶已经在全球道路上测试了超过1亿公里,另外两家自动驾驶创业公司也进展不小,小马智行测试超过4000万公里,文远知行超过2500万公里。这三家公司总共超1.6亿公里的行驶里程中,按照公开信息来看,没有发生致命交通事故。这里有一个作为对照的巧合数字:在美国,人类驾驶员发生致命撞车的频率约为每1.6亿公里一个。


数字可以一直罗列下去,但我设想我妈对此的回复会是:那也不能保证你不是被撞死的那一个!只要自动驾驶的安全性没达到100%,她就觉得还不够。


Uber的CEO最近接受采访时说:“其实我不太清楚自动驾驶要发展到什么程度才能被人们接受,因为社会能接受人犯错误,但不接受机器出错……人类对自动驾驶有着更高的安全标准。或许得等这项技术发展到比人类好100倍……但人类是情感动物,很多时候不能单纯只看技术发展。”



人对新技术的接受也许只能依靠体验。我访谈了六位安全员,他们做这份工作的时长从半年多到五年多不等,相同的是他们都相信自动驾驶的安全性,其中一位说,“如果(路上)全是自动驾驶的车,没有社会车,真的一辆社会车没有,我觉得可能会更安全一点。”


安全员的工作简单来说就是以防万一,他们坐在车里的动作有点像在练习瑜伽:双手斜向上摊开,放在大腿前侧,距离方向盘约10厘米;右脚轻放在刹车上,同时双眼不断观察前方和左右后视镜。


自1885年现代化汽车被发明算起,人类坐在车的方向盘后面,脚踩油门刹车的历史已经有139年了。但坐在驾驶座上,手却不握方向盘,脚也不踩油门刹车,这样的人类形态在最近6年里才出现。


这些安全员的前一份工作几乎都与驾驶相关:网约车司机、单位领导的司机、货车司机、地图数据采集车的司机。四五年前,自动驾驶水平还不太高,经常急刹、急转向,安全员们要控制身体的不适和心理的不安。现在,技术发展到几乎不需要安全员操任何心了,他们的任务变成了克制自己的冲动,尽量不要干预车。他们都是开了很多年车的老司机,放弃控制车的本能并不是容易的事,但是他们必须让自动驾驶系统在实际场景中学习,积累经验,人类如果过早介入,系统就失去了一次提升的机会。


安全员的另一项工作是记录车的驾驶表现,反馈给研发人员。比如,自动驾驶车跟在一辆慢速行驶的三轮车后面,一直没有超车,这就是不太好的表现,需要上报。但有时安全员的感受也不准确。有一天,一位安全员自信地向研发人员反馈,下午测试的自动驾驶系统版本明显比上午的好多了,但实际上,这天上午和下午测试的是完全一样的版本。




Part 2

开车的原理



从外观看,自动驾驶车辆和普通的车差不多,白色SUV,有门窗、四个轮子,以汽油或电为动力来源。外观上唯一的不同是,车顶与四周突出一些像探测器一样的装置,那是摄像头、激光雷达、毫米波雷达——它们是车的眼睛,但比人眼看得更远,更精确。


更重要的是软件的不同,自动驾驶系统就是车的大脑,凭借这套系统,车能够脱离人的控制,自己驾驶自己。


设想你坐在一辆自动驾驶出租车的副驾驶,车以60公里的时速开到一个路口,你看到信号灯刚刚由绿色变成黄色。你大约正在猜测,车会加速冲过去,还是停下来?


在人的大脑里,这是一个只有两个选项的选择题,而对车来说这是一道复杂的计算题。自动驾驶的车辆有高清摄像头,能比人眼更早识别到红绿灯;它有基于大数据的经验,数据告诉它黄灯会亮四秒(有的路口是3秒甚至更短);它能够通过雷达测量出车身距离路口的准确距离,精确到厘米。根据这些数据,它将展开计算,当然方程中的变量不只这些,还包括车身附近的每一辆汽车、电动车、自行车、行人(有时多达几百个)的位置,以及它们在几秒之后可能的位置,这些都会影响方程的结果。车会在大约0.1秒的时间内完成计算。


必须说明的是,这道题存在许多种可行解,车会在其中选择最好的一个,让整个路口的交通效率最大化。最后,你会看到车在黄灯亮着的时间里平稳通过了路口。如果你在平行世界拥有分身,也许另一个你正和车一起停下来。


以上的步骤可以总结为感知、预测、规控(规划和控制),这就是自动驾驶运行的表层原理。看起来非常简单,因为人似乎也是这样行动的。但仔细想想,你或许会像我一样,从这个例子里看出人类的局限。我们看得不准,又想得太少,我们不知道自己大脑是如何运行的,所以经常在路口陷入两难,时而急刹,时而冒险冲刺。而根据我对自动驾驶研发人员的采访,通过红绿灯路口只是自动驾驶要处理的场景里较为简单的一个。



再设想一个场景,你要通过一个没有红绿灯的人行横道,一辆车正在朝你开过来,你会直接走,还是停下等?或者你会等那辆车开近了,与车里的司机交换一个眼神,再来决定?


对于路上的行人,自动驾驶车辆首先需要识别出他们是人,然后要更细致地分辨他们是哪一类的人,处在什么状态。比如,这是一个成年人,举着手机低着头,还是一个儿童,正在快速奔跑。更进一步,车还要能“看到”人类的眼睛,从而判断他们的状态。自动驾驶公司小马智行的CTO楼天城告诉我,现在他们的自动驾驶车辆不仅可以识别人眼,还能识别出人是两只眼睛同时注视(发现了可能的危险),或是只有一只眼睛瞟过来(有可能没发现车辆)。


小马智行的自动驾驶车辆曾遇到过一次突发状况:一个行人已经步行经过了车辆,然后突然一个转身,弯下腰去捡东西。车的摄像头拍到的影像显示,是他的手机掉了。但在当时,车必须在行人转身的一瞬间识别出这个动作,并判断人的意图,然后做出决策。这要求自动驾驶系统的延迟足够低。车当时急刹停住了。


工程师认为,这是一个合格的操作,足够安全,但还不够舒适,因为车里的乘客必定会因惯性前倾。如果对自动驾驶的要求再高一些,车应该在这一瞬间做更多事,包括观察后方来车,路口另一侧的行人,附近的自行车和电动车,然后在安全的情况下,避免急刹车,打一把轮,躲过行人。


↗ 自动驾驶车辆的标定间(测试传感器和自动驾驶算法精确度的车间)



在听到这个案例之后,我对自己经过十几年历练的驾驶技术产生了怀疑。我一直自认是一个靠谱的熟练司机,这么多年只出过两三次责任事故,都是轻微追尾或剐蹭。我不飙车,但也决不允许自己因为开得慢而被后车催促。我擅长在拥堵的环路上选择一条更快的车道,经常花费比导航预测更短的时间到达目的地。当然,我也从来没有让车里的乘客晕车。


但与自动驾驶对比,我发现人类有太多事情做不到。比如,当我想要变道,我其实看不出后视镜里的车距离多远,是要抢行还是让行,我只能凭借一种对距离的模糊感觉。当我在紧急时刻必须刹车或者打一把轮,我的反应速度和对周遭环境的观察,显然也比不上计算机和激光雷达。那个掉了手机的行人如果遇上我,或许就没这么幸运了。


当然,自动驾驶只做到上述这些还是不够的。回到通过人行横道的那个时刻,当你与车里的司机对视,司机会从你的表情、动作,甚至穿着打扮上来预测你是要冲过去,还是等待,然后决定踩刹车还是油门。这是一种博弈,其规则并不在驾校的教授范围里,我们人类是在潜移默化中掌握的。


自动驾驶并不能天然理解这些,博弈对它来说是一项难度系数较高的技术。这要求它不仅能看到人,还要理解人。为了变得聪明,做出正确的决策,车必须学习人类世界的运行规则。



Part 3

车也要学习



自动驾驶的进步,和人类一样,来自于不断的学习。学习的方法有两个:1.人类手把手教给它;2.机器自主学习。


前者比较容易理解,工程师会通过编程,设定一系列规则,比如红灯停绿灯行,白色实线不能变道,白色虚线可以变道等。


这种方式简单直接,但也有明显缺陷,因为人能想出来的规则是有限的,而实际场景是无限的。举例来说,车辆会在路中央遇到各种各样的物体,纸盒、垃圾袋、大石头、头盔、轮胎皮,甚至小猫小狗,这些物体的种类无法穷尽,也就无法制订完备的规则。


另一个问题是,当规则太多,新规则就有可能和旧规则冲突,从而影响系统运行。有时系统迭代之后,车反而会变得更“笨”,而不是更“聪明”了。


自动驾驶学习的第二种方法,就是我们在讨论AI、ChatGPT时经常提到的:深度学习。通过这种方法,人类不用手把手教车辆怎么行动,而是“投喂”给它大量的数据,让它自己学习。以特斯拉来举例,它最新的智能驾驶软件FSD v12 Beta版,就是通过数百万个人类驾驶的视频片段训练而成。


↗ 早期的自动驾驶摄像头


一个更常被从业者提及的词语是:“端到端”(End-to-End),它是深度学习的其中一种模型。顾名思义,一端是输入,一端是输出,没有中间流程的信息损耗。实际应用时,车辆从摄像头等输入设备获取数据,然后直接输出加减速、转向等操作指令。


深度学习这种技术,从设计最初就是为了模仿人类大脑,它的基础架构叫做神经网络,它的信息传递方式类似人类神经突触之间连接。通过这种技术训练出来的自动驾驶车,它的表现会更加像人。而且因为学习了大量人类驾驶视频,它会开得像一个熟练的老司机。



Part 4

车比人好



2016年,AlphaGo以4:1战胜韩国职业九段棋手李世石。AlphaGo和自动驾驶类似,也是一个端到端模型,输入当前局面信息,输出落子位置,它通过不断自我对弈,训练出每一次落子的函数最优解。人们从AlphaGo的胜利中看到了深度学习技术的潜能。


当时的中国自动驾驶领域,只有百度一家活跃的企业。2013年,百度拆分了当时的深度学习实验室,成立自动驾驶研发部门,2015年,又成立了L4自动驾驶事业部。2015和2016年,百度在自动驾驶研发上的投入都超过100亿元,其在中国和美国的研发中心囊括了行业里最优秀的人才。从2016年开始,越来越多的自动驾驶初创公司成立,其中很大一部分来自百度。后来人们称百度是自动驾驶的“黄埔军校”。


其中一家公司叫做小马智行,成立于2016年底,7个创始成员全都来自百度自动驾驶部门,CEO彭军曾任百度自动驾驶首席架构师,CTO楼天城是百度历史上最年轻的T10。


楼天城是一个从来不穿西装的年轻工程师,他戴一副瓶底厚的眼镜,语速极快。他毕业于清华大学,师承“图灵奖”获得者姚期智博士,因为连续11年蝉联TopCoder在线编程大赛(在线算法竞赛的鼻祖)中国区冠军,获得了“楼教主”的绰号。毕业后,他先后供职于谷歌和百度。


楼天城喜欢围棋,经常提到AlphaGo。创业前,他从AlphaGo的能力中看到了自动驾驶的可能性;创业中,他经常用AlphaGo来比喻自动驾驶。


李世石曾在赛后的新闻发布会上说,“看到AlphaGo下的棋,我开始在心里琢磨,自己以前了解的招数是否就是正确的。” 楼天城也说,“它下的跟我想的不一样,我看不懂,我不敢瞎说它下错了,可能是我水平不够。可能它下的是妙手,我只是看不出来妙之处。”


最近几年,他认为自己和自动驾驶的关系,就像一个普通围棋爱好者和AlphaGo,也就是说,我们人类的驾驶水平已经比不过车了。


这种感觉最早产生于2018年,那时小马智行的自动驾驶还主要靠前文所说第一种比较基础的学习方法,但楼天城预感到,未来人类有可能没有资格做自动驾驶的教练。到2020年,车通过深度学习,逐渐开得越来越好,他开始承认,自己真的教不了自动驾驶了。


他曾亲身体验过一次自动驾驶超出人类能力的表现。当时他乘坐的无人车即将通过路口,一辆大车停在左侧车道,快经过大车时,自动驾驶突然刹车。楼天城纳闷,这时为什么刹车?然后就看到一个人从大车前方冲出来过马路。


实际上,在大车旁边时,自动驾驶车并不是真的“看到”了那个人,而是根据自己对这个世界认知,预测这里可能发生危险,所以刹车减速。另外一个例子是,当自动驾驶车“看到”前方一个篮球滚过来,它会预测球后面跟着一个小孩,并刹车。我们以为它的动作是无来由的,实际上它“想”得比我们更多。


↗ 现在的自动驾驶视觉模块


再回过头看看棋类比赛。2017年12月7日,AlphaGo击败李世石一年多之后,同样来自谷歌的国际象棋算法AIphaZero,击败了另一个算法Stockfish 8。后者是2016年的全球计算机国际象棋冠军,它拥有强大的计算能力,每秒计算7000万次走法,它具备几百年来人类下棋的经验。


AIphaZero则相反,它没有学过任何国际象棋规则,连基本的起手下法都不会,它也并没有更快,每秒只计算8万次走法。它完全凭借机器学习原理,不断和自己下棋,然后学会并理解了国际象棋。这个过程中没有任何人类协助。此后,在AlphaZero与Stockfish 8的100场比赛中,AlphaZero赢28场、平72场,从没输过。它从零开始学到这个水平,只花了4个小时。



Part 5

我们需要看透机器,

才能相信机器吗?


深度学习之所以叫做“深度”,是因为在这个网络的输入层与输出层中间,有成千上万个中间层。这个神经网络可以被理解成一个庞大的空间,其中的参数数量是以百万(m)为单位计算的,连接的数量往往会达到数十亿个,而系统的决策就是在这个空间里经过海量数据训练而得出的数学方程组。


新的问题于是产生了。车在巨量数据的训练下自己学会了驾驶,但坐在车里的人类并不知道它是怎么“想”的,怎么做出决策的。这被称为端到端的“不可解释性”,也就是说它的运作模式是一个黑箱。



理解车的决策,也并不是完全不能做到,但成本很高。楼天城告诉我,从技术上说,检视和解释模型的每一个角落如何工作,是能够实现的,“只是需要非常非常多的时间”。


在《科学之路:人,机器与未来》一书中,计算机科学家杨立昆也提到:一些悲观主义者认为深度学习系统是“黑匣子”,但他们错了。工程师可以深入检查神经网络的功能,包括所有的细节。


小马智行曾在2023年宣布,他们的端到端自动驾驶模型“具备可解释性”。这看似不合常理。楼天城说,他们的方案并不是等模型输出结果之后再回过头检视细节,而是把这项工作前置,让模型从一开始就同时输出两个结果:一个是驾驶决策,一个是驾驶意图。也就是说,让解释驾驶意图成为模型本身工作的一部分。


这个答案并不完全令人满意,我们依然做不到彻底看透自动驾驶。前文提到楼天城在看不懂车的行为时,意识到自己已经比不过车,但是对于大部分不那么懂技术的人来说,看不懂可能会直接带来恐惧,而不是对自身局限性的反思。


毕竟我们总是活在既有的经验里。几百年以来,我们已经习惯了实体机械的运转模式,譬如手表机芯和汽车发动机,它们要么运作(100%),要么不运作(0%),其中哪一个零件出了问题,很容易看得明白。但自动驾驶早已不再依靠机械逻辑运行了。


↗ 车辆在全无人的模式下自动驾驶


清华大学智能产业研究院院长张亚勤曾在公开发言中说,无人驾驶可能是最快通过图灵测试的具身智能(可以简单理解为不同形态的机器人)。如果他的判断准确,那解决我们的顾虑的方法,或许就不是让自动驾驶(乃至更广义的人工智能)证明自己百分之百可靠,而是我们人类需要找到重新看待它们的方式。


杨立昆在前述书中提出,投入实际应用的人工智能没有必要100%可靠,他说:我们不了解让出租车司机、工匠、医生或航空公司飞行员完成他们的工作的神经机制,更不了解用来寻找松露的狗如何挖掘出芬芳的“黑色钻石”,但我们相信他(它)们。为什么要对一台反应更快、不知疲倦、从不分心的机器提出更高的要求呢?当你可以证明它比人类更可靠时,为什么还要对它产生怀疑呢?……人工智能的工作能够带来令人满意的效果,这不就够了吗?


我与楼天城谈到这个话题,他也认同100%可解释性是没有必要的,“因为这个世界本身也是不可解释的。如果真到量子微观层面,本来就不可解释,那很正常。” 我问他,我们要真正接受人工智能,是不是必须接受不可解释性?他不假思索,“这个当然了。但是另一个维度,我觉得先要接受人工智能比人强。这其实更重要。”



Part 6

99%与100%


自动驾驶普及之后,我们的生活会是什么样的?


道路会更安全,日本国土交通省一项研究显示,自动驾驶汽车将能够减少89.5%的伤亡事故。根据世卫组织发布的《2023年道路安全全球现状报告》,去年有119万人因道路交通死亡,平均每分钟死亡人数超过2人,每天死亡人数超过3200人。而在这些事故中,94%都与人的因素相关。可以说人类是道路上最大的风险来源了。


道路也会更加畅通,自动驾驶车辆没有路怒症,会通过计算得出最高效的通行方式。对于开车的人,通勤路程不会再是浪费的,车可以自己平稳行驶,人们可以在车上吃饭、工作。车把人送到目的地后,会自己去寻找停车位,下班时再来接我们回家。无人驾驶出租车和巴士能够24小时运行,没有车的人也可以随时乘坐。我们不必再住在拥挤的城市中心,生活成本将会降低。


这一美好未来的实现有一个前提,就是自动驾驶达到L5级别。现在中国和美国把自动驾驶分为L0-L5共六级,最高级别的自动驾驶被称为“完全自动驾驶”,指车辆可以在任何情况下完全自主驾驶,不需要驾驶员的干预。


最近引起人们恐慌的Robotaxi属于L4,“高度自动驾驶”,车辆能够在某些环境和特定条件下自主驾驶。


L4与L5的区别,可以理解为99.9%与100%的区别。这个百分比是指车辆能够自主处理的场景的比例。在99.9%以上,车辆掌控的场景比例能达到小数点后多少位,就是现在自动驾驶公司能力差异的集中体现,越逼近100%则越难。更难的是,这100%的巅峰没人抵达过,也就没人知道到底能不能抵达。



人类从1925年开始研究自动驾驶,1939年,纽约世博会上展出了世界上第一辆自动驾驶概念车——Futurama。此后日本(1977)、中国(1987)都自行研发出了自动驾驶车。但这些车与我们现在看到的自动驾驶车辆不同,它们都需要部分借助道路的电磁场或者轨道的辅助,才能自主行驶。


自动驾驶产业真正的起源是在2004年,美国国防高级研究计划署(DARPA)发起一场无人驾驶挑战赛。此后2005、2007年又举办了两届,奖金最高达到350万美金。比赛吸引了斯坦福大学、卡内基梅隆大学、弗吉尼亚理工大学等美国顶尖科研机构,这些科技人才后来成为了谷歌、通用等公司研发自动驾驶的核心力量。


值得一提的是,DARPA组织这场比赛的目的是推动军用无人车的研发。2001年,美国在阿富汗作战,为了减少伤亡,美国国会通过了一项法案:在2015年,军方三分之一车辆必须无人驾驶。2003年,伊拉克战争爆发,无人驾驶技术还没有大的进展,DARPA于是决定举办奖金丰厚的比赛,吸引更多人投入自动驾驶的研究。可以说,自动驾驶产业的发展得益于军事计划。


现在,最知名的两家自动驾驶公司是谷歌的Waymo和特斯拉。他们也代表了研究自动驾驶的两条路线。


谷歌旗下的Waymo,从一开始就直接研发最难的L4自动驾驶,商业模式是无人驾驶出租车,这被称为跨越式路线。特斯拉选择的是渐进式路线,指先从基础做起,在量产车上搭载L2技术,依靠大量的真实驾驶场景收集数据,训练算法,最终达到L4。


同济大学汽车学院教授、汽车安全技术研究所所长朱西产告诉我,现在L4的技术和商业化模式都还没有成熟,Robotaxi在四五年内不会在社会层面引发大的改变。他认为研发L2技术是更现实的选择,也能更快落地。自动驾驶行业内,专家与从业者对于Robotaxi大规模普及的预测大都在5到10年之后。


这对于普通人来说是个好消息,我们可以不用担心立即被AI取代。但对致力于研发L4自动驾驶的企业来说,这意味着他们距离成功还很遥远。



Part 7

做最难的事



楼天城在创业初期就表示,做L4是他的第一原则,如果这个原则无法被接受,那么一切免谈。他在接受采访时说,“我可能在意一些比较虚的东西,比如,将来中国做成自动驾驶有我的一份。” 小马智行的创始团队还曾一起谈论创业的目标,“要让自动驾驶无处不在”,他们认为,要达到这个目标,必须做L4。


但直接做最难的L4,就意味着更大的投入和更长的商业化路程。谷歌的Waymo自2009年启动以来,直到现在15年过去,依然未能全面盈利。


楼天城判断一件事能否做成,并不根据难度,而是看技术上的极限能否达到。2012之前,他对自动驾驶能不能做成还有所怀疑,但就在2012年,AI领域迎来突破——9月,AlexNet模型在ImageNet图像分类竞赛中的获胜,让人们认识到深度学习的能力;10月,英伟达推出GPU+CUDA,大大提升了深度学习算法的计算速度。自动驾驶所需的激光雷达技术也在这一年开始加速发展,Luminar、Quanergy等初创公司成立,此后陆续诞生了Aeye、Innoviz、Innovusion 等上百家激光雷达公司,在中国还有禾赛和速腾聚创,激光雷达的价格也越来越低。这些技术基础让楼天城相信,自动驾驶一定能做出来,只是时间问题。


小马智行的CEO彭军曾在谷歌、百度工作,获得过谷歌最高奖——谷歌创始人奖。他也认同从一开始就挑战L4,他的逻辑很简单,正因为L4很难,所以竞争壁垒更高,“一旦我们做出来了,其实是护城河非常深的”。


在彭军看来,自动驾驶从一开始就不存在两种路线,因为它们根本就是两种产品,“L2本身是非常有价值的一个产品,但它永远不会往L4做,它的成本算不过来。”


↗小马智行CEO彭军


L2与L4的本质区别在于,车辆能否被看作是一个独立的驾驶责任主体。L4的车辆如果发生交通事故,会由车辆(运营商或车企)承担责任,而L2级别的车辆的责任主体是人类驾驶员。现在我们在市面上看到的所有私家车的自动驾驶技术,包括特斯拉最新一代的FSD,都属于L2或以下级别。社交媒体上曾流传的司机长时间不握方向盘、在车上打游戏、甚至离开驾驶座到后排睡觉,实际上是违法行为。


自动驾驶行业的普遍常识是,为了覆盖最后几位小数点的极端场景,企业需要付出超过90%的时间和金钱。在彭军看来,L2技术因为有司机兜底,不需要做这种程度的付出,“一个东西我花90%精力,最后卖不了钱,我做它干什么,这是很简单的一个道理。”



2016年,彭军和楼天城决定创业的同时,百度内部还有至少10组人也在考虑自立门户。现在小马智行的CFO王皓俊当时也在百度工作,他受到了不同“创业小组”的招揽,最终决定加入彭和楼的团队。王皓俊记得,当时很多小组都决定再等几个月,等到年终奖发下来,再出去创业。但他们这7个人没有等。彭军认为创业就要抓住时间节点,几个月的时间,足够把系统架构搭出来了。后来小马智行几乎总是第一批拿到各城市路测、商业化许可的中国自动驾驶公司,王皓俊认为这几个月的先机至关重要。


创业最开始非常顺利,不到10个人的团队只用了四个月就开发出了第一代自动驾驶系统。半年后,2017年6月,小马智行在美国加州获得自动驾驶路测牌照,开启公开道路测试。


此后不久,广州南沙区委书记到美国考察,乘坐了小马智行的自动驾驶车。区委书记邀请他们去南沙落地,答应在南沙全区开放自动驾驶测试。


彭军当场拍胸脯说,我们在2018年初一定让南沙市民能坐到小马智行的自动驾驶车。当时全公司一共只有二十多个人,分布在硅谷、北京,得到邀请后他们在广州建立了研发中心,最初只有三四个人。王皓俊当时刚在美国完成第一代系统的开发,本来是到广州短期工作,到了之后发现自己可能走不了了。当地路况和美国差别很大,系统需要更新,还要选择测试路线,装配车辆,与政府协调,事情一件接着一件。


快到和区委书记约定的时间了,彭军开玩笑说,2018年的春节比较晚,我们还多出一些时间。2018年2月2日,春节前两周,小马智行的自动驾驶测试车在区政府门前接上了南沙区委书记。这是中国第一支常态化运行的自动驾驶车队。四个月后,2018年6月,小马智行在北京获得了路测牌照。又过了半年,12月,他们的自动驾驶出行服务平台PonyPilot(现小马智行)落地了。


这一年里,公司的融资也进展顺利,1月宣布完成1.12亿美元 A 轮融资,7月宣布完成1.02亿美元 A+ 轮融资。


在所有公开发言中,彭军和楼天城都对小马智行的技术表现出毫不掩饰的自信。两个人都提到,创业一两年内,他们的自动驾驶水平已经超过了现在的L2,此后几年一直在努力提升最后0.1%的能力。楼天城又把超越L2之后的技术进展分为两个部分,首先达到和人类同等水平,然后是超越人——大约在2020-2021年,这个目标达到了。


现在,行业内普遍认为自动驾驶的水平已经是人类的10倍。楼天城说,他的下一个目标是探索自动驾驶的安全极限,他想知道,一个能保证通行效率的完美司机,其安全水平究竟是人类的多少倍。他判断这个数字在20倍到100倍之间,意思是,如果一个人类司机每开2万公里会出一次事故,自动驾驶每开20万-100万公里,才会出一次事故。



Part 8

AI的交给AI



如果在驾驶这个领域,车已经比人好10倍、20倍了,我们还有资格评价它的好坏吗?


实际操作中,人们尝试沿用既有的方式来评价自动驾驶,把它看作“一辆具备一些人类驾驶能力的汽车”。在各类文件中,我们可以看到一种拼凑起来的评价体系:普通汽车的产品标准+信息技术的安全标准+人类驾驶员的操作标准,再加上一条,实际道路测试数据。


2021年10月,人们开始能在北京的道路上见到真的无人驾驶车辆。在那之前,L4自动驾驶汽车经过了以下考验:

1.企业、车辆、安全员要符合规定,比如车辆需要通过普通机动车强制检验标准,企业需要为车辆购买保险,安全员需要具备3年以上安全驾驶经历等;

2.有安全员的封闭测试,在测试基地里完成39项考核,达到里程要求;

3.申请道路测试牌照、载人许可、商业化运营许可等,然后上路;

4.没有安全员的封闭测试,在测试基地里再完成考核,达到里程要求;

5.没有安全员的道路测试,安全员先后坐在副驾驶、后排、最后是在远程。

在整个过程中,车辆不能发生失控、重大违规和主体责任交通事故。


2021年10月,小马智行和百度首批收到北京市无人化道路测试通知书。


最近几年,政策紧跟技术发展的步伐,更新速度非常快。2023年,全国共出台了至少91条有关自动驾驶的政策。2024年前四个月,出台的政策数量就达到了42条。这些政策也经历频繁的修订。《北京市自动驾驶车辆道路测试管理实施细则(试行)》2017年出台,到2020年,已经修订了四次。


这许多的“意见”、“细则”、“通知”、“方案”、“办法”、“条例”,显示出企业与政府的努力。但问题是,这些都不是本质上的创新。


科学家和工程师们则做了一些本质上的创新,他们发明了一套新模型来评价自动驾驶:世界模型。


世界模型可以被理解为AI模型之上的模型。在它被发明之前,人类一直以自身为尺度评价AI,但现在人们发现,世界模型比人类更有资格充当自动驾驶的教练和裁判。


世界模型的概念最早来自科学家杨立昆,《科学之路:人,机器与未来》一书的作者。杨立昆是深度学习发明者之一,他设计的卷积神经网络是现在自动驾驶能通过视觉识别周围环境的基础。


杨立昆提出,真正的世界模型是一种对世界的模拟,可以让我们预测环境的演变并预见行为的后果,从而有能力计划一个动作或一系列行动。简单来说,世界模型拥有常识和对真实世界的认知,而这是现在的人工智能模型没有的。


人类就天然拥有世界模型,比如,一个第一次开车的人就知道,当在右侧是悬崖的山路行驶时,如果将方向盘向右转,汽车会掉进山沟。我们根本不需要去尝试,就能想到这一后果。正因为拥有常识,人类才可以只花几十个小时就学会驾驶。


从2020年开始直到现在,世界模型一直是小马智行的研发部门最重要的工作,动用了超过一半的研发资源。


这个模型有以下几个作用:

1.它要懂得人类世界关于交通的运行方式,描述所有交通参与者的行为,并教给自动驾驶系统;

2.它要告诉自动驾驶系统哪些人类驾驶行为是好的,值得学习的;

3.它要对真实世界进行仿真,训练自动驾驶应对各种极端场景;

4.它还要能评价自动驾驶的实际表现。


楼天城多次强调这个模型的重要性,不只对于小马智行,“如果说各大自动驾驶公司做出来的产品的差别,我觉得最重要还是世界模型的差别。”



Part 9

边搞技术边赚钱是能做到的吗?



楼天城在面试的时候经常给候选人讲述自己的一段经历——


高一的时候,他接到了两所中国顶尖高校的邀请,可以让他提前一年去读大学。这两所学校的名头会让中国绝大部分学生与家长动心。但楼天城拒绝了。他拒绝的理由是这两所学校都不是他真正想去的,他的目标只有一个,而且他相信自己再努力一年,就能达到这个目标。他后来考入了清华的“姚班”。


楼天城以此说明自己是如何坚持目标,拒绝诱惑的,他希望找到有同样特质的人。他在创业中意识到,最大的挑战并不是技术,而是要习惯一种长期的平淡。


“(现在)很少再靠silver bullet(高招、杀手锏)来干什么事儿……至少自动驾驶这种需要长期做的行业很难了,我觉得这是国内甚至世界仅有的一个状态。这可能是创业最大的挑战。它没有silver bullet,需要长期的积累……不是说发现某个事就过去了,不会的,你要慢慢进步到那个(理想)状态。”


↗ 小马智行CTO楼天城


王皓俊曾担任HR负责人,他在招聘中的一项工作就是和候选人“对齐预期”,告诉对方,我们现在做的事情需要比较长的时间才能实现商业化。


不只小马智行一家公司要面临较长的商业化过程,这是所有L4自动驾驶公司的难题。一个行业里常用的比喻是:攀登珠峰,沿途下蛋。意思是在攻克顶尖技术的过程中,同时做一些技术要求不太高,能更快落地产生营收的项目。同样来自百度的创业团队文远知行就选择了无人小巴、无人货运、无人清扫等低速自动驾驶项目作为营收途径。


从2018年开始,彭军有至少五六次听到不同人的询问,你们要不要做送货小车?彭军一直回答,我们不做,“很多人没看清楚,中国小车其实很难做的,更艰难,技术上挑战非常大,而且商业上的场景也非常复杂,你就算把技术真做好了,你没有一个像美团、京东那样大的平台或者阿里,你也做不出来。所以他们做也许有意义,我做完全没有价值。”


2018年底,公司管理层对于此后的发展做过一次深入探讨,其中一个主题是:要不要为车厂供应L2辅助驾驶系统。讨论的结果是,不做。彭军尤其坚持不做。


小马智行内部经常提到一个“主干理论”:要让一棵树长成乔木、参天大树,首先要把主干做得更坚实,再让它生长枝杈,反之如果过早地让它分叉,可能它最后只会变成一棵灌木。对他们来说,L4是永远的主干,L2和其他项目都是枝杈。


更实际的考虑是,在2018年,他们认为讨论自动驾驶的真正商业化落地还为时太早。小马智行那时只有10辆车,为了参加那年在上海举办的世界人工智能大会,他们动用了整个公司的力量,把10辆车全调了过去。王皓俊说,“如果那个时候先去考虑一个商业模式,我觉得当时在大家看来量太少了。”


小马智行一直被看作一家科研公司,媒体报道里说他们的商业化路线“捉摸不定”。在很长一段时间里,小马智行的员工几乎全是研发人员。公司有二三十人时,非研发岗位只有两人,一个产品经理和一个商务。2019年,人数达到一百时,研发人员占比近80%。直到现在,小马智行有1000人的规模,研发人员占比仍近60%。



2020年2月,小马智行拿到4.62亿美元B轮融资,其中包括丰田4亿美元战略投资。他们在这一年的重要动作是将车队数量扩大到一百辆车。彭军至今认为那是一个在正确的时间做出的正确选择——不是把钱全部投入研发,也不是扩大客户数量,更不是一下子增加到一千辆车,而是在一定的规模化下做技术研发。在特定的时间做出正确的决定,对彭军来说这就是创业里最重要的事。


2021年2月,小马智行完成3.67亿美元C轮融资,2022年3月,完成D轮融资的首次交割,公司估值达85亿美元,是当时国内估值最高的自动驾驶公司。


按照原先的计划,他们本来不需要D轮融资。2021年6月,彭军在采访中透露,公司正考虑在美国上市。同月,他们招聘了一位来自美国的CFO劳伦斯·斯泰恩,他曾是摩根大通投资银行副主席。据报道,小马智行高管团队一度开始了上市路演,但就在7月底,美国证交会宣布停止办理内地企业的IPO或其他证券发行的登记手续。


得到消息时,王皓俊刚从美国回来,正在隔离。他用了整个隔离期来消化这件事,告诉自己,这是黑天鹅事件,谁也没有办法。回到公司,他和彭军、楼天城讨论了接下来公司要做的转向,他提到一个当时必须考虑的问题:现金流消耗。此前他们按照上市成功来规划,招了很多人,导致现金消耗很快,他们必须想出对策。9月开始,小马智行收缩了卡车研发团队,原本的造车计划也取消了。


2022年,公司继续收缩团队,控制成本。年底,小马智行成立了乘用车智能驾驶技术(POV)业务部门,开始为车厂提供L2技术方案,创造新的营收。至此,小马智行的营收方式有三种:无人驾驶出租车、无人驾驶卡车、POV业务。


2022年也是自动驾驶领域坏消息不断的一年。在美国,背靠福特和大众的L4自动驾驶公司Argo AI宣布停止运营,最领先的自动驾驶芯片公司Mobileye在美股上市之后,市值一度腰斩,跌破200亿美元。在中国,自动驾驶行业的累计融资额从2021年的932亿元,缩减到2022年的240亿元。


就在赚钱开始成为问题的同时,技术方面迎来了一个好消息。2022年12月30日,小马智行获得了一份北京政府的文件,全称是“无人化车外远程阶段道路测试许可”。这意味着他们可以在北京的特定道路上“整车无人”行驶,安全员不用坐在车里,只需远程监控。


楼天城将这一天称为完全自动驾驶的分水岭。在此之前,公司更多需要考虑的是纯技术的因素,要提升自动驾驶的能力,在这一天之后,公司的重心要开始放在非技术因素上,比如成本、规模化能力、标准化能力,楼天城认为这会带来新的挑战,但已经不再是单纯自动驾驶技术上的挑战了。


2023年初,彭军在公开发言时提到,“未来三年将是小马智行商业化的关键攻坚时期,公司战略目标非常明确。”此后,小马智行先后获得了北京、广州、深圳、上海四个城市的“无人商业化”试点许可,启动了无人网约车业务。小马智行最重要的“主干”,L4自动驾驶,终于要迎来商业化的落地了。


楼天城曾经最担心车的水平会比不过人,但这一关早在2020年就过了。车的成本在他看来也是技术的一部分,最初他担心硬件太贵,但最近几年,激光雷达大幅降价(2017年单颗8万美元,现在几千元人民币),成本降低很多。再加上政策的支持,他判断影响商业化的问题都已经解决了。


到2024年11月,小马智行已累积超过4000万公里的自动驾驶路测里程,其中无人化自动驾驶测试里程近400万公里。楼天城说,2025年,公司将做到单车盈利,也就是说新增的每一辆车都会带来更多营收,到那时,规模化的阻碍也消除了。楼天城和彭军在创业初期提出要做成L4,就要做到无人化、规模化,这个目标就在他们眼前不远处了。


11月27日,小马智行正式在纳斯达克挂牌上市,股票代码“PONY”,成为Robotaxi第一股。在扩大发行规模后,若承销商的超额配售权悉数行使,小马智行以每股13美元的定价将发行总计2300万股美国存托股票(ADS,每份ADS对应1份普通股),融资额达2.99亿美元,成为今年以来美股自动驾驶领域最大规模IPO。加之此次通过同步私募配售价值约1.534亿美元的普通股,小马智行本次IPO总募资金额可达约4.52亿美元。



Part 10

AI的终极形态



自动驾驶的未来价值,楼天城预测,是它将成为人与AI关系改变的先锋,“(这个开端)不是机器人,应该是自动驾驶,或者说自动驾驶是机器人最好的应用。”


自动驾驶,更准确的说是无人车,实际上就是驾驶领域的机器人。它能“看”,能“想”,能行动。它其实也能说话,当乘客下车后忘记关车门,它会对路人说,请帮帮我。但它的智能只体现在驾驶这件事上,它的世界模型是关于道路交通的。


楼天城认为,如果要为通用人工智能(AGI)建构一个世界模型,难度会非常高,不是现在任何一个世界模型可以比拟,难度也不是简单的线性关系,“需要一些全新的东西”。


最近,关于通用人工智能(AGI)的讨论很多,软银CEO孙正义今年6月说,AI“将在10年内比人类聪明一万倍”,AGI将在10年内到来。谷歌首席研究员Ray Kurzweil更乐观,声称AGI将在2029年到来。


通用人工智能可以被理解为人工智能的终极形态和发展的最终目标,指的是在所有方面都达到和超越人类水平的智能系统,能够完成人类能完成的所有任务,也被称为强人工智能、超级人工智能。


今年7月,ChatGPT的母公司OpenAI提出了有一个对人工智能的分级标准,定义的第一级是:能够以对话方式与人类互动的人工智能,包括OpenAI旗下的ChatGPT及其他常见的AI对话助手。目前我们熟悉的各家AI大模型公司也基本都属于第一级别。


第二级是“推理者”,能够解决基本的问题,这一级别人工智能的水平相当于拥有博士学位但无法使用工具的人类。第三级被称作“代理”,也就是AI智能体,OpenAI将其定义为能够代表用户采取行动。第四级是能够创新的人工智能。


最高级别第五级的人工智能可以执行组织工作,这也是实现AGI(通用人工智能)的最后一步。


要怎么让现有的AI升级成为AGI?科学界普遍认可的观点是,需要世界模型。我们在前文提到过,世界模型会给人工智能带来对世界的认知,让它能抽象地理解事情发生的因果关系,进行推理、预测。比如,刚出生几个月的婴儿就知道,用手推动一个杯子,杯子会落到地上;我们看到一个坐在桌子后面的人,即便只看到上半身,也知道桌子下有两条腿。这种预测和推理的能力来自于常识,杨立昆认为这就是智能的本质。


但关于世界模型,科技界的一大分歧是,以ChatGPT为代表的大语言模型到底能不能成为世界模型。



对此,杨立昆有一句知名发言:现在的AI对世界的了解还不如你家的猫。他提到的AI就是指大语言模型。他还曾说,五年内不会再有人想用GPT,因为它永远无法实现像人类一样的推理和计划能力。


北京通用人工智能研究院国际交流部部长张杨在接受采访时说,大语言模型“本质上可以认为是一种复杂的查询,需要大量重复数据来训练”,而通用人工智能的特点是“能够自主感知、认知、推理、学习和执行,不依赖于大数据,基于无标注数据进行无监督学习”。他以乌鸦喝水来比喻AGI的能力,看似简单,却是自主推理行为,是由价值与因果驱动的高级智能。


ChatGPT确实经常在涉及常识的领域闹笑话。今年7月,人们发现它不知道9.9和9.11这两个数字哪一个更大。它会用专家式的语言进行论证,最终给出9.11更大的答案。有媒体测试了几家国内的基于大语言模型的AI对话助手,它们的表现也不尽如人意。


OpenAI今年声称GPT-4模型即将拥有推理能力。批评ChatGPT的专家们则认为,现在的生成式大语言模型确实反应很快,但它只能做到对世界进行摘要性描述,而无法对真实世界产生理解。就像洞穴里的人只能看到影子,而看不到事物的本质。杨立昆判断,大语言模型是通向AGI(通用人工智能)的一条歧路,“我讨厌看到人们浪费时间”,他说。


他举了一个有趣的例子说明大规模语言模型为什么无法通过“语言”和“大规模训练”产生真的智能。


顾名思义,这种模型要依靠海量文本进行训练,假设它能够学习互联网上所有公开文本,那这些文本的数据量会达到2×1013字节。如果人类每天阅读8小时,需要17万年的时间才能读完。但我们不知道的是,当我们还只有四岁的时候,在此前生命中醒着的16000小时,我们已经通过视觉神经接收了1015字节的数据——是互联网上所有文本数据量的50倍。


杨立昆因此提出,人类学到的大部分知识都是通过观察和与现实世界的互动得来的,而不是通过语言。所以要让机器具备智能,必须让它通过世界模型来理解真实世界。


但这个模型到底要怎么实现?结论是还没人能做到。


杨立昆发表了一篇名为《A Path Towards Autonomous Machine Intelligence Version》的论文,提出一种联合嵌入预测架构(JEPA)。对比来看,ChatGPT等生成式模型的架构是通过前值预测后值,而杨立昆提出的这种架构的重点是预测前值与后值之间的抽象关系——也就是从描述现象,升级到理解因果关系。


不过,这个架构还只停留在一种技术设想,杨立昆承认,目前还没人知道如何规模化实现他的设想。


总的来说,这位深度学习三巨头之一、卷积网络之父,热衷于给高速发展的大语言模型泼冷水,同时,他推崇的世界模型的研究仍处在起步阶段。


对于AI的未来,科学家、AI公司的创始人们有各种预测。比如,杨立昆和马斯克就持有截然相反的观点,杨认为AI会带来文艺复兴,让人类获得更多创造力,马却认为AI很快就会变得强大,想要掌权,会威胁人类世界的安全。


谁也不能确定未来会怎样。或许当有一天世界模型被研发出来,我们应该让AI自己预测自己的未来。



Part 11

我们不是马车夫,而是被淘汰的马



写这篇稿件的过程中,我又和我妈聊起自动驾驶,她一边开车一边很认真地问我,那些无人车真的不是后台有人在操作的吗?我突然不知道该怎么解释。要讲的太多,如果从头说起,几十分钟的路程大约不够用。我只能说,真的没有,那么多车,人怎么管得过来?这种毫无逻辑的回答,她竟然也接受了。她转而讲起十年前,自己兼职开滴滴和优步,每个月能赚一万多的事情。


我想,她早晚会接受自动驾驶的,就像她也很快明白了什么是手机APP,并且欣然与一个陌生人通过APP建立联系,然后在现实世界中载对方一程。事情总是在我们不知不觉间发生。


从小学起,我坐在父亲的副驾驶座上往返家和学校,路上要花几十分钟。他开车平稳,我得以在车上补觉、吃早饭。他会俯下身,从副驾驶的手套箱(我们称之为“手扣”)里面拿出一个硬皮发票夹,把烫手的煎饼夹进去,让我捧着吃。我还记得一次下雨天,我看到父亲用手不停调整雨刷器的频率,感觉这太麻烦了,我说如果玻璃能感知到雨的大小,自己调节雨刷器就好了。很久之后我知道这叫做“雨量感应雨刷器”,早在1951年就发明了,但当时我以为自己有当发明家的潜质。


高中毕业,我学会了开车,工作后又拥有了自己的车。2008年,我在驾校学的是手动档汽车的驾驶技术,离合器与档杆的配合让我手忙脚乱,考试时还有一项专门为此设置的测试:坡起。2014年,我买车时,手动挡汽车几乎买不到了,自动挡汽车再也不会因为人的操作不当而熄火,我艰难学会的技能不再有用武之地。


我买了一辆基础配置的自动挡车,它缺少一些当时专属于高档车的功能:彩色显示屏、倒车影像、座椅和方向盘加热、巡航定速。最后一项功能让车可以在高速路上以固定的速度前进,不需要司机一直脚踩油门。这是最初级的(L1级别)自动驾驶技术。我后来开过有这项功能的车,当我在时速120公里时按下巡航定速按钮,从油门踏板上抬起右脚,看到车继续平稳向前的时候,我感到轻松。人类绝不会在这种时刻想到自己有一天会被机器取代,我们只会感叹科技解放生产力。实际上,我的被解放的右脚无处可去,为了安全,还不得不虚放在刹车踏板上,但我在这种与机器的配合中感到自己也在进步。我使用了新技术,我成为新人类了。


另外一项L1级别的自动驾驶技术叫做车道保持,我今年才刚刚尝试。依然是在高速上,车可以通过摄像头识别车道线,自动控制方向盘,保持在车道中央行驶。至此我的双手也被解放了。但这项功能要求驾驶员双手仍放在方向盘上,我因此感到方向盘深处传来的动力,它微微颤动,自己调整方向,当我决定变换车道时,它甚至会在一瞬间与我争夺控制权,试图继续维持行驶在车道内。


我产生了一种与此前截然不同的感受。我很紧张,还有点害怕,比自己开车更累了。类似的感受还出现在去年,我试驾一辆新能源汽车时。它拥有L2级别的自动驾驶功能:自适应巡航,可以在城市道路上自动调整车速、保持距离。快到路口,坐在副驾的销售人员让我相信它,不用踩刹车,我眼看着它以接近60公里的时速冲向停在路口的车,许久(其实大概只有几秒钟)都没有减速的迹象,我忍不住踩下了刹车。理智上我相信这项技术,但恐惧让我无法放弃控制。


我想起一位自动驾驶安全员说过,他在工作中“很能挺”,意思是他在路上能做到极少控制车,让它自己处理路上的情况,为机器学习积累更多场景案例。此前我以为这项工作最难的部分是忍受无聊,此时我才意识到,最难的其实是克制人类本能。


历史上,人类经常出于本能(或者我们自认为的理性)试图阻止新技术。1865年,蒸汽机发明之后,英国通过了一项《红旗法案》,规定铁路机车必须有至少三人驾驶,其中一人需在车前约55米外步行引导,并手持红旗,警示附近的骑士和马车,必要时需要让机车停止,协助马匹与马车行进。而且,车的速度不能超过每小时6.4公里,比马车快不了多少。这一法案实行了30年,后来也被用来规定汽车的操作和行驶。


更广为人知的例子是,18世纪织布机问世后,英国的工人们认为机器是威胁他们生计的罪魁祸首,于是开始破坏纺织机械以反抗机器生产。


↗ 自动驾驶车辆维修车间里的工具


三个世纪过去了,现在的人类呢?面对自动驾驶,面对被AI替代的未来,我们怎么办?


坏消息是,留给我们的时间可能不多了。腾讯研究院高级城市规划师王鹏在《自动驾驶最终将怎样改变社会?》一文中判断:自动驾驶并非逐渐替人类驾驶,而很大概率会是一个突变过程。他认为我们已经习惯了如网约车替代巡游出租车这样的渐进替换方式,“习惯了在单一系统内线性外推,估算新技术的各种影响”,但自动驾驶会带来的是“产业革命”,“其引发的会是整个社会经济系统的全面改变”。


尤瓦尔·赫拉利在《未来简史》里也提到汽车取代马车时的历史,只是他认为我们现在的处境并不像当时的马车夫,而是像那些被淘汰的马——“任何一匹农场里的马,不论是在嗅觉、爱的能力、认人的能力、跳过栅栏的能力或是其他上千件事情上,绝对都远高于历史上首款平民汽车福特T型车,或是价值百万美元的兰博基尼。然而,马仍然被汽车取代,原因就在于汽车在社会系统真正需要的那少数几个领域中胜出。出租车司机很有可能也会步马的后尘。”


《AI未来进行时》书中有另一个科幻故事,讲的是2042年一批被AI替代了的建筑工人的处境。他们失去工作后,不得不接受“职业再造”,一家专做职业再造的公司将他们安排在一间大房子里,让他们通过VR远程操作建筑工地上的零部件。工人们手忙脚乱,以为自己有了新的工作。但实际上,这些建筑工地并不真的存在,职业再造公司给他们提供的是虚拟工作,或者说,是一种像工作一样的游戏。有人质疑这是一种欺诈,人应该去实现自己的社会价值,公司的负责人说:

“朝九晚五、保持稳定就是他们对社会最大的价值”,“当你不知道工作是真是假的时候,这就不算欺诈。相信我,如果你让人们选择红药丸还是蓝药丸,大多数人都会选蓝药丸(保持愚昧并继续过着平凡的生活)。有谁愿意承认自己一无是处,只能靠AI的施舍过日子。” 这位工人的“再造者”最后说,“也许这是我们能为人类保有的最后一丝尊严。”


在这个科幻故事之后,李开复写下更令人难过的评论:

比起失去工作,对于人类来说更为不幸的是失去人生的意义……未来,人们将看到,在其毕生扎根、钻研的工作中,自己会被AI算法和机器人轻而易举地超越。那些从小就梦想进入某些行业的年轻人,他们的希望可能会就此幻灭。


与这些坏消息相比,我本来要说的好消息,显得有些无力。我还是写在这里。


北京大学的教授胡泳在接受《财新》采访时谈论为什么我们都应该关注人工智能带来的问题。他认为这已经不单纯关于科技,而更关乎哲学,“基本的哲学问题可以简单概况为三个方面,一是宇宙是什么,二是人类作为一个物种,又是什么,三是从个体角度而言,我是谁。人工智能会影响到对这所有三个问题的定义和看法。”


我想,如果AI的发展能够让人类再一次重新审视“我是谁”,那这也可以算是一个好消息。


胡泳说:“如果还是在一般意义上讨论人的价值,恐怕已经很难,因为机器的记忆和处理能力比人类强大太多,几乎没有可比性,很多人类操控不了的工具,机器却可以,人会不自觉地认为自身比机器低一等,所以,这就需要重新界定价值。今天,如果要重估一切价值,其实,核心就是人的价值几何,尤其是与机器相比,人的价值到底又是什么。”


历史上,上一次对人的价值的集中审视,还要追溯到文艺复兴时期,人文主义的兴起。人们的视线逐渐脱离神,转向人。生来有罪的观点被摒弃,人的尊严得到肯定,人被认为是独特的,有灵魂的。而现在,科技发展到我们可以看透人类大脑的每一个神经突触,再将这个原本神秘独特的结构复制到机器上,制造出超越我们的人工智能。那人类还是独特的吗?人的灵魂还存在吗?


人的价值到底是什么?AI会怎么回答这个问题呢?


FC中文版
商业、公司及人的发展与文明
 最新文章