导读:作为解决大数据问题的重要支撑技术,优化的相关方法已在数据科学中获得广泛应用。比如说生命科学中蛋白质折叠就可归结为能量最小的优化问题;在航空航天中,飞机的外形设计,航天器飞行轨道的选择,有效载荷布局设计等都涉及优化问题;在大数据、人工智能等领域,语音识别、指纹识别、虹膜识别等问题的核心都可以归结为优化问题。自动导航和自动驾驶中的道路规划,无论是路径最短还是时间最短,都可以归结为图与网络流的优化问题。
以下内容根据袁亚湘院士演讲记录整理,经讲者审定。
大数据与优化
今天很高兴来到这里跟大家交流,我在中国科学院数学与系统科学院,是做数学的,我自己的方向是最优化,不是做大数据的。
今天借这个机会谈谈我自己做的优化跟大数据的关系,从大数据的应用出发,引入我做的优化,跟在座各位企业家朋友做个交流。
大数据的重要性不言而喻,2015年国务院发布白皮书《促进大数据发展行动纲要》中,强调了三点,首先,大数据是推动经济转型发展的新动力,这一点也是在座各位企业家非常关心的。
其次,大数据是重塑国家竞争优势的新机遇,大数据的发展对于一个国家的国际竞争也非常重要。最后,大数据也是提升政府治理能力的新途径。总之,大数据的作用在方方面面都得到了非常大的重视。
国际上,2016年美国政府就发布了《联邦大数据研发战略计划》,详细地强调了大数据的作用、发展趋势以及美国政府和相关企业应采取的措施来保证美国在大数据领域的领先地位。实际上西方的很多国家都出台了类似文本和文件,以此来推动本国的大数据发展。
国内,我们国家的数据科学中心、数据学院在大学中不断涌现,如北京大数据研究院、清华大学大数据研究中心、复旦大学大数据学院、西安交通大学等,许多企业也建立了大数据中心,如深圳有深圳市大数据研究院,华为、腾讯等企业对大数据非常重视。
一、大数据的广泛应用
大数据应用非常广泛,举几个例子:
比如交通,这张照片是北京市交通委监控显示屏,我当时参观时不让我照相,因为是保密的,这是我从网上下载的照片,当时给我介绍的这个人说北京市每个路口的所有数据,多少辆车,甚至自行车、行人,车的牌照、颜色等等,都会上传到数据中心。
(图一 北京市交通委监控显示屏)
交通数据中,老百姓用的最多的是导航,基本上每个人都在用,特别是女同志,不开导航都不敢开车出去。从科学的角度来说,导航是交通数据应用的极少极少的一部分,但对于老百姓来说已经觉得很有用了。而对于政府决策部门来说,比如在我们研究院工作的大多住在哪个小区,市政府应该从那儿开一条公交车到我们研究院。对于公交车线路的设计、社区规划,如医院该盖在什么地方、小学该建在什么地方,交通数据都可以提供指导。交通数据的应用涉及社会治理方方面面非常地多,这里我就不再举例了。
智能方面,AlphaGo、ChatGPT以及最近的Gemini,是数学、计算、软件、大模型的进步。实际上除了大模型,这些进步背后一定有海量的大数据作为支撑。其他方面的智能,像虹膜识别、指纹识别、图像识别、公安破案等等都是利用了大数据技术。还有自动驾驶目前还在起步阶段,也许十年、二十年后街上跑的自动驾驶汽车会越来越多。总之,人工智能除了算法、模型的进步,大数据也起了很大作用。
另外一个大数据的广泛应用是在医疗方面。传统来说,老百姓最关心的是得了病怎么看病,但是现在更多是希望能够往前移:也就是说我还没得病,希望医生能告诉我可能会得什么病。我们现在都是生病了再到医院看,医生告诉我们怎么治病。我们每年都去体检,这些数据实际上都是有用的和可用的。如果大夫把我过去五年的体检表拿来,就告诉我“袁老师,你得注意了,要采取预防措施的话,你明年可能会心梗”。如果心梗以后才去治,那就惨多了,但提前预警我就很不一样了。医疗运用大数据,可把把很多东西往前推,当然这只是其中一个方面,除此之外对于社区医院体系的建立、农村医疗网的设置都很有帮助。
(图二 大数据在医疗方面应用)
金融方面,深圳也是金融城市,金融对于大数据技术应用是非常广泛的,无论是精准营销,还是股市预测、风险控制等等。金融分析虽然需要数学公式,如随机微分方程等,但背后实际上都要用大量的数据来帮助决策。
无线通信方面,大数据更起到很大的作用。过去的几年,疫情对社会产生了深刻的影响,我们国家在疫情防控方面跟西方采取完全不同的道路,因为运用大数据,使得我们做的一些事情西方是不可能做的。比方说我们用大数据对人流量的监测统计。从科学的角度来说,我们国家的抗疫政策是因为有大数据做了个帮手,如果没有大数据技术,我们国家想这么做也做不到。后来一旦放开,北京一千多万人、两千多万人,两个星期之内几乎每个人都感染了。这反过来论证,原来严格地控制,大数据确实起到很大的作用,否则不可想象。当然,关于抗疫只是其中一小部分。还有网络,大家知道,金融诈骗、电话骚扰等等,骗子也在运用大数据,现在当骗子也要学一点科技,要不然骗子也当不了。
再有就是勘探方面,过去的勘探完全是数学方法,精确地解一个数学物理问题。地底下资源很多,过去是煤,现在是石油,将来是页岩气,也有可能再过几十年的科技发展,又能在地底下找新的宝贝。大家仔细想想,养活地球上的人,地底下的资源起了很大的作用。
凡尔纳有很多科幻小说,其中一部是《八十天环游地球》,现在看来是小儿科了。但他有一本《地心游记》,地心游现在实现不了,将来还是实现不了。也就是说上天容易下地难。往地底下的探索,通常的做法是人工地震,现在也通过大数据技术帮助对地球进行勘探。
物流方面也广泛应用大数据,我们国家的快递那么方便,实际上背后也有大数据,包括我们叫出租车那么方便,背后都是大数据,如果没有大数据,很难想象能够这么方便。
零售业方面,大数据也起了很大的作用,一些大的企业、大的超市、大的连锁店,无论是制定营销策略还是产品定价,甚至超市中什么物品摆在什么位置,都是由大数据来进行科学决策,才能做得更好。库存管理就更不用说了,企业运用大量大数据对进货、库存、供应链等作出决策。
乡村振兴方面,大数据起到的作用也越来越多。当一个现代化的农民,不学一点科技也是不行的,大数据技术在农村发展中非常重要,特别是农业要做现代化的话,一定要重视大数据技术,包括农业数字经济、智慧农产品供应链,甚至养殖、种植业,也要利用大数据进行分析,再做科学决策。对于乡村干部来说,大数据也可以对他们做出科学决策提供很好的帮助。
刚刚简单说了大数据在方方面面的应用,无外乎是强调一点,即大数据在各个行业都会起着很重要的作用,不管你从事什么行业,在自己的行业前面加上大数据,就会提升价值或者效率。
二、许多大数据问题可归结为优化问题
我是做优化的,简单谈谈大数据问题,大数据可以用优化来进行建模。作为数学工作者来看数据科学,数据无外乎存在几个方面的问题,首先是数据收集,然后进行数据处理、数据分析和数据应用,如果没有数据,肯定不能谈数据科学,所谓巧妇难为无米之炊。
现在有了海量的数据,无外乎有三个问题:一是它们有什么规律?二是它们是否可以分类?三是它们能预测什么?
各行各业也涉及自己的大数据,数学跟大数据相关,比较传统的是统计、计算和优化,因为数据多,肯定要用到统计方法。海量数据肯定不能用几张纸、一支笔就能解决,一定要用大型计算机来处理。
优化是我自己做的研究,所以我想谈谈优化跟数学的关系,虽然大数据涉及方方面面,但大数据处理本质的核心技术包括三个方面,即统计、计算和优化,下面讲讲大数据问题如何可以用优化来建模。
所谓的数据问题,从本质上来说,每组数据通常会有一个观察值,比如企业有很多数据,有不同的分公司、不同的子公司、不同的部门,每个部门都报了很多数据,这些数据摆在老总的桌面上,你不用这些数据就没用,但是你用了这些数据,可能能说明有什么问题,这些数据最后得出什么结论,这就是观察值。
举个例子,老师拿到全校所有学生的成绩单,语文多少分、数学多少分、化学多少分,对应这个人的成绩单,老师一看就知道这个学生将来可以考上什么样的大学,这就是对应关系。再比如医生拿到我的体检表,说“袁老师,你要是不吃降压药的话,明年可能会心梗。”, 这也是对应关系。所以说,找到数据的对应关系,这就是数据的本质问题,从做数学的人的角度来说这个本质问题就是找对应关系。
对应关系大家在中学时就学过,对应关系是函数,在座企业家可能不是学数学的,大家想一想,你能写出的函数是不是少得可怜?我能写的函数也少得可怜,像线性函数、多项式函数、指数函数、对数函数,后来学了点高等数学,也学超越函数、用微分、积分定义的函数,好像多了几种,但还是太少太少。因为世界上任何事情都是对应关系,比如我的体检表对应的是有心梗风险,这也是对应关系。但是这个对应关系的函数我写不出来。
就像我刚说的数据,校长拿着成绩学生单,一看就知道他能考上什么层次的大学,这也是对应关系,这个函数校长写不出来,但他看了这个数据就知道。所以,我们看问题要看本质,所谓的数据问题就是一个数据对应一个关系。这个关系存在,但是我们写不出来。校长根据成绩单能知道对应关系,老郎中打脉也知道对应关心。
如果利用大数据,没学过中医的人,依靠计算机也可知道对应关系。总之,数据问题从数学的角度看,本质上就是找对应关系,世界上存在的关系太复杂,关键是这个东西怎么表达。
那为什么会跟优化相关呢?从数学上说,找关系可以建模成数据拟合问题。用通俗的语言说,对于一个关系,相应的函数我不知道,所以我寻找一个拟合它。其实,解决现实问题这种技术是常见的,科学上是这样,现实社会也是这样。什么东西我不知道,但是存在,我构造一个东西,让这两个东西的误差最小。误差最小通常就是取平方和最小,平方和就是勾股定理,欧氏空间的距离,希望它们欧氏距离最小。
现在介绍两个比较特殊的优化问题。一个是压缩感知。刚刚看到有人拿着相机在照相,照相的目的是什么?就是希望照片比较清晰,我照张照片,肯定希望看得清楚,如果不清楚,肯定不希望照这个照片。如何尽可能以少的存贮,存尽可能清晰的图像?在座各位老师可能会说,这不是问题,我有内存很大的手机。有钱的确可以做很多事情,但并不是有钱所有事情都能做。
比方说我们发射一颗科学探索的探测器,去遥远的太空(冥王星甚至太阳系之外)去探索,太阳能电池不工作了,数据多了传都传不回来,所以它的存贮一定非常少。一旦问题中出现“尽可能多”、“尽可能少”,这就是优化问题。
你希望这个图像尽可能清晰,这就是优化问题。这个问题说起来是工程问题,实际上最后科学家把它化简成数学问题,经过变换,细节我就不讲了,企业家也不用了解,反正最后把它转换成数学问题,就变成解线性方程组的问题。
在座每个人都知道,我们中学数学就学过解方程。但是这个方程的个数非常多,有几十万个方程甚至几百万个方程,量变到质变,方程个数多了就麻烦了。变量更多,可能是几亿个变量甚至几百亿个变量。
我刚刚说了两个很大的数,一是方程的个数很多,几十万个、几百万个,二是变量个数更多,几亿个、几百亿个,变量个数比方程个数还要多,说明这个方程有无穷多个解。只要存在多个解时,就要问自己到底想要哪一个。所谓压缩感知问题就是找一个解,这个解很多分量等于0,等于0就是不要存贮了。
先看一个简单的问题吧,大家看看中学的数学,比方说两个方程、三个变量,刚刚我说几十万对几百亿,两个变量、三个方程,在空间相当于两个超平面,两个超平面一交就是一条直线,这条直线上所有的点都是解。
我这里给出三个特殊解,一个是在第一象限,X=Y=Z=3/5,这个解我不想要,因为都不等于0。第二个在XY平面上,X=1,Y=1,Z=0,这个解我也不想要,我最想要的是Z轴上的解,X=0,Y=0,Z=1.5,因为只有一个不等于0。这就是所谓最稀疏的解,有两个等于0。
要求非零分量尽可能少的优化问题是一个很难的问题,数学家证明这个问题是一个非凸问题。一个向量不等于0的个数可称为向量的零范数,它是一个台阶函数。比如我站在地板上,这个函数等于0,站在桌子上等于1,站在讲台上等于2,它是台阶函数,这个函数是不连续的。压缩感知导致的零范数极小这个问题很难,需要国际上顶尖数学家来研究。
陶哲轩是获得过菲尔茨奖的华人数学家,在美国工作,他证明了NP难问题居然在一定意义下等价一个容易问题。各位企业家一定要记住,你们以后碰到很难的问题,要相信它可以转化为一个比较容易的问题。
所以我们以后碰到很困难的问题,不要灰心,不要丧气,一定要记住,很难的问题在一定意义下等价一个容易的问题,有些数学结果指导我们在现实生活中明白一些道理。
简单跟大家科普一下为什么会出现一个很难的问题会等价一个很容易的问题?刚才说一条直线有无穷多个解,我想找坐标轴上的解,刚才说是0范数,范数往往是某种距离。先看欧氏距离,例如,点到直线上的距离,就是从一个点往直线上引垂线。直线上的垂足就是解,但这个解一般不会在坐标轴上,因为欧氏距离是个球。
我经常开玩笑,如果我要跟我妈妈这样的文盲做科普,应该怎么讲呢?相当于我站在这个地方,往这条路找一个最近的点,拿一个气球去吹,这个气球什么时候碰到这条线,就是最短距离。很容易证明,如果气球在前一秒都没有碰到,说明往任何方向走这么远都碰不到,下一秒碰到了,就是最短距离。所以吹气球能够找到最短距离是很形象的,但是吹气球一般不会那么巧正好找到坐标轴上的解。
如果气球是菱形,是不是就能找到坐标轴上的解?大家想一想,如果这个气球是菱形的,你还是站在直线外这个点吹,是不是菱形的气球就会在坐标轴上碰到这条线?菱形是什么东西的等高线?X绝对值+Y绝对值,在平面上等于一个常数。这就是1范数,陶哲轩证明0范数最小等价于1范数在二维的几何解释是不是很明显?
有时候要搞清楚别人的定理美妙的地方,要找到它的本质,做科学研究脑洞要打开,人家想象气球是圆的,你要想设计一个菱形气球解决这个问题。
另外一个跟优化有关的是电影评价,电影评价只是一个例子,因为我比较爱看电影,所以举电影评价的问题。大家看电影,在网上能查到豆瓣的评分,对电影进行评价,知道打多少分。
现在很多销售业、服务业都希望顾客对自己做的服务给一些评价,包括我们打出租车,下车以后要我们评价,到网上购个物,之后也要我们评价。这些评价是有用的,我这里只是举电影评价的例子。
这里有五部电影,不知道在座企业家爱不爱电影,《万里归途》《流浪地球2》《战狼》《隐入尘烟》《奥本海默》,教室里看过三部以上的举个手?看来不少,大家跟我一样爱看电影,这五部电影我都看过。
这个表是我虚拟构造三个学生和三个老师对这些电影打的分,如果你觉得这个电影最好打5分,最差打1分,没看过打问号。那么这些问号是什么意思?比如第二个老师没看过《万里归途》,我现在问你如果这个老师去看这部电影,你猜他会打多少分?
两个问题,第一个问题是人家没看过这个电影,为什么你对人家看这个电影打多少分感兴趣?第二个问题是人家没有看这个电影,你怎么知道他看了之后会打多少分?这两个问题都很重要,第一个问题是一个事情没发生,在发生之前你就知道它的效果,这个事情本身是非常重要的。
对于企业家来说,你要做决策,你要投资什么东西、你要开发一个产品,没开发之前,要知道这个产品将来销路怎么样。领导干部做决策,一个决策还没做我就知道,我把学校盖在这儿,老百姓会欢迎,我把学校盖在那儿,老百姓会骂我。
比方说,这个电影公司很想知道这个学生是不是喜欢看这部电影,如果他喜欢看,我给他送广告,如果他不喜欢看,我就不给他送广告。
这个表是我自己构造的,假定这三个学生是三个女同学,她们是闺蜜,她们对同样的电影会打同样的分。这三位老师对同样的电影打同样的分。比方说老师1没看过《万里归途》,但是老师3看过,他给的分不高,老师1也不会给太高分,就是这么一个关系。
这只是我们讲的一个很小的数据问题,那么大数据呢,数据多了,问题的本质就变了。上面讲的是6个人、5部电影。现在介绍的是一个真实的问题,这是美国南加州电影公司Netflix的问题,公司有48万个用户、17000多部电影。公司收集租过电影的用户给相应电影打分。48万乘1万7,接近100亿,至少有80多亿。他只有收集到1亿的分数。相当于只有1%的数据,剩下99%的数据都没有。
Netflix有17000多部电影,说明美国人还是挺能看电影的,平均每个人看了170多部电影,即使这样,还是很稀疏。这个做电影的公司特别想搞清楚每个人对电影的品位是什么样,这样才能精准投放广告,于是这个公司悬赏100万美金,如果谁能把那些问号告诉我,我就给谁100万美金。
后来这个问题,有科学家帮他解决了,赚了100万美金。有些人说数学家很能赚钱,可是数学家哪有企业家聪明,数学家都穷得叮当响,企业家给你100万美金,肯定将来用这些数据能赚回不止100万美金,可见这些数据多值钱。
就像我们这个报告厅,表面上这个报告厅能坐200个人,我今天来做报告,但周末大家要陪孩子出去玩,企业家也忙得要命,所以这个报告厅本来能坐200个人,结果只来了2个人,剩下198个人都没来。那没来的198个人长什么样?你能不能告诉我?上面说的那个电影打分问题是不是个类似的问题?表面上看起来这个问题好像很难,但是实际上这个事情为什么不难呢?
因为如果这个教室可以坐100亿个人,来了1亿个,我就知道剩下99亿个长什么样了。为什么?因为17000多部电影,不可能每部电影都不一样。比如我不喜欢张艺谋的电影,张艺谋拍的所有电影我基本上都不喜欢看。而有的人很喜欢好莱坞的爱情片。你是不是觉得电影大致就可以分成若干类?至多10类、20类、30类。
人也是一样的,在座有大企业家、朝气蓬勃的年轻人,还有像我这样的糟老头,还有一些爱看凶杀片的老太太,人也是可以分成10类、20类、30类?几十乘几十的量级只有几百,最多也就几千,这跟刚刚说的100亿个分数相比,是小巫见大巫。因为同样类型的人打的分很类似,用数学语言说:评分得到的矩阵,它一定是线性相关的,也就是矩阵的秩尽可能低。很多大数据问题,看起来杂乱无章,它一定会归结为某个数学问题。
所以我们上面的说这个大数据问题,电影公司悬赏100万美金,这个数学问题也是很难,对它的理论研究还得像陶哲轩这样的大数学家去研究,把这个秩改成核范数。具体数学问题我就不讲了,反正电影评价问题能通过数学方法求解。
另外一个广泛应用的优化问题是监控视频的处理,因为一个监控视频,摄像头一直在工作,监控视频是为了大家的安全。半夜以后,所有工作单位都有监控视频,保安室无论是老大爷还是年轻的叔叔,还是很辛苦的,盯着视频看很麻烦。
实际上现在大数据技术就可以对视频进行分解,比如图中电线杆、交通牌是永远不动的,利用大数据技术把背景(不动的部分)和前景(动的部分)分离出来。一旦有移动的人或物体,监控系统可以提醒保安注意。而没有任何东西移动时,保安可以休息。视频分解是个数学问题,相当于把一个矩阵(张量)分成两部分,一部分是稀疏的(前景),另一部分是低秩的(背景)。
这就归结到优化问题,一部分是尽可能稀疏,另一部分是尽可能低秩。
总的来说,我想跟大家强调一点,很多大数据问题都可归结为优化问题。只要问题涉及到“最”怎么样就是优化问题。在科学领域,大家都说21世纪是生命科学的世纪,但是生命科学里面有很多核心问题,包括DNA测序、蛋白质折叠等,现在大家也在用人工智能、大数据、大模型来做,本质上是求解能量最低等优化问题。信息科学、地学、交通、医疗健康、航空航天、金融等领域的许多问题都可以归结到优化问题。
三、优化无处不在
优化无处不在,用通俗的语言来讲就是优化是在多种选择中挑选最好的一种,无论是企业、政府管理部门都要做决策,存在决策的问题都要问自己为什么,哪一个对自己最优的、最好的。
(图七 田忌赛马的启示)
第一场输得稍微惨一点,用下等马对战齐威王上等马,然后用上等马对战齐威王中等马,再用自己的中等马对战齐威王的下等马。我们经常唱歌“山还是那座山”,田忌的马还是那三匹马,隔日再战就变成2:1赢了。乒乓球团体赛选手出场顺序也可以用田忌赛马的策略。
我们在竞争不过他人时经常抱怨说我们资源不够、条件不够,其实在资源一模一样的前提下,经过优化资源配置会影响结果。世界上没有几个人会认为自己资源是够的。所以,不要抱怨,要看到优化、合理组合会对结果起到本质的差别。
田忌赛马告诉我们资源当然重要,但决策或许更重要。特别是在同等资源时,就要看如何决策。很多问题都可以归结于决策问题,只有极少数问题不需要我们去决策,比如太阳从东边升起、从西边落下,这我们没法决策。
世界上大部分事情都需要我们做决策。做决策就一定要问自己怎样做决策对我们最优,对我们的企业、对我们的家人、对我们本人最优?大家想一想,我们每个人之所以成为跟别人不一样的个体,就是因为我们过去做的决策跟别人不一样。
我有很多朋友是做生命科学的,在他们看来,每个人都是从单细胞发育而来的。刚出生的小孩都差不多,哭都不会哭,要医生拍一下屁股才会哭。但是,为什么我们每个人都那么的不一样?除了基因的不同,就是因为我们过去做的决策不一样,导致我们跟别人不一样。
我们经常抱怨机遇不好,实际上是你过去做的决策导致你的机遇不一样。总之,影响我们的还是决策,而大多数问题都可以归结于决策问题。大部分人做决策一般都是做对自己有利的决策。
还有一个经典优化问题,也是中国人在国际上比较自豪的,写进教科书的“中国邮递员问题”。现在年轻人都用手机,很少写信。而我们这代人年轻时常常给家里写信。“中国邮递员问题”就是,如果一个邮递员去送信,当然现在不能举邮递员为例子了,我们改成快递小哥,一个快递小哥从快递站出发,每个街道走一遍去送快递,然后回到快递站,怎样走路径最短?
大家会说,袁老师,你老是说优化、优化,现实生活中有吗?现实生活中很多问题都是优化问题。比如说如何使走的路线尽可能短,这就是优化问题。只是我们在生活中遇到的优化问题不一定非要用数学方法来精确求解。
另一个优化问题是最短路径问题(旅行商问题)。比如说美国总统要竞选,50个州都要跑一遍去演讲、去拉选票。怎么样安排,路线才能尽可能短?最短路径问题也是优化问题,类似问题对在座各位经常出行的企业家来说应该是经常会遇到。
(图八、图九 最短路径问题示例图)
比如我从北京去拉萨,还要去上海、昆明、深圳,再从深圳回到北京,如果这么走,肯定要走很多冤枉路,多花很多交通费。比较合理的安排应该是先去上海,然后深圳、昆明、拉萨,再回到北京,这样走一圈,路程更短,也就是按照红的路线来走。大家可以用尺子量,肯定比上一张PPT的路程短得多。这里只有4个城市,大家一看就清楚哪一个路线最优,如果需要去的城市多了,问题就会非常复杂。比如,我要去4个城市,先去哪个城市有4种可能,去掉这4种可能之下,剩下3个还有3种可能,所以是4×3×2×1,它是一个阶乘,阶乘就是从1一直乘到这个数。阶乘增长得非常快,有个斯特林公式可以把N的阶乘算出来,它的主要部分是指数函数。说到指数函数,如果有指数函数那么多种可能性,做决策就是很难的问题。
有一个非常著名的故事或者笑话,发明国际象棋的塞塔(Sissa)是印度著名发明家,印度皇帝要奖励他,问他要什么奖品,塞塔(Sissa)说我也不想要太多奖品,因为我发明的象棋盘有64格,你给我第一格放1粒米,第二粒放2粒米,第三格放4粒米,第四格放8粒米,以后每一格翻一倍。皇帝把管家叫来,让管家准备米去,过了一会儿,管家回来了跟皇帝说,好像我们没有那么多米,不仅印度没有那么多米,全世界都没有那么多米。虽然我们的袁隆平为世界粮食产量作出了巨大的贡献,可能至今为止全世界都没有生产过那么多的米。8×8=64,每次都翻倍,每次乘2,2的64次方是一个天文数字,大概是4000亿吨,而现在全世界的水稻产量每年还没有10亿吨。可见指数增长的可怕性。这也是为什么大数据那么重要,数据多了之后,如果指数增长,非常复杂,解决问题非常难。
不过,数学家还是有办法解决一些很难的问题。德国数学会原会长Martin Groetchel给我画了照片,把我的脸高度抽象成13731个离散的点,然后把13731个点连成一条最短的路线,解了一个13731个城市的最短距离问题。
关于优化,我们国家华罗庚先生曾在全国各地推广优先法,深入到工厂、医院、矿山、农村推行优选法。优选法当时对我们国家国民经济做出了非常重要的贡献。
四、优化的方法
接下来简单介绍优化方法,其中一个是梯度法。因为优化是求最好,梯度法就是沿着梯度方向找,基本思想是沿着最速下降方向找函数最小值,相当于爬山沿着最陡的方向上山。
优化的另外一个技术是交替方向, 如果需要做决策的问题涉及很多变量,每次只考虑一个变量。相当于一个大企业,涉及很多分公司,总经理每次只关心其中一个。类似情形是高考复习:星期一复习数学,星期二复习语文,星期三复习英语,星期四复习物理,星期五复习政治,星期六、星期天休息两天,下个星期重来,这就是交替方向。所谓交替方向就是不断沿着一个方向去求一个函数的最小,轮流有调整不同的变量,不同时间只做一个变量。这就是典型的交替方向,工程师非常喜欢用。
另外一个是可分离问题,如果一个问题涉及两个部分,相当于一个项目可以分成两个子项目,但是这两个子项目互相不是耦合的。这里有一张简单地图,这张棋盘上一共有多少枚棋子,怎么数?有一个很好的办法,男生数白棋,女生数黑棋,他们俩数完,加起来,我就知道总共有多少棋子,这样就加快速度了,可以同时进行。相当于一个优化问题有两部分求极小,这两部分是不相干的,可以两部分同时做,每一部分都是一个小一点的问题。这是典型的分而治之。
现实生活中也是这样,一个大项目可以分成两个子项目,两个子项目不相关,变成两个小问题,所以大问题可以转换成小问题。如果再小的问题还可以继续分解,我们就可以逐步地把大问题变成小问题。
还有一个问题是表面上看起来是相关的,实际上本质不一样是在一个优化问题里有两部分搅在一起,这两部分的变量是同样的,但是这两部分耦合在一起的。我对每个部分求极小都擅长,但两部分混合在一起就不太好办。
举一个不恰当的例子,就好像我游泳游得很好,打篮球也打得很好,但是你让我一边游泳一边打篮球,那就难为我了。对于两个函数,对它们求极小你分别都有很好的算法,但合在一起就不太容易做了。怎么做呢?我们把它升维,本来都是在同一组变量下要求它,一个用Y代替,一个用Z代替,用数学的语言就相当于升维了,在高维空间中看低维问题。就像我们在科幻电影中经常看到的那样,经过虫洞跑到高维空间去,低维空间的问题升级到高维问题就变成可分离问题了。
还是用刚刚那个俏皮的比喻,你又让我打篮球,又让我游泳,这是难为我吗?现在我们改成让姚明打篮球,让孙杨游泳不就解决问题了吗?可是不对呀,我本来是让你去打篮球、游泳,你现在让姚明打篮球、让孙杨游泳,这就变成两个人了,变成另外一个问题了。
我的问题是X,你现在变成Y和Z了,不是同一个事情。如果我要求Y和Z相等,不就又回到同一个问题了吗?有得有失,“得”的是这个问题看上去是可分离问题,这两个变成不相干了。“失”的是你现在把一个无约束优化变成了有约束条件优化问题。不过,处理约束我们有办法,数学家可以用拉格朗日函数来解决,下面我会提到。
还有一个,现在处理优化问题,子空间技术也用得非常多,大数据问题和高度复杂的问题都是超高维的问题。
(图十 神经网络示意图)
这是神经网络示意图,模拟人的神经网络,一层一层神经元,神经和神经之间有通道,这些通道有一个激活函数,每条线都有一个参数要调。我画的这个只是五六层神经网络,每层只有五六个元素。但是现在的大模型用到的深度神经网络可能是几十层、几百层甚至几千层,每层神经元都有几十个、几百个。
也就是说几百万根线,这就导致几百万维甚至几千万维空间优化问题。这样的问题非常难。所谓子空间方法就是对于巨多参数的问题,我在低维空间求解,每次迭代就变成一个小规模问题了。
还有一个求解大规模问题的做法就是随机技术。通俗的说,随机就是随便抽签。比方把交替复习各门功课变成随机交替,就是把刚刚我讲的星期一复习数学,星期二复习语文,星期三复习英语,星期四复习物理,星期五复习政治这一固定顺序不要,而是每天随机选一门复习。
星期一早上起来,把数学、英语、语文、政治、物理做成阄,放在脸盆里,早上让你爷爷抽个签,抽到什么,今天就复习什么。明天早上再找奶奶抽来决定复习什么科目。如果大家都这么复习的话,每个人都能考上北大清华。(当然这是开玩笑,大家不要当真)
什么意思呢?随机这么做得到的效果,无论是在数学上的证明还是实际上的数据结果,都很好。这是有数学理论的,很神奇的。比如市领导,1月份去福田区,2月份去南山区,3月份去盐田区,固定顺序不好,市委书记应该做个标签,抽到哪里去哪里。因为固定顺序去之前都有准备,做的是表面工作,随机的效果反而更好。
你们当老总,管很多人,别什么东西都按照某个固定的顺序表,底下人知道你的规律了,可能得不到真实的情况,固定的顺序不如随机抽查效果更好。比如高校的领导,你要了解学校的学生,不是按学号,星期一找学号001的,星期二找学号002的,星期三找学号003的,这样的话,等你下台了,也没面试完学生,还不如到食堂去,闭着眼睛抽一个学生叫到校长办公室了解情况,这样更好。这种随机技术现在在大数据里使用非常多,而且效果很好,有广泛的应用。
随机梯度法也是现在人工智能、机器学习使用非常多的方法,很多大数据、人工智能碰到的问题都是因为它是要求一个函数在期望意义下最优,比如炒股票,投资也是在期望意义下,期望是个数学概念,通常通过抽样来计算和近似,这就常常会需要求得很多项的平均值的最优值。
比方说你当市长,所在的城市也许是2000万人,每个人的平均诉求达到满足就是最好的。但是这么多,不可能每一项都加起来,不可能几千万人都去了解,你可以随机挑一些,取平均值,取子集。这就是为什么抽样,用部分来代替整体,这就是随机梯度法的基本思想。
还有一个优化问题是多目标优化,在座都是企业家,你们解决问题肯定不可能是单一目标,比如供应链问题有最小化成本、最快交货速度、最小化库存等等,在金融当中,既要想办法收益尽可能大,还要风险最小,但往往这些目标之间是有矛盾的。比如有两个函数求极小,我有两个目标,有一个决策是对这个目标好一点,对那个目标差一点,另一个决策是对这个目标差一点,对那个目标好一点,很难说谁好谁坏。
用数学语言来说,这些都是帕累托解,也就是这些都可以接受,但是到底取哪个最好,要具体问题具体分析。多目标也可以转换成单目标问题,你可以用加权平均,关键是看哪个因素强调得更重要。
还有这个有约束转换成无约束,有一个拉格朗日函数方法,拉格朗日是法国著名科学家,在座各位以后去巴黎玩的时候,埃菲尔铁塔第二层有很多科学家的名字,相当于在天安门城楼把我们国家科学家的名字写上去一样,埃菲尔铁塔里面有九个数学家的名字,西方尊重科学家还是比较值得我们学习的。
五、大数据与优化必将发挥更大作用
总之,大数据和优化在各行各业都会发挥更大的作用,作为数学工作者,最后,给大家介绍几个著名科学家对优化评述的话。
我认为,牛顿是有史以来最伟大的数学家,他在其著名的《自然哲学的数学原理》这本书第二版前言写到,他十年前就和最杰出的几何学家莱布尼茨通信,就知道求最大值和最小值。
牛顿跟莱布尼茨这两个人因为微积分发明权之争,一直不对付,所以牛顿有意贬低莱布尼茨,把莱布尼茨写成几何学家,因为几何学只是数学的一部分。
如果在座的企业家,我只说你是纺织行业专家,你肯定不开心。莱布尼茨当然不仅仅是几何学家,他还是数学家,而且莱布尼茨不仅是数学家,还是著名的哲学家。我们来看看莱布尼茨说的话像不像哲学家说的话“我们的世界是一切可能世界中最好的世界”。莱布尼茨也是伟大的数学家,1684年就写了一篇文章求极大极小。求最大最小一直是数学家感兴趣的,我想现实生活中也是大家应该引起重视的。
另外一个著名的数学家叫欧拉,数学中也有一个著名的公式叫欧拉公式,一个凸多面体,点的个数、轮边的个数、面的个数满足一个欧拉公式,小学生都知道这个名字,对数函数也是欧拉常数。
这个世界上任何决策都是优化问题,只是你不可能用数学公式去推怎么做决策,但是你要有这个意识,存在不同的决策,就要选择一个最优的决策。
总之,任何存在决策的问题都是优化问题,真正讲科学的人不能拍脑袋做决策,要用优化思想武装我们的头脑!
END
关注我们,查看更多精彩内容!