王万茂先生:《土地研究札记与随笔 》(44)预测悖论和大数据思维与应用

文摘   教育   2024-07-22 09:00   江苏  

44

预测悖论和大数据思维与应用

"人往高处走"这是人的本性;"水往低处流"这是自然规律。人们想往美好,社会憧憬未耒,"云在蓝天水在瓶"。我国自古以来就重视人类的预测活动,"凡事预则立,不预则废","人无远虑,必有近忧"。老子在《道德经》第七十一章中告诫人们:"知不知,尚矣;不知知,病矣"。努力学习和掌握自已尚未懂得的知识,这是正确的态度,不要不懂装懂,那是一种病态的表现。

01.预测概述

预测是任何类型规划所必须采用的技术手段。预测与规划之间关系已达到密不可分的境地。规划是研究未来的,未耒存在众多不确定性,预测已成为在不确定性当中寻求确定性的重要路径。

科学预测不是空想和臆造,更不是诗人般的想象,而应遵循"惯性原理"、"类推原理"和"相关原理"开展预测活动。
预测活动实际上就是收集信息、输入信息、经过预测技术的处理、分析、加工、然后输出预测信息的过程。任何事物发展都具有其连续性、没有事物的过去和现在,就没事物的未来。“过去一现在一未来”的连续性,不仅是时空的连续,也是信息的连续。
在预测中还要加强对不确定性的识别和处理能力,尤其是要确保预测中输入的初始数据的真实性和准确性,以遏制"蝴蝶效应"的发生。
由于未来不确定性的存在和人的认知能力的限制,预测结果往往与实际情况之间存在着偏差。正如海森堡(W.Heisenberg)在《测不准原理》(UncertaintyPrincipIe)中告诉我们,"严格地讲,客观上没有人能够准确地预测未来"。
作者认为,这不能成为全盘否定预测的理由,因为人们关注预测不在乎它是否准确,而在于满足其对未来美好憧憬的好奇心,人们需要一个预测。
正如肯尼斯.阿罗(Aro)故事中他的上司给他的回复说:"上级知道,短期气候预测是不准确的,但是需要这些预测的结果,以供计划和决策使用"。
又如奥斯汀.罗宾逊所说:"错误概率为50%的预测,要大大好于不做任何预测,因为不做预测,就意味着完全在黑暗中做决策"。

02.预测悖论

这里存在着"预测悖论",即现实确定性预测是不确定性未来实际的反应;而不确定性未来的实际,又是现实确定性预测作用的结果。这就是确定性与不确定性之间的辩证法,它们永远处于转型变化之中,毫无疑问,这是绝对真理。正如罗马俱乐部的重要成员拉斯格曾说:"未来不是被预测的,而是被创造的;预测是路标而不是目标"。预测本身就是创造性的过程,为人们提供了一个对未来可能性的预判。

面对不确定性在我们世界里面无处不在的现实,人们习惯于应用机械思维和确定性的方法,难以作出准确的预测。借用海森堡的话说:"在因果律的陈述中,确切地知道现在,就能预测未来。因为我们不能知道现在所有细节,这是一种原则性的事情"。测不准问题归因于对现在的了解和掌握,以及初始数据的真实性和准确性。这个观点也为《蝴蝶效应》论文作者洛伦兹(L.V.Lorenz)两次输入同样的数据之差仅为0.000127,却导致两项巨大差异的计算结果所证实。所以,洛伦兹认为,"巴西丛林中一只蝴蝶偶然扇动翅膀,会在美国得克萨斯卅掀起一场龙卷风!"是可能的。这就说明了表面上混沌无序,而实际上具有深层次规律性的特殊运动形态,表现为对初始条件十分敏感。
W.海森堡提出了著名的"测不准原理"(又名不确定性原理),在其著作《物理学与哲学》中曾写道:"自然比人类更早,而人类比自然科学更早"。也就是说自然在人之前,人又是在科学之前,因此,科学本身受到人自身判断的影响。他的测不准原理实际在说这个道理,即许多规则本来就是人来制定的,人再拿它去做测量标准,自然会遇到一些问题,如人们根据光速在单位时间通过的距离来定义米的单位,但通过的距离米与人有关,所以,这是一个悖论,是测不准的根本原因所致。

03.信息论与大数据思维

不确定性或者说难以找到确定性是当今社会的常态。在无法确定因果关系时,数据为我们提供了解决问题的新思维和新方法。数据中包含的信息可以消除不确定性,而数据之间的相关性,在某种程度上面可以取代原有的因果关系,帮助人们得到想要得到的答案,这便是大数据思维的核心。这种认知与传统的数理统计学的理论相悖,在那里相关关系与因果关系是两亇即相关又差别的科学概念。

大数据(bigdata)是一种新的思维方式,数据成为人类建造文明的基石。相关性便成为使用数据的钥匙。世界上许多事情难以确定的方式来表示,看起来混沌,但并非没有规律可循,通常可以用概率模型耒描述。在概率论的基础上,香农(CIaude.E.Shannonu)创造了信息论(Informationtheory),将不确定性与信息加以联系,並指出,要想消除系统内不确定性就要引入信息,以信息量耒度量不确定性的数量与程度,这就成为信息时代处理事情的根本办法。
在大数据时代,数据之间常常有我们想象不到的关联性,利用这种关联性,不仅可以获得想要的信息,而且还可能得到意想不到的惊喜。从理论上讲,只要找到足夠多的具有代表性的样本(数据),就可以运用数学找到一个模型或者一组模型的组合,使得它和真实情况非常接近。在工程上采用多而简单的模型常常比一个精确模型成本更低,也被使用得更普遍。以用若干个简单模型取代一个复杂的模型,这种方法被称为数据驱动方法。在误差允许范国内,单从结果上看和精确的模型是等效的。

04.传统预测思路之盲点

传统的预测科学认为:如果对事物的过去和现在一无所知,那就很难做到有根据地判断未耒。总体上说,这种认知没有错,但是,实践操作中存在以下盲点,隐含着众多不确定性:1)坚信过去和现在的状况完全无损地延续到未耒。实践证明,这是不可能的,正如哲学家赫拉克利特所说:"人不能两次踏入同一条河流"。客观世界永远处于不断变化之中,预测中只能无限地接近现实,却无法做到未耒与过去和现在完全吻合;2)实践中常选用数据易得的少数几个因素进行线性变化分析,把其余的因素全归纳为不确定性一类。忽视影响因素的多维性和非线性。通常应用人均量和规模值进行预测的做法便是线性思维的具体表现:3)明知初始数据的不足和不准,如应用5年序列数据预测未来15年后相应数据,勉强应用数学模型实施预测,隐含着大量的不确定性,人为地降低了预测精度,增大了预测结果与实际状况间的误差。
综上所述,由于预测的精度直接影响规划的科学性和严粛性,至于如何应用大数据思维和人工智能方法,开展土地利用预测研究,值得深入探索和实践。

05.大数据开发与应用的要点

人工智能领域的算法大师、华盛顿大学教授PedroDomingos提出大数据开发与应用12要点,为其开发实践具有重要的参考价值。1)数据未必可靠。
在实践应用中,有很多原因会导致数据不可靠。因此,在数据应用过程中,必须经常留心检查数据是否值得信赖。如果基于糟糕的数据耒挖掘,无论多么聪明的人永远只会获得糟糕的结果。
检查数据时发现,影响数据可靠性的归因有:a)用于开发的数据,往往和实际情况下的数据分布不同;b)数据中存在多处缺失,造成应用结果不稳定;c)数据库结构和定义可能发生变化;d)数据计量单位可能未被归一化;e)数据可能不适用于相应的算法。
2)计算难以瞬间完成
在开发智能应用系统时,有时为了达到更好的算法精度而忽略系统运算的时间。
3)数据的规模非常重要
使用更多的数据来训练简单算法,比受制于维度诅咒的复杂算法往往有更好的效果。
4)不同算法具有不同的扩展能力
有的算法可以通过简单增加服务器的方法来扩展性能,有的算法则不能。
5)并不存在万能的方法
不存在能夠解决所有智能应用问题的万能算法。不同的算法在解决特定的问题时才显得有效和得当
6)数据并不是万能
机器学习算法并不是魔法,它需从训练数据开始,逐步延伸到未知数据中去。数据和经验结合往往事半功倍。
7)模型训练时间差异很大。
在特定应用中,可能某些参数的微变化,就会让模型的训练时间出现很大的差异。
8)泛化能力是目标
如果在一个只有几百个样本的集合上去训练有数百万维特征的模型,试图想获得优秀的精度是很荒唐的。
9)人类的直觉未必准确
特征数量增加时,人类对数据的直觉会迅速降低。在低维空间中建立一亇分类器并不难,但是当维度增加时,人类就很难直观的理解。
10)要考虑融入更多新特征
谚语说:“进耒的是垃圾,出去的也是垃圾”。在建立机器学习中,这一点尤其重要。为了避免挖掘的效果失控,关键是要充分掌握问题所在的领域,以提升分类的准确率和泛化能力有很大的帮助。
11)要学习各种不同的模型
模型的组合可以有效地减少算法的不确定性,获得很好的精度,已成为业内人士的共识,但这会抬高非专业人员理解系统机制的门槛。
12)相关关系不等同于因果关系
两个变量的变化存在相关关系,但未必存有因果关系。因为往往存在第三类(甚至第四、第五类)未被观察到的变量在起作用。相关关系应该看成是潜在的因果关系的一定程度的体现,对此,需要进一步研究。(2024年6月26日)。

     作者:王万茂

     单位:南京农业大学土地管理学院

购买方式

【天猫·中国农业出版社旗舰店】

保存下方图片,打开淘宝APP,扫码即可

王万茂学术交流网

王万茂教授的学术交流平台

长按左侧二维码关注我们

 点击 “阅读原文” 购买或在线阅读!


王万茂学术交流网
王万茂教授的学术交流平台
 最新文章