"人往高处走"这是人的本性;"水往低处流"这是自然规律。人们想往美好,社会憧憬未耒,"云在蓝天水在瓶"。我国自古以来就重视人类的预测活动,"凡事预则立,不预则废","人无远虑,必有近忧"。老子在《道德经》第七十一章中告诫人们:"知不知,尚矣;不知知,病矣"。努力学习和掌握自已尚未懂得的知识,这是正确的态度,不要不懂装懂,那是一种病态的表现。
预测是任何类型规划所必须采用的技术手段。预测与规划之间关系已达到密不可分的境地。规划是研究未来的,未耒存在众多不确定性,预测已成为在不确定性当中寻求确定性的重要路径。
科学预测不是空想和臆造,更不是诗人般的想象,而应遵循"惯性原理"、"类推原理"和"相关原理"开展预测活动。预测活动实际上就是收集信息、输入信息、经过预测技术的处理、分析、加工、然后输出预测信息的过程。任何事物发展都具有其连续性、没有事物的过去和现在,就没事物的未来。“过去一现在一未来”的连续性,不仅是时空的连续,也是信息的连续。在预测中还要加强对不确定性的识别和处理能力,尤其是要确保预测中输入的初始数据的真实性和准确性,以遏制"蝴蝶效应"的发生。由于未来不确定性的存在和人的认知能力的限制,预测结果往往与实际情况之间存在着偏差。正如海森堡(W.Heisenberg)在《测不准原理》(UncertaintyPrincipIe)中告诉我们,"严格地讲,客观上没有人能够准确地预测未来"。作者认为,这不能成为全盘否定预测的理由,因为人们关注预测不在乎它是否准确,而在于满足其对未来美好憧憬的好奇心,人们需要一个预测。正如肯尼斯.阿罗(Aro)故事中他的上司给他的回复说:"上级知道,短期气候预测是不准确的,但是需要这些预测的结果,以供计划和决策使用"。 又如奥斯汀.罗宾逊所说:"错误概率为50%的预测,要大大好于不做任何预测,因为不做预测,就意味着完全在黑暗中做决策"。这里存在着"预测悖论",即现实确定性预测是不确定性未来实际的反应;而不确定性未来的实际,又是现实确定性预测作用的结果。这就是确定性与不确定性之间的辩证法,它们永远处于转型变化之中,毫无疑问,这是绝对真理。正如罗马俱乐部的重要成员拉斯格曾说:"未来不是被预测的,而是被创造的;预测是路标而不是目标"。预测本身就是创造性的过程,为人们提供了一个对未来可能性的预判。
面对不确定性在我们世界里面无处不在的现实,人们习惯于应用机械思维和确定性的方法,难以作出准确的预测。借用海森堡的话说:"在因果律的陈述中,确切地知道现在,就能预测未来。因为我们不能知道现在所有细节,这是一种原则性的事情"。测不准问题归因于对现在的了解和掌握,以及初始数据的真实性和准确性。这个观点也为《蝴蝶效应》论文作者洛伦兹(L.V.Lorenz)两次输入同样的数据之差仅为0.000127,却导致两项巨大差异的计算结果所证实。所以,洛伦兹认为,"巴西丛林中一只蝴蝶偶然扇动翅膀,会在美国得克萨斯卅掀起一场龙卷风!"是可能的。这就说明了表面上混沌无序,而实际上具有深层次规律性的特殊运动形态,表现为对初始条件十分敏感。 W.海森堡提出了著名的"测不准原理"(又名不确定性原理),在其著作《物理学与哲学》中曾写道:"自然比人类更早,而人类比自然科学更早"。也就是说自然在人之前,人又是在科学之前,因此,科学本身受到人自身判断的影响。他的测不准原理实际在说这个道理,即许多规则本来就是人来制定的,人再拿它去做测量标准,自然会遇到一些问题,如人们根据光速在单位时间通过的距离来定义米的单位,但通过的距离米与人有关,所以,这是一个悖论,是测不准的根本原因所致。不确定性或者说难以找到确定性是当今社会的常态。在无法确定因果关系时,数据为我们提供了解决问题的新思维和新方法。数据中包含的信息可以消除不确定性,而数据之间的相关性,在某种程度上面可以取代原有的因果关系,帮助人们得到想要得到的答案,这便是大数据思维的核心。这种认知与传统的数理统计学的理论相悖,在那里相关关系与因果关系是两亇即相关又差别的科学概念。
大数据(bigdata)是一种新的思维方式,数据成为人类建造文明的基石。相关性便成为使用数据的钥匙。世界上许多事情难以确定的方式来表示,看起来混沌,但并非没有规律可循,通常可以用概率模型耒描述。在概率论的基础上,香农(CIaude.E.Shannonu)创造了信息论(Informationtheory),将不确定性与信息加以联系,並指出,要想消除系统内不确定性就要引入信息,以信息量耒度量不确定性的数量与程度,这就成为信息时代处理事情的根本办法。 在大数据时代,数据之间常常有我们想象不到的关联性,利用这种关联性,不仅可以获得想要的信息,而且还可能得到意想不到的惊喜。从理论上讲,只要找到足夠多的具有代表性的样本(数据),就可以运用数学找到一个模型或者一组模型的组合,使得它和真实情况非常接近。在工程上采用多而简单的模型常常比一个精确模型成本更低,也被使用得更普遍。以用若干个简单模型取代一个复杂的模型,这种方法被称为数据驱动方法。在误差允许范国内,单从结果上看和精确的模型是等效的。
传统的预测科学认为:如果对事物的过去和现在一无所知,那就很难做到有根据地判断未耒。总体上说,这种认知没有错,但是,实践操作中存在以下盲点,隐含着众多不确定性:1)坚信过去和现在的状况完全无损地延续到未耒。实践证明,这是不可能的,正如哲学家赫拉克利特所说:"人不能两次踏入同一条河流"。客观世界永远处于不断变化之中,预测中只能无限地接近现实,却无法做到未耒与过去和现在完全吻合;2)实践中常选用数据易得的少数几个因素进行线性变化分析,把其余的因素全归纳为不确定性一类。忽视影响因素的多维性和非线性。通常应用人均量和规模值进行预测的做法便是线性思维的具体表现:3)明知初始数据的不足和不准,如应用5年序列数据预测未来15年后相应数据,勉强应用数学模型实施预测,隐含着大量的不确定性,人为地降低了预测精度,增大了预测结果与实际状况间的误差。 综上所述,由于预测的精度直接影响规划的科学性和严粛性,至于如何应用大数据思维和人工智能方法,开展土地利用预测研究,值得深入探索和实践。人工智能领域的算法大师、华盛顿大学教授PedroDomingos提出大数据开发与应用12要点,为其开发实践具有重要的参考价值。1)数据未必可靠。在实践应用中,有很多原因会导致数据不可靠。因此,在数据应用过程中,必须经常留心检查数据是否值得信赖。如果基于糟糕的数据耒挖掘,无论多么聪明的人永远只会获得糟糕的结果。检查数据时发现,影响数据可靠性的归因有:a)用于开发的数据,往往和实际情况下的数据分布不同;b)数据中存在多处缺失,造成应用结果不稳定;c)数据库结构和定义可能发生变化;d)数据计量单位可能未被归一化;e)数据可能不适用于相应的算法。在开发智能应用系统时,有时为了达到更好的算法精度而忽略系统运算的时间。使用更多的数据来训练简单算法,比受制于维度诅咒的复杂算法往往有更好的效果。有的算法可以通过简单增加服务器的方法来扩展性能,有的算法则不能。不存在能夠解决所有智能应用问题的万能算法。不同的算法在解决特定的问题时才显得有效和得当机器学习算法并不是魔法,它需从训练数据开始,逐步延伸到未知数据中去。数据和经验结合往往事半功倍。在特定应用中,可能某些参数的微变化,就会让模型的训练时间出现很大的差异。如果在一个只有几百个样本的集合上去训练有数百万维特征的模型,试图想获得优秀的精度是很荒唐的。特征数量增加时,人类对数据的直觉会迅速降低。在低维空间中建立一亇分类器并不难,但是当维度增加时,人类就很难直观的理解。谚语说:“进耒的是垃圾,出去的也是垃圾”。在建立机器学习中,这一点尤其重要。为了避免挖掘的效果失控,关键是要充分掌握问题所在的领域,以提升分类的准确率和泛化能力有很大的帮助。模型的组合可以有效地减少算法的不确定性,获得很好的精度,已成为业内人士的共识,但这会抬高非专业人员理解系统机制的门槛。 两个变量的变化存在相关关系,但未必存有因果关系。因为往往存在第三类(甚至第四、第五类)未被观察到的变量在起作用。相关关系应该看成是潜在的因果关系的一定程度的体现,对此,需要进一步研究。(2024年6月26日)。
【天猫·中国农业出版社旗舰店】
保存下方图片,打开淘宝APP,扫码即可