王万茂先生:《土地研究札记与随笔 》(22)大数据是解决不确定性的良药

文摘   教育   2024-02-19 09:00   江苏  

22

大数据是解决不确定性的良药

01.何谓数据?何谓信息?

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,如声音、图像、视频、医学影像,称为模拟数据:也可以是离散的,如文字、符号,称为数字数据。

02.数据是信息的载体

数据本身是客观存在,但是它的范畴却随着文明的进程不断变化和扩大的。人类文明从一开始就伴随着对数据的使用,可以说,数据是文明的基石,人类对它的认识也反映了文明的程度。
数据是信息的载体(如电脑中的文件、账单或纸上记录的有用信息都是数据)。信息论奠基人香农(Shannon)认为:“信息是对事物运动状态和特征的描述"。“信息是用来消除随机不确定性的东西"。信息(lnformation)在英文、法文、德文、日文中为"情报",我国台湾"资讯",我国古代用"消息”,泛指人类社会传播的一切内容。

03.数据与信息辩识

人们常常把数据与信息两者概念加以混同,但并非所有的数据都承载有意义的信息。数据本身是人造物,因此它们可随意制造,甚至可以被伪造。没有信息的数据通常没有意义,伪造的数据则有副作用。
如何处理数据,过滤掉没有用的噪声和刪除有害的数据,获取数据背后的信息,则成为一门技术甚至一种艺术。只有经过数字计算机的处理之后,信息才成为数据。
数据是文明的基石,相关性是使用数据的钥匙。统计学是点石成金的魔棒。数学模型是数据驱动方法的基础。大数据时代数据则成为财富。“数据是新型的石油”,“分析学是新型治炼厂”。
数据则成为继劳动、土地、资本和技术之后新的生产要素。我国新组建的”国家数据局”已于近日挂牌成立,足以标志我国已进入大数据的新时代和数字技术的新阶段。

04.大数据思维的核心

何谓大数据?大数据(bigdata)出现于2007年,大数据除了数据量大以外,还具有以下3亇特征:1)大数量(Vast):2)多样性(Variety):3)及时性(VeⅠocity)。大数据不同于大规模数据,強调的是相对小的大,是抽象意义上的大。大数据传递一种信息,是一种思维方式的改变。量变会带来质变,当数据足夠大之后,许多智能问题都可以转化为数据问题,这时的计算机就开始变得聪明起来。如1996年计算机战胜人类的国际象棋的世界冠军一例,说明大数据导致了机器智能的产生,将对人类社会产生重大影响。
在无法确定两者之间是否存在因果关系时,数据为我们提供了解决问题的新方法。数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度可以取代原来的因果关系,帮助人们得到人们想知道的答案,这便是大数据思维的核心。‘
用不确定的眼光看待世界,再用信息来消除这种不确定性,是大数据解决智能问题的本质。解决智能问题,就是将问题转化为消除不确定性的问题,大数据则是解决不确定性问题的良药。

05.相关性是使用数据的钥匙

如上所述,数据在人类文明中起着基石的作用,使用数据的标准流程:1)获取数据——2)分析数据一一3)建立模型一一4)预测未知。
数据之间常常有我们想象不到的关联性,利用这种失联性不仅可以获得想要的信息,而且还可能得到意想不到的惊喜。如2007一2008年间,流行病传抪和各地区检索量变化的关系研究。研究人员从4.5亿种关键词的组合中,最终挑出45个重要的检索词条和55个次重要的词条作为特征,训练了一亇线性回归模型预测2O08年冬季流感传怖的趋势和地点,并且将机噐预测的结果和疾病控制与预防中心公布数据进行比对,发现准确率高达97%以上。其中最关键的是建立数据之间的相关性,即疾病传抪和该地区搜索关键词变化的关系。
值得注意的是,许多时候我们无法直接获得信息(如疫情传抪情况),但是可以将相关联的信息(如各地搜索情况)量化,然后通过数学模型,间接地得到所要的信息。谈及数学模型的基础都离不开概率论与统计学。

06.大数据技术与科学认知方式

大数据技术的兴起带来科学认知方式的重大变革,使得以往用理论范式分析和理解世界的方式渐趋式微。针对这种情况,近年来,有学者研究提出“数字异化”与数据主义的问题,以及其治理途径,以实现数字正义,形成数据命运共同体,提供新的理论借鉴。
大数据主义从最初的一种重视量化分析的哲学思想,转变为主张“数据至上”的新经验主义。英国学者维克多.迈尔舍恩伯格(Schonberger)研究发现:处在大数据时代的个体,对数据分析方法的深度认同与信任,逐渐衍生出数据主义。认为人类可通过数据所反映与描述的信息去探知事物之间的联系,无需依靠基于因果逻辑建构的理论范式,去探究其形成的内在机理与运行逻辑,直接对传统的“数理统计学”认为相关性与回归性(因果性)两者相异的质疑。
数据主义的思维方式具体表现在以下两亇方面:1)相关关系可以替代因果关系。2)强调量化的价值评判标准。正如法国哲学家贝尔纳.斯蒂格(StiegⅠer)认为,人类在大数据时代被完全可计算的、普遍自动化的、远程控制的数字化技术所裹挟,以至于丧失知识、思维能力与主体创造性,沦为“知识无产阶级”,对此,人类必须加以警惕。
我国有关学者研究提出破解数字异化之路,即在“以人民为中心”的宗旨与高质量数字化生产的共同作用下,找寻数字时代人的解放,将数据惠及全人类的可能样态。(2023年3月8日)

   作者:王万茂

   单位:南京农业大学土地管理学院

购买方式

【天猫·中国农业出版社旗舰店】

保存下方图片,打开淘宝APP,扫码即可

王万茂学术交流网

王万茂教授的学术交流平台

长按左侧二维码关注我们

 点击 “阅读原文” 购买或在线阅读!


王万茂学术交流网
王万茂教授的学术交流平台
 最新文章