科学与技术的发展与大数据的时代反响

科技   2024-11-17 12:06   北京  

滕吉文1,刘有山12,皮娇龙12
  1. 中国科学院地质与地球物理研究所
  2. 中国科学院大学

导读:

大数据时代——未来人类社会发展的大变革,它作为人类社会信息发展的产物,以信息风暴为预测变革手段的发展模式,正在改变并决定着人类的生活、生产和思维方式。大数据所具有的各项功能,深刻地影响着人类社会未来的格局。然而,人们尚需要深刻地认识到它在科技创新中的潜在响应。基于当今报刊业广泛发表的科研、信息、管理等领域的相关论述,通过分析认为必须统一在一个有机的平台上进行深刻理解:1)大数据的定义与属性和对大数据的发展的理解;2)当代大数据隐含在科学与技术中的新内涵;3)信息与网络技术的快速发展与大数据响应;4)大数据催促地球科学的创新再生;5)大数据转化与现代农业和大生物学;6)大数据在科技发展进程中必须重视的几个问题。

关键词 大数据;信息技术;凝练亮点;催生大数据产业;创新再造

引言

20121129日,习近平总书记在参观复兴之路展览时指出,实现中华民族伟大复兴,是中华民族近代以来最伟大的梦想。当今,加速实现中华民族伟大复兴之梦已成为一个民族、一个社会的宏伟心声。因为人类文明和世界现代化是时代大潮的需求并受之驱使不断前进。

中华民族的伟大复兴靠什么?靠的是科学和技术的快速发展与经济腾飞,科学发展靠什么?靠创新,靠自主创新因为创新、自主创新是科技进步的灵魂,是一个民族振兴和一个国家兴衰的引擎。继农业社会和工业社会之后,人类社会正在迈向一个崭新的知业社会,其核心内容就是信息和智力的大开发(图1)。正如农业社会之表征是地表土地资源的大开发、工业社会之表征是地下矿藏资源的大开发一样,所谓大数据就是知业社会起步阶段的一种表征,即在当下的一个时尚符号而已。

1 人类社会发展的沿革与轨迹

一般来说,科技革命是一个历史过程,它具有起点、终点、内容、标志性事件和对世界的影响等特点。16世纪以来,世界上曾发生过五次科技革命,当今正处于第六次科技革命的前夜各次科技革命的标志性事件如表1所示。

这次科技革命不知会把生产力推到什么高度

1 16世纪以来科技革命的历史结构

世界科技革命的影响是深远的,一种历史进程。因此,对其所产生影响的分析、理解是当今人们认识第六次科技革命深化之必须。这是因为,科技革命必然地会改变人类的生活观念、生活方式和生产方式、科技结构、世界结构与进程,乃至影响世界文明进程和国家的兴衰(表2)。这就表明,世界科技革命推动了世界现代化,也为国家现代化提供了战略机遇。抓住这一机遇的国家能够保持世界先进水平或后来居上;相反忽略或失去这一机遇的国家,一般表现平庸并导致国际地位的下降(表2)。对于中国来说,第六次科技革命是科技的战略机遇、是科技对策厘定的挑战

科技革命与国家兴衰

唐太宗李世民曾说过,以铜为镜可以正衣冠,以史为镜可以知兴衰,以人为镜可以明得失。在过去500年里,世界发生了五次科技革命(信息革命),中国失去了四次科技革命的扭转机遇,而又在第五次科技革命中表现平平且收获不多。第六次科技革命即将来临,中国将再次步入历史的十字路口,抓住机遇则可能乘势而上或后来居上;倘若失去机遇就有可能再度平淡,甚至下滑。机会总是垂青有准备的人!

历史又一次来到和平时期,天时到了

在当今世界科学技术飞速发展和社会进步各种需求的强大驱使下,随着数据生产方式的演化,特别是数字化以及数据产生成本的急速下降,人类产生的数据量正在呈指数增长。由于数据规模的急剧膨胀,各行各业累积的数据量越来越巨大,数据类型也越来越繁多、越来越复杂。显然,它已经超越了传统数据管理系统和处理模式及计算能力范畴,故大数据概念近年来开始广泛传播。20144月,国际数据公司(IDC)发布的第7份数字宇宙研究报告指出,数据量将以超过每两年翻一番的速度持续增长,2013年全球创建和复制的数据总量已达4.4ZB,预计到2020年将增长至44ZB(图2)。我国拥有的全球数据量比例预计也将由2012年的1.3%增至21%。近年来,大数据得到越来越广泛的应用,如2015年的数字两会、数字莫高窟等。

2 2006-2020年全球数据量增长趋势

为了更好地理解大数据在科学研究领域的发展态势,以Web of Science TM提供的科学引文检索扩展版(SCI-Expanded)和科技会议文献引文索引(CPCI-S)两个引文数据库为主,针对主题词“Big Data”进行的文献分析表明,截止20145月,全球共发表大数据研究文章1218篇,其中SCI-Expanded数据库收录548篇。图3展示了近年来大数据研究文献数量的变化趋势。据研究,大数据研究已成为科技、经济、社会等各领域的关注焦点,一些国家更是把大数据研究与产业上升至国家的战略层面。

3 “大数据文献数量变化趋势图

鉴于此,国际科学理事会(ICSU)下属跨学科主体,全球最大的科技数据学术组织国际科技数据委员会(Committee on Data for Science and TechnologyCODATA)在其第59届执委会会议上决定组织召开大数据与科学发现国际研讨会期望国际科技界共同挖掘科学大数据的能量与潜力,探索大数据服务大科学,创造大发现的价值,向全球科技界传递科学大数据,对全面推动科技、经济和社会发展的重要意义,在世界科学和信息技术发展进程中发挥着重要作用。

科技界在重点领域总会达成共识

面对大数据,我们要从学习的视野出发,阅读各界人士的论著、刊文,尽力去理解他们的观点、评价和理解大数据本身的响应。坦率地讲,大数据对于我们来讲有启迪也有迷惑!它是一个新生事物,尚需要培育它、发展它、应用它以达厘定大数据在科技创新中的作用

当前正处于世界第六次科技革命的佛晓,面对世界科学和经济发展的大潮与走向,如何把握大数据在科技发展和创新再建中的作用,本文将从如下六个大方面进行讨论:

1)大数据的定义、与属性大数据发展及对其的理解

2)当代大数据隐含的科学与技术新内涵

3)信息与网络技术的快速发展与大数据响应

4)大数据催促这地球科学的创新再造

5)大数据与现代农业和大生物学

6)在大数据的发展进程中必须重视的几个问题

1 大数据的属性发展及对其理解

1.1 何谓大数据?何谓大数据时代?

当人们还在津津乐道于云计算、物联网等主题时,一个崭新的概念——大数据横空出世。大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命,对国家治理模式、企业决策、组织和业务流程,以及个人生活方式等都将产生巨大的影响。

1)何谓大数据?

百度百科给出的定义为:大数据或称巨量资料,指的是所涉及资料量的规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯(大数据是由于规模性、复杂性、实时性而导致的使之无法在一定时间内用常规软件工具对其进行获取、存储、搜索、分析、分享和可视化的数据集合)。

麦肯锡对大数据的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合

互联网数据中心将大数据定义为:大数据是更为经济地从高频率的、大容量的、不同结构和类型的数据中攫取价值而设计的新一代架构和技术

著名咨询机构Gartner大数据的定义为:大数据是需要运用新的处理模式才能具有较强的决策力、发现力和流程优化能力的高增长率和多样化的海量信息、财富

显然,无论哪种定义,可以看到大数据并不是一种新的产品也不是一种新的技术,就如同本世纪提出的海量数据概念一样,大数据只是数字化时代出现的一种现象,且期待着人们用超前思维去理解它、开发它!

数据时代,一举一动都会成为数据基础

2)何谓大数据时代?

大数据这个名词表面上看好似新鲜,但是早在20世纪80年代就曾有美国人提出过。20089月,《科学》杂志发表文章“Big DataScience in the Petabyte Era”,于是大数据这个词开始广泛传播。以前也常有大数据时代的一些说法,它是用以形容很大容量的数据,比如海量数据(海量数据一般是指TB级别的数据规模),而大数据则是指PBEB级别以上的数据规模。截止到2012年,人类拥有的主要活动数据量已经从TB级别跃升到PB1024TB)、EB1024PB)乃至ZB1024EB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB2009年的数据量为0.8ZB2010年增长为1.2ZB2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。截止到2012年为止,人类生产的所有印刷材料的数据量是200PB(图2)。在整个人类文明所获得的全部数据中,有90%是过去两年内产生的,待到2020年时,全世界所产生的数据规模将达到2012年的44倍,所以说已进入大数据时代

大数据时代是一场生活、工作与思维的大变革,进而全译为大数据开启了一次重大的时代转型。就像望远镜让我们能看到浩瀚的宇宙,显微镜让我们能够观测到微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发……

1.2 大数据的属性——3V

1大数据具有3V特性:VolumeVarietyVelocity,即规模性、多样性和高速性。国际数据公司(IDC)认为大数据还必须具有Value的特性,即价值性。IBM认为,大数据必须具有真实性(Veracity)。

2)最早提出大数据概念是数据学家维克托-迈尔-舍恩伯格。他所著的《大数据时代》和《删除》对大数据进行了细致的剖析和阐述。20089月《Nature》杂志专刊中发表了题为《Big DataScience in the Petabyte Era》的文章。

32011年麦肯锡公司发表了著名的关于大数据调研报告《大数据:下一个前沿,竞争力、创新力和生产力》。

420123月,美国政府投资2亿美元启动大数据研发计划,旨在提高和改进美国从海量和复杂数据中获取知识的能力,加速美国在科学和工程技术领域发明的步伐,确保美国在信息领域的领先地位,以增强国家安全。

5)大数据研发计划首批将由美国国家科学基金会、能源部、地质调查局等6个联邦部门共同投资,全美的科研机构和科研人员共同参与,提高收集、储存、管理、分析和共享大数据所需要的核心技术的先进性,并扩大了大数据技术开发和应用所需的人才供给。

多年的科技领军让美国总是快人一步

1.3 对大数据发展的理解

一个新事物的出现,要使人们得以对其理解特别是深刻理解确需要一个过程,这一过程用时也许很短、也许很长,而只有当人们真正认识到其利弊之后方可达成共识。

1)如何理解大数据

1)中国科学院院长白春礼院士2013年在《科技导报》上提出,科技发展呈多点突破、交叉汇聚的态势,大数据科学成为新的科学范式

2)杨书卷(2013):大数据魅力正现,它的实质就是从各种各样的数据中快速地获得有价值的信息。大数据的特点是数据来源多源异构,这样的数据才能保证判断的可靠性,决策行为将是基于对数据的分析而做出的,而并非基于经验和直觉

3)潘云鹤(2013):大数据的发展趋势是对数据进行广泛汇聚和智能分析,形成浓缩数字知识并实现知识服务。因此,大数据时代的核心技术是梳理出数据的关联性,在综合与系统化的基点上加以应用,这被称为知识挖掘技术

4)张小彦(2013):大数据时代的到来,为数据发现提供了新的机遇,这主要是因为快速处理巨量无结构和半结构化的数据已成为可能,且使得在线实时监测、预警、评估和管理,社会服务和福利成为可能。社会管理科学需要具有对大数据精确可靠的处理过程和能力,具体包括数据处理的实时性(real time)、可视性(data visualization)、数据挖掘和分析(data mining and analysis)、预测分析(prediction and analysis)等。这是一个将数据整合成信息,将信息提炼成智能,以支撑科学、技术乃至政府部门和军事系统的策略和系统工程的厘定。

2)美国对大数据的认识

1)美国国家情报委员会NIC2012)发布了《全球趋势2030,可能的世界》一文。信息技术正在进入大数据时代,在未来15~20年内,信息技术的硬件、软件和连续性将会在性能、复杂度和运行速度上有大幅度的提升。海量数据的存储与处理的解决方案、社交网络技术以及智攀城市技术乃是信息技术领域的未来发展热点。

2)《美国地质调查局核心科学体系科学战略2013-2023年》指出,在科学发展中,数字式的方法和途径并不是取代传统的方法,而是对它的补充、激活、改善和拓展

科研时刻在积累,规划则基于积累

3)范式转型与数据密集型科学

1)在现实社会和经济发展进程中,不断地收集和生产大量的数据,通过这些数据即这种范式的转型将必会促使其成为一种新的科学。然而,也会遇到新的问题,因为种种数据较分散的、互无联系地分布在不同的处所,其格式亦不尽兼容,这就需要对其加工组构成无缝对接和可互动的活体信息

2对于数据密集型科学,为了回答复合性更强的问题,模块式的科学框架则必须以更细的空间尺度、更长的时间序列、多元属性测量,且不断地加以检验、扩充与延拓。这种数据量和复合型的不断扩展的数据群,有时亦被称为大数据,形成了比所使用的管理系统和技术系统所能处理量更大的数据。这就是说数据密集型科学正在变成普通的科学,在未来的科学研究中,它将会变成更强大且更有益于科技发展与创新的重要科学范畴。

4)数据本身是赋有科学内涵的大数据时代告诫人们一个真理:一切科学、技术的确离不开数据,也就是说没有无科学意义的数据。过去,人们只用统计分析的方法研究数据,如内插、抽样函数、不同权重信息的堆积与平均等,由于其采样率低而对真实客体造成不完整或错位的认识,有时会导致重要信息的剔出,故难以求得更为科学、合理与逼近的结果。近年来,机器学习数据处理、图像处理、生物信息、信号处理等技术的快速发展,数据分析已深入到计算机科学、社会学、电子工程、生命科学、天文、物理学、地球物理学、地质学、地理学、气象学和军事学等各个领域。从数据分析的视野出发可见,这些不同学科、不同类型与不同问题之间确有着相当程度的统一性,正是这种统一性才使得数据科学有着存在和发展的必要性。

2 当代大数据隐含科学与技术新内涵

2.1 数字地球科学

2.1.1 数字地球

1998年,时任美国副总统的戈尔在加利福尼亚科学中心开幕典礼上发表了题为数字地球,认识二十一世纪我们所居住的星球的演说。他提出一个集地理信息系统、计算机网络、地球物理学、虚拟现实等高新技术密切相关的概念,即数字地球。他将数字地球看成是对地球三维多分辨率的表征并注入大量的地理数据信息。这是第一次把我们千百年来通常一直使用的时空信息理念由2D扩展到更为符合真实性的3D地球模型。

上世纪末的声音在短短数年内就实现了
2.1.2 数字地球科学

数字地球科学是以地球物理、地质构造和地球化学的理念和信息技术为基石;以现代高新科技和高速计算方法为工具;以地球内部物质的各种运动学和动力学的数学模型为核心;用数据科学的研究方法对地球科学中的大数据进行智能处理,从中分析、挖掘中凝练出有价值的新的核心信息,最终形成有机耦合的数据链;以达深化认识、发现、预测和评价为目的轨迹。因此,它是一门以实际问题为研究目标的新型交叉学科。

2.2 当代科学与技术中的大数据

大数据时代——未来人类社会发展的大变革,作为人类社会信息发展的产物,它决定着人类生活所必备的各项功能,深刻影响着人类社会的未来发展人类社会的发展史是一部信息发展史,同时也是一部数据发展史,人类社会的数据量正在以似原子能爆炸式增长。

大数据(Big Data)作为一种新兴现代社会的新发明、新创作、新服务和新发展的源泉。目前正在世界范围内蓬勃兴起,它以信息风暴为载体,以预测变革为手段的发展模式已经在悄然声息地改变着人类的生活、生产及思维的方式。最为常见的普遍现象,如手机、微博、微信等。

2.2.1 大数据是创新征程上的一盏明灯

20122月,美国《纽约时报》刊发的专栏文章指出,大数据时代已经到来,在我们的商业、企业、组织机构、经济社会等各个领域中,科学决策将力戒经验判断和直觉思维,则更多地基于数据的统计分析

正如哈佛大学著名社会学教授加里·金所评论的,这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商业界还是政府,所有领域都将开始这种进程数据成为与自然资源、人力资源同样重要的战略资源,引起了科技界和企业界的高度重视。

2.2.2 大数据在信息研究中是一个难题

人类进入21世纪后,由于互连网和信息行业的飞速发展,各种类别迥然不同的数据已经渗透到社会的各个行业和生产领域,并成为一个重要的生产因素。伴随着云时代的到来,大数据引起了人们的广泛关注和极大兴趣。

如何提高人类社会驾驭数据的能力,促进人类提升洞察社会的发展水平已成为未来人类社会的发展方向。在互联网、电子商务和通信信息研究中,大数据研究是一个具有极大难度的课题。研究这个问题,一方面需要涉及到人们的认知、观念和思维与习惯等;另一方面真正是牵一发而动全身,其触角延伸到政府、商业、教育、经济、医疗、科技、军事与国防等各个领域。

网络时代突出一个效率,数据量太大就很难平衡

2.2.3 大数据将成为创新的基石

《大数据时代》这本书首次讲述了大数据开启了一次重大的时代转型,它所引发的信息风暴正对人类产生一场生活、工作与思维的大变革,并深入地研究了大数据时代的思维变革、商业变革和管理变革,取得了许多新的突破,为人类社会大数据时代发展的研究提供了诸多有价值的成果。

《大数据时代》创新性地提出了世界的本质就是数据,大数据发展的核心动力源于人类测量、记录和分析世界的渴望。大数据正在改变人类的生活以及理解世界的方式,正在成为人类进行新发明和新服务的源泉

《大数据时代》的相关研究成果已经在ScienceNatureThe Economist等国际著名学术刊物上发表,是一部全面阐述大数据理论的学术专著,是一项意义重大、影响深远的研究成果,全面体现出作者高水平的研究能力与研究数据科学的技术权威性,深刻映射出丰厚的学术积淀和闪光的学术思想以及敏锐的科学洞察力

我国应当高度重视这一研究领域的国际发展势态,加强相关研究并以开放的心态、创新的勇气和开拓的信心,热情拥抱地大数据时代

3 信息与网络技术的大数据响应

大数据之所以能够在21世纪问世和发展,其根源在于科学发展需要适用于大数据的集成存储和快速计算机软件的涌现。为此,大数据的应用必应迈向一个新的发展路线。

大数据时代到来的如此之快是很多人未曾预料到的。宽带资本公司董事长田溯宁说:想起3年前,大数据还是一个比较空泛的概念,到今年已成为国家发展和创业投资的重要方向。随着信息技术和移动互联网的发展,数据呈现出爆发式增长态势,正在成为驱动经济增长和社会进步的重要基础和战略资源2012年,田溯宁等人发起了中关村大数据日活动。

然而,当大数据将成为像土壤、矿藏一样的资产之际,如何利用数据资产推动行业创新?如何实现数据资产的增值?20141211日,中关村大数据日大会在中关村软件园召开。围绕聚合数据资产,推动产业创新的主体,专家们深入地探讨了数据资产的管理和变现、大数据深度技术、行业大数据应用创新和生态系统建设等关键问题。会场人涌昭示着大数据应用已迈向一个新的阶段。

通过会议交换信息可以有效为发展提速

3.1 大数据应用倒逼产业创新

大数据应用已渗透到了经济社会的各个角落,数据形成已由缓步积累快速进入了爆发式的增长,数据价值急剧显现中央网信办信息化发展局张望处长指出,大数据正在改变着产业创新,正在成为提高产业核心竞争力的关键。

1)与此同时,数据的采集、存储、处理以及挖掘等新功能的需求,对传统技术、产品和应用服务模式提出了新的挑战。由于大数据应用的需求,也在倒逼着芯片、软件产品的创新,而各种高效数据处理技术的广泛应用,也会推动全球IT产业的发展

百度的发展就是一个例证。百度大脑是一个基于大数据的人工智能系统,可以采集如图像识别、语音识别、人机交互等形成的数据。百度大数据总裁薛正华介绍,百度大脑的这些应用,将促进语音识别、人机交互等相关技术和产业的发展。

2)大数据应用也改变了传统运营商的思维。中国联通电子商务事业部副总经理范济安说:我们开发的银联智慧服务主要服务征信领域,这是一个在线的用户身份识别和其信任度查询业务,是在联通和银联智慧双方合作,利用大数据技术新推出的项目

现在讲大数据,最重要的是预测。银行本身是接近风险的企业,我们希望对它未来的方向做一些提前预测。中国建设银行总行CIO刘贤荣表示,大数据应用正在提升银行对风险的把控能力。

3.2 发展需要跨界合作

1)当今,大数据在发展之中但其挑战犹在。在这一方面我国技术不足,技术和应用方面同国际先进水平相比还有明显差距,数据安全和数据开放评价体系尚未建立,数据难以收集、集合、集成。同时,必须看到的是大数据领军人才、创新人才之严重不足等。

发展风口难以预测,这批人培养还得几年

国务院发展研究中心副主任张来明指出,目前我国在大数据建设和应用上还处在初试阶段,重定型轻定量,重观点轻数据的思维惯性,使我们在数据搜集、使用、管理上与发达国家尚难以相比。大数据的发展与效应要求开拓公共资源开放,需要加强各行各业的模式创新。大数据应用正向各行业广泛渗透,这需要有力促进跨界融合,大力促进新型业态发展,为产业提供强大的动力源泉。

2跨界和融合发展是大数据时代的重要特征。中国电子企业协会会长董云庭表示,过去大家更多地强调软件和硬件的结合,但是现在明显是不够的,更需要强调不同领域之间的跨界和融合大数据的发展需要推动对外开放与合作。

中国联通建立了一个开放的数据挖掘平台,该平台可以进行数据的存储和计算,然后邀请第三方合作伙伴在这个平台上进行数据挖掘工作,实现开发成果的共享,这显然是典型的大数据应用。据中国联通电子商务事业部副总经理范济安介绍,目前在这个平台上已经实现了人口流动分析报告、汽车行业指数报告等。中关村管委会主任郭洪也强调,互联网大数据、智能硬件、智能健康、新能源、环境保护以及文化媒体的深度融合,将推动大数据成为巨大的创新力量,创造巨大的社会价值

3.3 应强化大数据战略布局

当今世界已经进入大数据时代,方兴未艾的数据革命对生产、生活产生的影响越来越深刻。正是因为大数据的这种趋势,所以世界各国越来越重视大数据的应用。

12012年美国政府将大数据战略上升为国家战略。白宫发布的2014年大数据白皮书提到,大数据的爆发为政府带来了更大的权利,为社会创造出极大的资源。国务院发展研究中心副主任张来明判断:我们国家也已经步入到大数据时代,我国的宏观经济数据正在从自产自出的1.0时代迈向2.0时代,大数据正在成为我国新的经济增长点

2“2015年初,中关村管委会出台了关于加快大数据产业升级的意见,提出具体整合、利用好全球资源打造中关村全球大数据创新创业中心。中关村管委会主任郭洪介绍,中关村希望通过研发和引进大数据关键技术培育大数据领军企业,培育具有全球影响力的大数据产业。据悉,中关村正在积极推动京津冀大数据走廊建设,打造大数据产业生态,推动基础设施建设、算法验证与数据共享交易平台等,积极整合国内外数据资源服务,支持大数据应用创新创业

3从技术发展来看,大数据应用不断发展创新。我国具有强大的数据基础,技术水平不断提升,产业日趋完善,大量的互联网企业发展奠定了大数据应用中央网信办信息化发展局张望指出,需要建立和完善数据应用的规则,将数据应用逐步纳入到法制化轨道,以市场和应用撬动产业,培育大企业,促进大数据应用进行大创新和大发展。

总算是进入赛道了,勉强不算晚

4 大数据催促地球科学的创新再生

在自然科学领域中,海量数据的采集和应用已成为定则,也就是说没有唯一的学科不拥有数据。在地球科学中,不论是对金属矿产资源,油气、煤炭能源,地震与火山灾害和深化认识地球本体,还是勘探开发,预测等诸多方面大数据应起到重要作用,并成为凝练,创新再造的源泉

4.1 地球科学中的大数据

随着大自然数据化过程的不断拓展,数据正在迅猛增长,以前不能计算的东西在逐渐量化,不能表征的时间或者图像已完全可以数字化。比如,在地球科学的发展征程上,采集数据的量化已为必然的轨迹!对地球科学来说,地球物理学理当必站在大数据的前沿!

4.1.1 数字地球与地球物理学

1998年时任美国副总统戈尔提出数字地球之后,谷歌公司于2005年正式推出了Google Earth。它把卫星照片、航空照相和GIS布置在一个三维的地球模型上,第一次把人们想象的数字地球影像以真切的数字产品形式带到人们的生活之中,这是数字地球发展的里程碑。

200811月,IBM总裁首席执行官Samnel J·Palmisamo首先提出了智慧地球的概念,即要求数字地球更加智慧。信息技术发展的终极目标就是取得人工智能,而与此同时信息挖掘、大数据、物联网等新兴信息技术的涌现乃为智慧地球出现的助力。相比于狭义的地球科学研究,数字地球和智慧地球所含的信息资源量和应用范围或范畴要广阔得多。在大数据时代,随着计算数学和计算技术的高速发展(如云计算、物联网等强大和先进的网络体系),数字地球已经发展到第二代智慧地球阶段。

4.1.2 地球物理学的特点

地球科学作为一门数据密集型的交叉科学,它的数字化工作范畴包括如下5个方面:

1)巨量的数据采集与存储;

2)已有数据的收集、挖掘、集成与分析,包括数据库、可视化与人机交互、数据管理和服务;

3)在知识层面上,将大数据的产生、集成应用转化以形成一个完整的数据体数据链

4)提取新信息、凝练科学新亮点厘定对成山、成盆、成岩、成矿、成灾的整体与耦合响应,以达深化认识地球本体;

5)基地建设。建立第二深度空间金属矿产资源(500~2000m)与油、气(5000~10000m)、煤(500~2000m)能源的战略后备基地,构筑深层动力过程的机理和强烈地震的预测平台,并为形成海、陆、空三位一体的四维空间防卫体系。这标志着地球科学的发展与深化必须数学化、量化、数字化。这一链条即为:大数据新信息新知识新财富新服务新数据

地球科学特别是地球物理学的特点是:

1地球科学特别是地球物理学属于数据密集型的科学,如金属、非金属矿产资源,石油、天然气、煤炭能源、地震、火山等自然灾害的探查与研究。

2地球科学特别是地球物理学,它涵盖着上天、入地和下海,这是人类不断向宇宙挑战的三大壮举,在时间上和空间上跨度大、数据获取难度大、成本高,且具有一定的局限性。

3地球科学特别是地球物理学,具有多元、多维、多源、异构、时空性、方向性、相关性、随机性、模糊性、时空不均匀性和过程的非线性等特点。地质学是基于浅表层派生现象以描述性为主体的学科。它必须从的认识——假想——推断——编造动听故事的定性框架走出来,并且快速步入量化和定义化,即从不断深化的理念出发。正如马克思所说:一门科学只有在成功地运用了数学时,才算达到了真正完善的地步。

行业有共通的地方,也有各自的特色
4.2 地球科学须以数学表达为基石

数学家们认为,数学是自然科学的语言,是自然科学皇冠上的宝石。例如,前不久在中国科学报上刊登了赵熙之题为科学家用数学方法解译癌症成因的文章,其中介绍了Vogolsteix-S Cristian Tomasein日前提出了一个数学公式用以解译癌症的成因。201512日出版的《Nature》杂志上报导了这一成果,这的确是一个引人关注的科学问题。他们认为,癌症的发生是由于组织干细胞在分裂复制其DNA(脱氧核糖核酸)时出现随机错误,或者说是突变,而突变累计越多,细胞发生癌变的风险越大。为了了解干细胞分裂时的突变受环境和遗传因素的影响,他们分析了31种人体组织的癌症发生率并进行了比较研究。依据人体组织内正常干细胞的分裂数与组织癌症发生率之间的相关性统计模型认为,人体组织的癌症发生率是这一相关性的平方,其百分比为65%。这便表明,用数学方法解译癌症成因是量化癌症发生率的标志,使医学中的癌症发生率达到了量化

4.2.1 大数据与金属矿产资源

未来的知业革命必须建立在充分开发数据矿藏的基础上,即第二深度空间(500~2000m)金属矿产资源的勘探和开发。

1)自1999年以来,国土资源部、中国地质调查局在新一轮国土资源大调查等专项中设置了多个有关数字地质调查技术研究,系统研发及推广相关的应用研究项目

22010年在已有工作的基础上,发展了数字地质填图野外数据采集系统、数字剖面系统、固体矿产野外数据采集系统、矿产资源调查数据处理与综合分析子系统、资源量估算系统和矿体三维显示系统6大系统的集成一体化数字地质调查系统软件

3)美国地质调查局矿产资源工程(MRP)于200512月出台了矿产资源工程的新五年规划。该矿产资源工程要解决与人类对矿产资源基本需求的相关问题,即可持续性和社会需求(资源保证)、环境和公共卫生(环境影响)、经济和公共政策(信息提供)

矿产资源工程有两大功能:一为研究和评价功能,即为土地规划机构和决策部门提供矿产资源的远景区域信息;二为数据采集、分析和发布功能,即介绍国内和国际上180个国家的100种矿产品的生产和消费情况。

矿产资源工程创造两类知识产品,即矿产科学和矿产信息。前者以调查和分析为基础,能形成多解译性的结果,而后者则指矿产生产和消费统计以及基础地球化学数据采集

4)当今的问题:(1)多年来,在地质构造和找矿方面主体上是对浅表层地质现象的描述,并在假设的前提下进行推断解译,即它是一个定性的过程,难以量化研究;(2)当今面临大数据时代,地质找矿必须迅速向量化过渡,应以地质理念+信息技术作为基点,以基于数学表征的计算方法为手段逐步建立和应用各种地学模型,从定性向定量化快速转移方可发挥大数据的功能。

4.2.2 大数据与石油和天然气能源

1石油与天然气勘探在数字化和大数据集成上是超前的,如中石油、中石化、中海油、中化集团公司等发展三维高密度、高精度、高分辨率数据采集和精细结构刻画技术,特别是石油与天然气地震勘探、数据采集、数据处理、反演计算和分析解译均以数据来进行无缝隙链接的。因为如果没有数字化观测记录,不进行高分辨率数据采集和复杂的正反演计算(包括声波、弹性波方程,均匀、非均匀和各向异性介质的数值模拟),就不会有今天如此壮观的石油和天然气的能源研究、生产体系和市场。当今四大石油集团公司拥有世界量级的大数据数据库和软件模块,各油田在大数据储存和应用上已见成效

2当今的问题是如何继承我国四大石油集团公司的能源勘查、反演、解译和开发的所有数据,包括不同类型和复杂程度的岩性、构造多元异构的大数据体,同时收集国外有关数据以形成油气大数据链,并从中提取、挖掘出具有创新价值的核心信息,以达逼近和创新再造。特别是第二深度空间(5000~10000m)的油气勘查和大型和超大型的油、气藏的发现。

3)大数据时代的能源金融是一个崭新的能源发展与创新领域。中国科学院科技政策与管理科学的两位学者郭剑锋和姬强做了细致的分析。他们认为,当今世界石油市场体系随着信息网络的疯狂发展正逐渐演化为一个全范围、高深度的一体化大数据网络。大数据挖掘和分析技术甚至能够追溯到每一个市场参与者的市场行为,从而大大提升了市场的透明度,支撑更加迅速、灵活的市场交易活动。更重要的是,大数据迫使市场参与者的决策机制向更加微观化和定量化的数据金融转变。大数据金融时代必将给世界能源金融的发展带来新的契机,也为能源经济学的发展带来新的研究领域

能源产业的投入远超其他,发展也更快

4)大数据与能源效应

1)大数据技术推动能源金融的理论创新,它把传统的市场理论与网络分析方法相结合,从信息论和行为金融学的新视角拓展现有的方法论和研究范畴,且正在形成新的研究方向和科学问题。核心问题是,如何建立能源市场海量数据的系统分析方法和理论体系,将高维度的投资者信息、交易信息及各类事件等作为属性,建立能源金融数据网络并通过追踪交易者的行为和事件效应,全方位地捕捉市场动态舆情,从投资者行为和市场预期视角分析市场价格的作用、机理预测的市场风险和支持大数据时代的投资者决策

2市场是由无数微观行为构成的,从海量数据中准确挖掘、敏捷监测和高维分析市场微观行为,将必会大幅度提升市场分析的准确度和有效性。同时,大数据技术使交易者行为、市场消息等与市场宏观表现之间的动态传导更加迅速,宏观和微观的鸿沟在缩小甚至消失,能源金融、行为金融的研究范畴需大大拓展,能源市场的分析则更加复杂和迅速。

3构建我国现代能源市场体系需要适应大数据时代的要求,海量的数据处理和质的进步,给我国能源金融的市场设计、交易模式及风险监管等提出了新的思路和挑战。只有充分利用和挖掘泛在信息网络,搭建满足超高频交易需求的国际化市场平台(如石油期货交易平台和数据平台),建立能源金融风险监管和评估机制,高度警惕信息安全带来的新隐患并建立一套完善的市场监测、预测和预警系统。只有这样才能基于数据视角创新金融产品,开发新的分析和交易工具,健康快速地推动我国能源金融市场的形成和发展,从而在全球能源金融体系中占有一席之地

4.2.3 地球内部物质与能量的交换

1地球不是一个物质分布均一的静态球体,它的内部结构从宏观上可划分为沉积建造、结晶基底、上地壳、下地壳、壳幔边界(Moho界面)和上地幔顶部盖层、上地幔软流圈、410~610km间断面、上下地幔过渡带、下地幔、D″层和核幔边界、外核、内外核过渡带、内核(图4)。

4 地球内核差异旋转示意图

要了解地球内部的奥秘有两种策略:

1)一是打深钻井直接取芯,分析和研究其各圈层的物质组成和介质物理属性。但是,在当今世界范围内最深的钻井也只有前苏联在北极科拉半岛所打的一口深钻,深度为12.26km这仅仅涉及到沉积建造、结晶基底和结晶地壳的最上部,不可能用以研究和探索地球内部物质运动的深层动力过程

2)另一个是通过地球物理场,即重力场、地磁场、电磁波场、温度场、放射性场和地震波场来间接了解、探索地球内部的奥秘。通过地表的高精度观测,采集高分辨率的海量数据,在多要素的边界条件约束下,反演计算以求取地球的物理-力学-化学模型,特别是在力系作用下物质的重新分异、调整和物质的运移行为与轨迹及其深层过程和动力机制。这正是地球物理学的本能,正像前辈赵九章院士将科学与技术精辟地结合在一起,用白居易长恨歌里的两句诗来表述地球物理学,即为上穷碧落下黄泉,两处茫茫皆不见。所以说,地球物理学是研究未知的,它必须要越过地平线以下去梳理未知的地球内部物质运动的动态脉络。显见,这是一个多么庞杂的数据体,因为它涉及到物理、数学、信息、计算技术以及地质学等。何况地球内部物质又如此复杂,其物质与能量在进行着不间断的交换(图56)。

上天难入地更难,目前的研究进度仍然不乐观

5 地球内部超地幔柱和超级俯冲(或冷下沉)与地幔对流模式

地球内部结构与物质成分示意图

2)地球内部物质的物理性质和结构是十分复杂的。沉积建造是多少年以来陆相和海相有机与无机物质逐渐沉淀、成层,故记录了整个地史的形成与演化。地壳内部各层又是非均匀的、各向异性的,Moho界面和上地幔盖层乃是壳幔物质交换的界域。核幔边界(D″层)是一个热动力边界层,炽热的物质从这里产生与上涌并形成热点或地幔热柱。在陆缘地域,海陆板块俯冲、消减和冷却下沉,构成了一个循环运行的传动带,且深部物质与能量在进行着强烈的运动、交换和差异旋转。要精确地认识这一过程,不仅必须有与其相适应的巨型数据库,而且必须有各种类型的软件系统作支撑。

地球物理学要求越过地平线去抚摸地球内部的物质分异、调整、运动和动力机制的脉搏,并通过这些数据的反演计算,深化认识地球本体以达为人类营造一个良好的生活与生存空间。

4.2.4 地震活动与强烈地震预测

1)全球每年发生较大地震(不包括数十万次震级MS<5.0的地震)平均约为50000次,其中5级以上的地震约1000次,6级以上的约120次,7级以上的约18次,8级以上约1~2次。图7是自1960以来,全球发生的震级大于4级以上的77048次地震分布图。火山活动亦然,一次强烈的火山喷发,不仅会造成万顷良田被毁,多少房屋化为灰烬,多少人无家可归,同时还会大大影响到社会的安全和经济的发展。如冰岛火山的一次喷发,火山灰升空达数千米,使得欧盟国家10万个航班被取消,1000万人滞留机场,造成欧盟国家的航空公司直接经济损失就高达25亿欧元。更重要的是他们给人类的心灵深处留下了不可磨灭的创伤和忧虑!

天灾以数据形式展现出来更加触目惊心

7 全球地震活动分布图

2)苏门答腊MS9.3级特大地震的发生打破了近半个世界以来全球未发生过8.5级以上地震的记录。进入21世纪以来,世界各国强烈地震异常活动。由于南亚受到印度-澳大利亚板块运动的作用并与其他微板块的碰撞,20041226日在苏门答腊发生了MS9.3MW9.0)级特大地震,全球数字地震台网均清晰地记录了这次地震的发生和一系列强烈余震的发生和发展。这次地震激发了巨大的海啸,海啸席卷了印度洋周边系列岛国,遇难者与失踪者达23万人。这次巨大地震的发生打破了半个世纪以来全球未发生过8.5级地震记录的一长平衡,在全球范围内掀起了一次强烈地震活动的高潮,即近10年来在世界范围内强烈地震、大地震、特大地震频频发生的格局。

3)我国是一个强烈地震多发的国家(图8),在20世纪的百年里,高达180多万人被地震夺去了宝贵的生命,平均每年有约1.8万余人死于地震灾害,造成的经济损失达数千亿美元。进入21世纪以来,地震灾害似有着愈演愈烈的态势。但是,地震预测却是一个世界难题

8 中国地震震中位置分布图

1)尽管当今我国大陆布设有数千个地震台,它们在时时刻刻的记录着大大小小的地震信息,但是相对我国的疆域,固定地震台网仍然不够密集,地震台站分布密度(平均面积分布)远不如我国台湾更不及日本等国。但是,由于国土面积宽广,总体上来讲台站数目亦十分可观。如今,全国天然地震活动观测台达2000多台,并以大量的流动台站记录在我国各构造和地震活动地区进行着来自全球的地震观测,亦拥有庞大的地震数据库

2中国地震局地震台网数据中心的科技人员成年累月地在进行天然地震数字记录的整理、分析、成图,同时汇集各省、市地震台的数字地震记录和报表,按期发出各种报告和图件并对强烈地震事件进行分析。这里是地震大数据的中心,也是大数据存储、管理、整理、分析和数据处理的中心。

这些数据在地震预测领域已经初见成效

4中国地震局面对如此庞大的数据量和繁重的数据处理任务,有序地利用这些数据确定发震时间、震中位置、震级、震源深度,绘制MT图(M为震级,T为时间)及其分区、分时性并做一些较大地震的断层面解。从整体上看,仍需要在已有方法和理念的统计效应的基点上,结合经验和地面震中分布来估计、推断地震发生的可能趋势与区、带,故尚难以走上半量化与量化的物理预测途径。

5)当今除了中国地震局进行一些常规的地震数据处理和参量的估计和分析外,确应集中一个精干和理论水平较高的团队,精确量化地震发生的五大参数的方法研究,将我国各省、市、自治区所辖地区的地震台网数据汇聚、集成,奋力挖掘和提出新信息并探索如下问题:

1)微破裂的发生与破裂链的形成。地震的孕育与发生是一个破裂过程,在力源作用下,震源区介质开始产生破裂,即微破裂,随着应力的强烈增加逐渐形成破裂链,这时介质的质点以地震波动形式向周围辐射。为了研究震源破裂过程,需要在井中有效地记录整个破裂与地震发生的深层动力过程以达探索地震发生的时间和成因。井中记录的主要参数是异常的变形量,地震波速度(VpVs)的变化率和电阻率的变化这三组数据。

2)地震孕育、发生和发展的深部介质和构造环境。强烈地震,特别是大地震或特大地震的发生是需要特定的深部介质和构造环境。为此,通过高精度的人工源深部地震探测、采集大量的数据、反演计算以精细刻画震中区的壳、幔结构和各层介质的物理属性。这是厘定强烈地震发生地点的有效手段之一。

3)地表台网记录强烈地震活动的分区、分带与未来地震的可能发生走向。通过地面数字地震台网的不间断观测、记录并绘制出地震震中分布图,通常这是一张静态的图像。这便要对地震活动区、带陆续发生的地震态势进行分析,如在一段历史时期内所发生地震的方向趋势,不同震级地震发生的时间间隔与频度,地震沿某一方向发生的时间和能量的深度变化及趋势。基于这一系列的数据试图厘定该地震区、带未来可能发生强烈地震的走向和震级

4.2.5 大数据与青藏高原

在地球科学的研究中,青藏高原确具有典型性。由于印度洋板块与欧亚板块的碰撞、挤压不仅迫使高原隆升、地壳短缩增厚,在成山、成盆、成岩、成矿、成灾和深化认识地球本体的进程中确实是一个多元数据集合的宝库。它涉及到地球内部结构、地球物理边界场响应、地质构造格局、地球化学与岩浆岩涌现、地理与地貌、动物与植物、冰川与土壤、资源与能源、火山与地震灾害、大气环流与气候变化,以及人文、经济、民族和社会变迁等科学领域,她是一个交叉的学科且能做出创新性研究成果的一片沃土。

地球科学尺度以百万计,需要大量数据

1喜马拉雅山造山带的快速隆升、自然地理、地貌与山川等的展布造就了一片特异的高地,构筑了我国一系列水系的源头——“水塔,影响着季风和大气环流,形成了世界上的第三极

2)在印度洋板块与欧亚板块强烈碰撞、挤压,在深浅部构造层序的相互作用下导致东西向的拉张力系,这不仅构成了高原南北分区和东西分块格局,而且创立了两大板块陆-陆碰撞的特异运动学和动力学模型

3在两大陆-陆板块碰撞、挤压的界带,如冈底斯地带金属矿产资源丰富,较广泛分布的冻土带有着天然气水合物的潜在远景,且地震亦十分活跃在青藏高原周边地带有一系列7级和8级左右的强烈地震不断发生(如2015426日尼泊尔博克拉发生的8.1级大地震等),且为喜马拉雅-南亚地震带所辖地域。

4特异的壳、幔结构和地球物理边界场响应与其深层过程的展布表明,研究与探索青藏高原大陆动力学响应与机理,不论对东亚还是对全球都有着极为重要的科学意义和应用价值。

在上述各学科交叉的研究进程中,学科间不断产生的交叉数据当必是非常巨量的,因而创建青藏高原大数据体系已为必然轨迹!因为它是青藏高原大陆动力学研究的数据源泉

4.2.6 大数据与全球变化

1)全球变化与国计民生息息相关

全球变化是全人类共同关心的社会持续发展的重大问题。它涉及到众多的学科与领域,如大气科学、第四纪地质、水文地质、地球化学和地球物理场(如放射性场等)及物理科学等。了解地球大气、气候、海洋、陆地、水文等时间(多年多季等)与空间多元(全球与区域)多尺度的定量定性科学信息,特别是一系列的重大环境变化的特征信息、变化信息及其响应信息,极端气候(高温、低温等)、突发与频发自然灾害事件(暴雪冰冻、暴雨洪涝、泥石流、干旱、沙暴、雾霾、台风、地震、火山、污染等)的检测、监测、预警与及时评估,土壤植被、积雪冻土等陆地地表和大气温度、湿度等季节变化对地表生态系统(如碳、氮释放与循环变化等)等,是全球时空环境变化对引起其他相关变化的科学要素、科学评估与科学对策的关键技术。没有准确的定量化的地球环境特征参数与关键因子的时空变化信息,也就丢失了全球变化研究的科学基础

2)卫星空间遥感数据与地球表层环境

当今,遥感技术已为人类广为应用,特别是在农业、林业、荒漠地域的观测取得了重大进展。然而,自20世纪70年代至今,各类多频段(可见光、红外、微波)卫星遥感探测积累了海量数据,即如今的大数据,它大大改变了人类在有限时间与空间(如离散台站、离散时间观测)理解大自然(即浅表层)环境的理念、方法和途径。近三十多年间,我国的风云气象卫星(FY)、海洋卫星(HY)也逐步与国际卫星一起获取了陆地、海洋大气的遥感观测数据。可以说,空间遥感是能向全球变化研究提供时间与空间多尺度多类巨量观测数据的唯一的高技术手段。全球变化研究迫切需要空间遥感数据的积累并提供科学信息,它可以看成是问题求解的参数条件、边界条件、初始条件与实验验证。但是,在我国全球变化十多个重大专项中尚缺少以空间遥感技术与数据源出发的全时空尺度变化的数据参数及定量信息的支撑研究。

遥感已实现厘米级别定位,未来可期

3)遥感数据的积累与转化

遥感观测数据是复杂自然介质(大气、陆地、海洋等)的电磁散射与电磁热辐射,并非是我们需要的各类地球物理参数(如温度、湿度、风速、雪深、雨强、地貌、地质构造、放射性场等)定量信息不能直接提供自然界各种事件变异的规律性科学认知。必须对环境进行观测分析和正演模拟,观测大数据并进行反演同时定量提取科学信息。这就是从数据到信息、从信息到认知的新技术科学内涵的转化过程。这一过程需要开展理论建模、数值模拟、物理模拟、反演同化、重构、多维度信息融合等综合研究。因此,今天的大数据研究除了包括发展大容量高密度数据存储、传输、控制、防护、网络化处理等技术外,还需要大数据信息的转化,即数据的正反演计算等

空间遥感数据的标定与验证,依据散射-辐射传输机理建模-模拟-反演研究,以特定区域积雪、旱涝、沙暴、高低温度等环境特征变化为典型事件,从区域性特征事件遥感数据进行定量信息反演,基于遥感信息的全时空尺度变化与验证,遥感多维度信息融合等几个方面进行研究,提出支持全球变化的多时空(长时间序列与全球尺度)多事件空间遥感定量信息的新理论、新方法、新数据链并应用于全球变化研究的空间遥感信息反演,以获取实用方法与实用实施,提供服务于全球变化研究的遥感大数据源与时空定量信息源

以上地球科学中大数据问题的产出量和所涉及的科学问题与领域使我们充分地认识到,地球科学乃是一个科学大数据宝库,从大数据丛中提取新信息,凝聚具有创新性和原始创新性的前沿科学问题确有着极大的潜能。为此,地球科学理应站在大数据的最前沿并奋力抢占地球科学的制高点,为人民营造一个良好的生活与生存空间。

4.2.7 地球科学大数据的汇总与凝练

1)地球科学大数据的汇聚与凝练尚存在着短时间尚难以逾越的难题

1油气地球物理数据(以地震勘探为主)主要集中在中石油、中石化、中海油各地方局和有关部门及院校。

2金属矿产地球物理数据(包括重、磁、电、震、放射性)主要集中在国土资源部、冶金、武警黄金部队等有关部门以及院校。

3地方台网地球物理观测、探查等地球物理数据(以天然地震观测为主,还有重力、磁测等)主要集中在中国地震局所属各地方局及院校。

4地球内部壳幔结构地球物理数据(以地震为主,还有重力、磁力和电性结构等)主要集中在地质与地球物理研究所、中国地震局、国土资源部(以人工源地震和天然地震观测为主,还有重力、磁力和电性结构)等有关部门和院校。

可供研究的方向很多,难度也是史无前例地大

以上数据在理论上和公开场合无一不赞同开放、共享和共研,但在各种部门所有制门槛和各类约束条件下已成为实际上的不可能。为此,半个多世纪以来,大数据的汇聚、凝练早已化为泡影,这便大大的阻碍了当今大数据大潮在我国地球科学界的实施和应用

2)必须思考的问题

1)特别奇怪的是,有的数据在本部分都相互保密,但却有时对国外开放,国内闭锁,这就必须引起人的思考,为什么?

2摆在我国地球科学界面前的问题是,如何才能真正汇聚与整合我国各部门所拥有的分散数据,乃致国际间的有关数据,以达集成、凝练并在超前思维导引下创新再造,创出一条新的道路,为成山、成盆、成岩、成矿、成灾和深化认识地球本体做出创新性的新贡献(滕吉文等,20012003)!

5 大数据与农业和生物学

农业是产生大数据的无尽源泉,也是大数据应用的广阔天地。农业数据涵盖面广、数据源复杂。关于农业大数据,顾名思义,就是运用大数据理念、技术和方法,解决农业或涉农领域数据的采集、存储、计算与应用等一系列问题,是大数据理论和技术在农业中的应用和实践。

农业大数据是大数据理论和技术的专业化应用,除了具备大数据的公共属性,必然具有农业数据自身的特点。通常所讲到的农业,实际上应涵盖农村、农业和农民三个层面,具有涵盖区域广、涉及领域和内容宽泛、影响因素众多、数据采集复杂、决策和管理困难等特点。狭义的农业生产是指种植业,包括生产粮食作物、经济作物、饲料作物和绿肥等农作物的生产活动等,不仅仅涉及到耕地、播种、施肥、杀虫、收割、存储、育种等农作物的生产全过程的各环节,而且还涉及跨行业、跨专业、跨业务的数据分析与挖掘,以及结果的展示与应用,乃至整个产业链的资源、环境、过程、安全等监控与决策管理等。广义的农业生产是指包括种植业、林业、畜牧业、渔业和副业五种产业形式,均应该包含在农业大数据研究的范畴中

5.1 大数据逼近现代化农业

5.1.1 农业和生物学的大数据应用

1)大数据在农业发展中的响应

12013618日,国内第一个农业大数据产业技术创新联盟成立;20141029日,中国农产品大数据联盟成立;2014115日,中国杨凌农业大数据中心正式成立。2015717科技部网站以互联网”+“物联网助力传统农业为切入点报导了基于物联网技术的农业智能信息系统与服务平台项目的研究成果

2大数据的浪潮正席卷全球。事实上,各国已都开始了信息化的角逐,大数据之战也早已拉开帷幕20123月,奥巴马政府宣布大数据的研究和发展计划20132月,韩国总统朴槿惠呼吁将信息技术作为韩国经济增长的一个新支柱;2013年,俄罗斯总理梅德韦杰夫签署了《2018年前信息技术产业发展规划》。

大数据作为新一代的信息技术,其触角已经深入到农业领域。那么,信息化对现代农业有多重要?农业大数据该朝哪个方面发力?大数据应如何助力现代农业?

大数据概念一步步渗透到方方面面

2)大数据与农产品大流通

我国甘肃定西的土豆都去哪儿了?北京新发地的黄瓜都来源于哪儿?基于大数据技术,过去难以知晓的事情可能会在未来一目了然了。

近年来,随着物联网、云计算、移动互联等技术的飞速发展,农产品流通数据呈现海量爆发趋势,可以说是跨步迈入了大数据时代数据是能力,是竞争力,也是战略资源,将在农产品流通中发挥不可或缺的重要作用。如果农民能随时掌握天气变化、市场需求和供给、农作物生长等数据,农民和农业技术专家在家中就可以观测到田地里的情况和相关数据,准确判断农作物是否要施肥、灌溉或施药,不仅能避免因自然因素造成的产量下降,而且可以避免因市场因素给农民带来的经济损失。当前,在精准农业、农产品流通体系、农业气象预测、粮食安全、病虫害预测与防治、土壤治理、动植物育种、农业结构调整、农产品价格、农副产品消费、小城镇建设等诸多农业领域,都可通过大数据技术进行预测和干预。显见,准确的基础数据是关键。

对于农产品的流通问题,大数据意味着一场新的机遇,使得全面、多维感知农产品流通成为可能。一方面,大数据使得农产品流通进入全面感知时代。例如,在传统农业调查中,只能利用合理的抽样去无限接近总体,用样本推断总体。而大数据技术使得直接面对农产品流通数据成为可能,可以有效避免出现盲人摸象的状况。另一方面,大数据使得认知进入多维关联时代。每一种数据来源都有一定的局限性和片面性,事物的本质和规律往往隐藏在数据的相互关联之中。只有融合、集成各方面的数据,才能反映事物的全貌。数据量的增大使得相关关系的重要性凸显,有时可以通过分析数据之间的相关关系发掘意想不到的价值。大数据可以提供经系统整合的相关气候、农产品价格走势、进城道路交通信息、终端消费需求等相关数据,辅之以菜场、超市、摊位监测评估数据体系等,通过对这些专业数据的解读,可以判断农产品需求、价格变动等情况。

3)分析农产品大数据,是长期性、综合性的系统工程,也是基础性和战略性的科技创新工作。同时,我们应当看到,作为国家的战略需求,推进我国农产品大数据技术的发展,离不开社会各方面的广泛参与、联合协作,当前迫切需要大力加强原始科学创新,促进关键共性技术创新和集成,共同探索适合模式并积极推广应用

需要特别指出的是,大数据之,并不仅仅在于其容量之大对于农产品大数据工作而言,更大的意义在于从大数据中形成大思维、开展大合作、构建大平台、获得大发展,从而使得农产品生产、流通的信息流得到充分延展和深化,这也正是大数据能够发挥更多作用之处。

4)创新处理技术。针对农业信息所获数据与已有海量农产品市场数据的融合,必须开展对农产品市场的处理技术的研究,并建立数据清理优化模型。特别是,数据采集遇到的数据缺失与噪声,从而自动模拟缺失数据,清除异常数据,并纠正错误数据。当今,这一技术已广泛的应用到市场信息采集中,并在天津、河北、福建、广东、还难等11个省,针对批发市场、零售市场,选择粮食、蔬菜、水藻、油料、肉类、蛋类、奶类和水产品8大主要农产品的市场信息开展了推广应用。

大数据能否影响到农药和添加剂使用率

如今,如何深入挖掘并有效整合散落在各处的农产品生产和流通数据,进行科学分析研判,为农产品的生产和流通提供高效优质的信息服务、提高农业资源利用率和流通效率、保障食物安全,已成为大家关注的热点和政府决策的重点,也已成为未来信息研究机构、专家学者关注和研究的重要方向。显然,从标准与规范出发,进行数字化传输与智能化处理,将必会大大提高原油指标体系所收集信息的完备性和兼容性

基于上述考虑,中国农科院农业信息研究所与北京一人一亩田网络科技有限公司发起成立了中国农产品大数据联盟,联盟的成员主要有科研机构、高等院校、企业、中介机构等。

5.1.2 大数据在农业应用中面临挑战

目前,我国大数据产业还处于发展初期,市场规模仍然比较小,2012年仅为4.5亿元,而且主导厂商仍以外企居多,农业大数据应用情况更不容乐观。相对于大数据发展前景的乐观预测,农业大数据发展面临的现实挑战更值得认真分析和对待。大数据对现有的数据处理范式带来了挑战。由于多数大数据是非关联型的、非交易型的和非结构化的数据,缺乏数据结构,因此很难将其抽象成一个查询服务。由于数据有多个来源和表现形式,也就难以按序存储,并且定义基础数据的完整性和去重过程是有一些规则的。同时,在使用前需要必要的质量控制程序,使得运用大数据变得非常复杂和耗时。过去的数据收集、储存、和分析方法,不足以应对这种新出现的数据规模和复杂性。必须产生新的数据处理范式来应对大数据的强度、规模和复杂性。

大数据对现有的科学信息管理模式带来了挑战。首先,如何合理有效地利用分散在不同部门和主体的数据,需要明确哪些数据可以公开用于商业活动、哪些需要进行限制。对涉及个人隐私或国家安全的数据应该进行限制和规范。对于政府部门、科研机构和高校的专业数据,应该有条件的对社会公众开放。其次,如何构建支撑大数据运行的基础设施,包括如何对传统数据中心进行改造和利用,如何建设一个高速方便接入的互联网通道等。大数据对现有的技术条件带来了挑战。如果想要有效的利用大数据,必须依靠相关技术的进步和提升,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网技术、物联网技术和可扩展的存储系统等

5.2 大数据催生大生物学

5.2.1 大数据在生物学与医学领域受到

重视程度和发展势态与瓶颈问题

1)很少有人知道,大数据早就将伸到了生物医学领域,开始了疾病预测。欧美国家对生物领域的大数据发展十分重视。20153月,英国宣布英国医学研究理事会(MRC)将投资3200万英镑资助首批5大项目,来提高医学生物信息学的能力、产能和核心基础设施。这项医学生物信息学计划预计总投资5000万英镑,将通过建立耦合复杂生物数据和健康记录的新方法,来解决关键的医学难题

早在20123月,美国奥巴马政府就宣布推出大数据的研究和发展计划,将大数据提升到了国家战略层面,承诺将投资两亿多美元。2014年,美国政府就如何充分利用生物医学大数据,又启动了Big Data to Knowledge计划。在生命科学里,数据是多种形式的,包括基因组序列、分子通路和人类不同种群等信息。如果科学家能够克服一个牵绊,即如何处理信息的复杂性,那么这些数据将会创造其潜在的价值

大数据背景下的研究进入不曾有过的瓶颈期

2)尽管生物学家为了收集足够的数据,已经努力了十年。但是,弗吉尼亚州阿什本的乔治华盛顿大学计算生物学研究所主任KeithCrandall表示,生物学的新瓶颈在于大数据问题他举例指出,20024月公布的第一个人类基因组序列,集中了来自20个研究所的专家、基础设施和人员,历经13年的辛劳花费了大约30亿美元,获得了大约30亿个核苷酸的顺序。Crandall说,如今测出一个人的基因组仅需1000美元,一周就可以产生超过320个基因组。随着生命科学家开始探索更多的方式来处理大数据的容量、速率和多变性,他们开始研发分析信息的新方法

9 生物学的新瓶颈在于大数据

5.2.2 不断扩张的容量(Volume

在人类生物学大量信息的收集方面,制药产业早在数十年前就开始与大数据集打交道了。马赛诸塞州波士顿的默克公司研究实验室科学信息助理副总裁Jason Johnson说,多年来,默克公司积累了成千上万例临床试验,有能力在数百万例消除识别信息的病患记录中进行查询。现在我们拥有的下一代基因组测序,能够从每个样本中创造出兆兆字节的数据。

1为了处理如此多的数据,即使是大型制药公司也需要帮助。瑞士巴塞尔的罗氏公司研发运营全球总监Bryn Roderts说,罗氏积累了一个世纪的数据。在2011-2012年进行了一次成百上千个癌细胞系的大规模测序实验中,数据量就翻了一倍多。想要从这些数据集和其他人多年前采集的数据中挖掘更多的价值,他们与加州福斯特城的Point Cross公司合作建立了一个数据平台,该平台可以灵活地搜索罗氏过去25年的研究数据。研究人员将挖掘这些数据以及成千上万个复合物的信息,利用现有知识来研发新药品

2对于学术界和产业界的生命科学家来说,下一代测序技术创造了财富也产生了阻碍。他们合作开发的软件Patho Scope,能够处理当今下一代测序(NGS)平台的数据,进而将千兆碱基的DNA信息转变成千兆字节(GB)的计算机数据。该软件将DNA样本与参考基因组做比对,以鉴定出病原体。其中,数据集可以为成千上百的样本进行每个样本20GB的数据分析,在后续分析中每个样本又可产生上百GB的数据。

3如此大量的数据在医疗保健领域尤为有用,因为药物研究者必须在设计试验时充分考虑人群的变异性。英国牛津大学转化医学教授ChasBountra提到,你无法从仅仅10个人的研究中得到合理的结论,但是通过研究50万人,你可以从中汲取重要的结论。

体质差异下寻找规律,需要的数据量何其之大

大规模的研究可能会揭示疾病的遗传贡献以及一种药物是否可以帮助到一部分病人,或者哪些个体更可能会表现出特定的失调。遗传信息可能会揭示生物标记,或某种特定疾病的表征物,类似于在某种类型癌症中的一个分子。英国牛津市的威康信托基金会人类遗传学中心统计学教授McVean解释到,遗传学能够告诉你某个与疾病相关的生物标记是否值得进一步作为(治疗的)靶标进行深入研究。对于学术界和产业界的生命科学家来说,下一代测序技术创造了财富也产生了阻碍。为了应用这一理念,McVean领衔的研究团队通过李嘉诚捐献的3300万美元大额捐款,正在剑桥大学创建李嘉诚健康信息和发现中心(Li Ka Shing Centre for Health Information and Discovery),该中心将成立一个大数据研究中心机构,且该中心将分析数据的过程和遗传学结合在一个研究所里,这样将能够克服在大数据收集和大数据集分析方面遇到的棘手而有趣的难题。

5.2.3 寻求高速率(Velocity

过去,分析基因相关的数据存在瓶颈。BioDatomics公司开发了自己的BioDT软件,为分析基因组数据提供了400多种工具。将这些工具整合进入到一个软件包中,它易于使用且可以超越任何台式电脑。BioDT在计算机集群上运行,且包括了许多个节点的设备,相互联通为一个整体进行工作。

5.2.4 多变性的版本(Variability

多变性(Variability),也给生物学家带来了极大的挑战。正如Bountra所说,我们现在将许多来自于不同领域、具有不同数据集的人聚集在一起挑战之一就是生物学实验室拥有各种设备,但是他们通常收集的数据是特定的文件格式,这需要在处理大数据时整合各种数据格式。

生物学的大数据还体现在新形态的多变性。例如,位于德国慕尼黑Definiens公司的科学家在进行一项被公司称为组织表型组学(tissue phenomenon)的研究,即一个组织样本中的组织信息,包括细胞的大小、形态、吸收的染色剂和哪些细胞进行相互联系等方面。这一技术可以应用到一系列的研究中,例如追踪细胞在发育过程中的特征变化研究,或者定量测定药物对某些组织细胞的影响研究

NuMedii公司首席科学家Graig·Webb认为,有一个项目是研究人员从超过2500份卵巢癌样本中搜索基因表达数据,再利用多种计算机算法来预测现有药物是否具有广谱治疗卵巢癌或针对某种分子亚型的潜力。大数据让我们可以广撒网寻找线索,而大知识则让我们能快速地选择出可供测试的组分

5.2.5 组合的复杂性

马萨诸塞州剑桥市诺华生物医学研究所(NIBR)信息系统执行主任Steph Cleaver在大数据的3“V”之外,又加上了复杂性。他认为制药公司科研人员分析数据的方式是通过某些病患个体到病患群体再到整合掌握所有信息这一过程是很复杂的。

在医疗保健领域,大数据分析的复杂性也源于对不同类型信息的整合,如源自基因组、蛋白组、细胞信号转导、临床研究,甚至环境科学研究的数据,结果将很可能产生全新的疾病治疗方法。但是,马萨诸塞州剑桥市GNS Healthcare公司的共同创始人Iya Khalil提到:你如何为这些数据赋予意义,并且从这些数据中获得新的启示,以提升我们对于病理机制的认识?对于Khalil和她的团队成员来说,答案来源于机器的学习、数学、计算机算法和超级计算机——它们整合在一起,从而探索疾病的根本途径,追踪患者对于特定治疗做出的可能响应。

使用大数据的关键在于推动科学的发展。例如,在NIBR公司,Cleaver和他的同事想要确保得到信息量大、第一手的重要数据。运行先进的数据挖掘方法是非常好的,但是它必须能够启发下一个科学假设。只有这样,今天的大数据才能改变明天的生物学和医学

数据的整理和规律分析越来越依赖大数据技术
5.2.6 生物大数据研究困难重重

以上阐述了欧美国家对大数据的重视,我国在大数据方面真正重视乃近年来之事。虽然我国企业也频频在大数据上有所动作,但是上海生物信息技术研究中心主任、中科院上海生命科学研究院生物信息中心主任李亦学对《中国科学报》记者指出:虽然国内大数据在其他方向的研究远胜国外,但是生物大数据与国外相比尚有较大差距这种差距并不是因为我国没有数据造成的,而原因是多方面的,它涵盖了理论、技术、方法和软件系统以及数据分析构架等方面。

1)要想创新,数据积累是一个艰难的历程。据我国最早从事理论生物学和生物信息学研究的科研人员之一、中国科学院院士陈润生指出:

1)以华大基因为代表的基因测序机构为生物大数据的产生做出了重要的贡献。华大基因当前的测序量大约占据国际数据量的40%左右,而且随着技术发展和测序手段成本的下降,几乎所有的研究型大学和研究单位无论是在农业、林业还是医学,都对基因测序有所涉及

2)基因组层面上的生物大数据的发展带动了蛋白质组、代谢组、生物网络等各个层级的相关生物大数据的海量产生。但是,我国当前还未能建立统一的生物数据信息中心。生物大数据滞后于国外的最根本原因在于,我国没有大型的综合生物大数据库,也没有生物大数据平台。而向国外大数据库救助,表面上这些大数据库宣称,只要递交申请就可以免费共享数据,但实际上是困难重重而要受制于人

2我国有着发展生物大数据的能力,占有海量大数据的优势。中国的物种具有多样性,可形成具有特色的大数据体系。为此,如何在保护国内生物数据资源的同时寻找有价值的利用方向。如在国内首先统一做到数据共享与合作,建立起自己的数据平台。不过,这也是一道难题,生物学家们认为:

1)英美国家对数据库的建立投入了很多资金,引进的人才大部分有博士学位,每年的经费都由国会拨款支持,来源比较稳定,一年约需投入1亿美元。

2)如果我国建立一个类似的生物大数据中心,应该也要有数百人的编制和每年几亿元的长期稳定投入。这笔钱如何由政府支出,障碍仍然不小。

3)建立数据平台的地点、内容、权限、谁来管理亦尚难以达成共识。

类似太湖数据中心的数据库会逐步增加
6 在大数据的发展必须重视的问题

当今人们应当清醒地认识到,眼下大数据已经被过度包装。凡事要有度,大数据是时尚但非万能,不必事事、时时与之相关联。正如时装的本质是为了推动健康文明,但不可时时、人人、处处都时装化。

显然,在对大数据的分析和应用中,必须对大数据本体进行筛选和精细研究,方能获取成效!这就是说大数据是重要的,但非万能或无所不能。因为,科技是一把双刃剑,关键是数据的真实性、有效性和由谁使用以及如何使用的问题?

为使大数据能得以发挥其功效,各大学科(一级、国家级)必须从各自为政的分散状态中集中统一起来,迅速建立起大数据中心或大数据平台,以适应世界科技大潮的发展与能源创新再造

6.1 个人信息安全不容忽视

近日,一则“130万考研用户信息网上叫卖的消息引发了社会关注。据报道,上百万考生的报名信息被人以1.5万元的价格出售,一些考生因此遭到各种电话和短信精准销售尽管中国研究生招生网的工作人员表示,已就此问题向公安机关报案,但是该事件暴露出的信息安全问题不容忽视

1)在大数据时代,网络对人们经济和社会活动的介入越来越深,信息和数据的收集也变得越来越便捷。这一方面使相关行业能够利用信息,并使数据实现更大的价值创造。另一方面也给个人信息的保护带来前所未有的挑战。用户的位置信息、行为信息、消费信息、社交信息等都变成了可被存储、分析的数据,如果将这些数据汇总起来可以准确还原和预测个人在日常生活中的真实活动轨迹,如果被滥用势必加剧个人信息风险

2)用户信息不仅涉及个人隐私,更是一种重要的数据资产,特别是互联网经济的崛起,使大数据带来的商业价值日益凸显。正是因为如此,相关行业的数据和信息被作为核心资源广泛争夺。显然,一方面缺少监管,一方面又有利可图,使非法获取个人信息的行为获得了很大的操作空间。近年来,由于经济利益的驱使、行业生态的混乱、法律法规的缺失,以及公民自身对个人信息保护意识的欠缺等原因,围绕个人信息的采集、加工、开发和销售正悄然变为一条数据产业链由于信息泄露造成的精准营销和金融诈骗活动,给人们的隐私和财产造成了难以估量的损失

我们也要看到,今天的世界正变得日益数字化,无论是政府对公共政策的制定,还是企业对市场行情的分析,都离不开信息和数据的采集。观察互联网经济的每一次创新,如百度打造大数据引擎,支付宝生成的十年账单等,处处都让人们感受到了数据的力量。在大数据时代的信息安全风险面前,我们既不能熟视无睹也不能因噎废食

3捍卫大数据时代的个人信息安全,亟待建立健全系统化的防护体系在法律层面上,迫切需要制定保护公民个人信息的专门性法规,明确规定个人信息的保护范围,并对个人信息的采集、使用、处理予以特别规定;在行业层面上,要建立互联网、电信、金融等重点领域的行业自律机制,完善客户信息的管理规范,使客户信息的采集更加透明,并切实做好保密义务;在技术层面上,要加快建立规范的网络认证标准体系,加快大数据安全保障和关键技术的推广,降低信息泄露的潜在风险。唯有如此,才能有效遏制大数据时代个人信息安全的系统性风险,使大数据真正成为促进信息消费的新动力。

6.2 数据共享与权力演化

当数据变成了一种稀缺的资源和一种权力之后,那么在科学研究中为什么要分享数据?当然就是为了更好地合作,为了做出更好的工作。分享这个动作基本上是出于相互信任,并且对成果有期待的情况下发生的。人们常常期待着比自己厉害的人,或者懂你的人,分享并得出更好与更有用的结果

与经济、权力挂钩的东西大都需要在管制下运作

数据作为一种稀缺的资源,在共享数据时当必涉及到:

1出于国家机密与安全考虑,数据分享过程中若出现泄密,则可能会损失某些群体或部门甚至国家的利益,如斯诺登,维基解密等。因为涉密或者有关国家安全的数据都是分享者的禁区。

2)技术安全与分享。如果仅仅出于害怕别人做出比自己更出色的工作的心态,科研的前途就令人担忧,这里面涉及一个长远性的问题。不过在各国功成名就的科学家里,大多都是秉承着你需要这个数据你就拿去分析,我们一起看看会有什么有趣的结果这样一种心态。首先是我们,然后是一起我们一起的情况是对提供给你数据的人的尊敬,因为只有尊重你的知识和能力,才会和你研讨和切磋。当你被人欣赏、尊重和信任时,这种转化成的正能量其实是十分强大的

3)数据演化成权力。这两者的关系看似有着千丝万缕、理不清的头绪,但是数据其实是可以转化成一种稀缺资源进而演化成为一种权力。只有跨过这一门槛,才能达到数据的真正分享并迎接激动人心的大数据时代的到来!例如,DNA双螺旋结构的发现是由化学家鲍林和生物学家克里克、富兰克林和威尔金斯合作的结晶。这表明,在学科交叉中多种理论之间发生相互作用、相互渗透形成了科学键,从而能开拓出多元学科交叉的前沿领域,产生出许多新的生长点再生核。如粒子宇宙学、生物物理化学、生物数学、太空科学、环境科学、地球科学、科学伦理学、系统科学与自然社会学和社会自然学等。

6.3 大数据与科学创新

6.3.1 大数据的基本特征

从更为广泛的角度来看,大数据及其研究代表着一个信息时代、一种思维方式、一种技术潮流。因为科学大数据是与科学研究和工程实践相关的数据集

1)科学大数据具有的外部特征

通常科学大数据在不同学科中的差异较大,数据产生的速率变化亦较大包括高能物理、地球物理、天体物理以及各项对地观测等领域的数据和天体演变、深层过程、人类进化等领域的数据;它主要来自观测和实验的记录以及后续加工;它通常与科学原理模型相结合以形成知识发现,即完全依赖数据分析而忽视科学原理及模型的领域与方法并不多见。

2)科学大数据的数据内容的不可重复性

正如哲学家赫拉克利特的名言所述:人不可能两次踏进同一条河流,因为对于一般的自然和物理客观过程的观测内容,具有一定的不可重复性和数据的高度不确定性。由于采用观测和记录等获取手段以及非直接的观测方式和采样手段会导致科学大数据存在高度不确定性和数据的高维特性。由于科学大数据面临数据源种类繁多、数学分析手段困难等原因,故具有高维特性并导致维数灾难的形成和数据分析的高度计算复杂性。由于数据的不确定性、高维特性,以及与科学数据分析相伴随的原理及模型的复杂性,会导致科学数据处理计算具有复杂性。因此,科学大数据具有不同于一般大数据的显著特征,其内在机理以及如何应用知识发现尚应深化认识。

3)大数据服务大科学研究是一个重要方向

大科学多是指多学科交叉的大型基础科学研究项目,具有投资巨大、项目科研人员数目众多、拥有大型科研基础设施及实验环境的特点。国际上较为著名的大科学计划,如大型强子对撞机、人类基因组计划、地球观测系统、全球变化研究、地球物理学中的上地幔计划、岩石圈计划、地球动力学计划等。人们认为,大科学计划是现代科学研究的一种成功联合模式,并已在若干重大关键科学领域中发挥了重要作用。大科学研究与大数据紧密联系,因为大科学计划通常能够产生海量的实验数据或观测数据在高能物理领域,如大型强子对撞机一年可产生15PB的数据。在人类基因测序方面,到2013年全球范围内至少有30万个人类个体基因组被全部或部分测序,这意味着将产生30PB序列的数据,并需要至少150PB的相应存储和分析计算能力。全球变化研究作为地球科学、环境科学、生命科学、社会科学和计算科学等多学科交叉的领域,其数据类型更是多种多样,且时间序列超长。预计到2020年,基于地球系统数值模式的全球变化预测资料的数据量将达50PB,遥感卫星数据也将达50PB,其他类型数据将达2PB。这一数字预计到2030年将分别会上升为185PB150PB5PB

数据存储形式一定程度上也影响数据量

在未来地球计划的交叉能力中,其中观测(Observing)、数据系统(Data Systems)、地球系统建模(Earth System Modeling)等均与大数据密切相关。在数据观测能力中,由卫星、航空、地面、海域等台站网络组成的地球观测系统要提供大量的观测数据;数据系统不但要快速获取大量数据并进行实时处理和分析,还需要通过元数据管理和合理的数据政策减少数据质量的不确定性;地球系统建模会涉及社会与人文、科学模型、对地观测系统、经济效应等极为丰富的数据类型。

在全球综合地球观测系统(Global Earth Observation System of SystemsGEOSS)中,其数据包括时间跨度长的各类卫星观测数据、地面观测和探测数据、各类应用数据库,体量巨大、类型丰富GEOSS也特别注重元数据、数据质量控制、数据共享政策的工作以保证数据的真实性。GEOSS在快速获取对地观测数据的同时,可通过对GEONET castGCI等系统实现各类数据的快速集成分析和应用。例如,集成中科院遥感与数字地球研究中心具有长时间系列的大量对地观测数据存档,数据总量超过450TB3个遥感卫星地面站及两架遥感飞机可以实现快速获取不同时间、空间、地物对象的多源对地观测数据;数字地球科学平台具有快速处理、分析海量空间数据和知识发现能力;对地观测数据共享平台开展共享元数据、数据质量控制、数据共享政策的工作。由于大科学计划中有相当大一部分的科学研究属于反问题框架,其机理模型极为复杂(模型不确定性和计算复杂性极大),实验数据或观测数据对模型的发展(即知识发现)和新模型的建立作用明显。科学大数据将继续在数字地球、全球变化、高能物理、人类基因组计划和人类向空间挑战的上天、入地、下海三大壮举等大科学领域发挥着重要作用,并为新的发现做出重要贡献。

6.3.2 大数据时代催促国际化进程

在大数据时代的国际化进程中需要解决的5个问题:

1大数据如何能真正达到共享而不是以国际上大数据库共享为幌子而聚合世界数据,对非大数据库国家的应用时给予的不平等待遇;

2)建立大数据收集、集成和应用的政策、伦理道德和法制

3国际大数据共享、共管、共监,充分发挥大数据的效应并保证大数据的不断增长与科学利用;

4)建立各种类型的大数据软件模块和信息交换管理平台

5)力争在推动并普及大数据的应用开放进程中,加强理论、方法和研究人才的培养及交流,并从大数据本体和科技创新不断再造的链条中深化对大数据效应的理解。

国际科技数据委员会(CODATA)联合全球6大大型国际学术组织以及中国科学院遥感与数字地球研究所于20146月在北京举办了大数据与科学发现国际研讨会。这次研讨会对大数据及科学大数据本质特征进行了分析,对大数据与大科学研究的知识发现开展了研讨,对大数据与大科学计划的应用提出了建议,并针对大数据服务科学计划使命提出了未来行动纲领,并期待着大数据、大科学和大发现。

6.4 实时社会信号催生新型社会管理

在我国所面临的大数据形势下获取大数据、共享大数据、监查大数据、利用大数据已构成了一个系统工程。不过我更担心的是,不及时有效地开发、处理、利用大数据可能造成的负面作用,甚至带来国家风险。从农业时代到工业时代,自然界许多物理反应过程在现代企业环境中变得更加复杂、强大、危险,由此催生了基于实时物理信号的自动化产业。因为,如果还按农业时代的自然方式处理这些过程,就会在生产中发生许多爆炸性灾难。

6.4.1 社会信号和创新社会经济管理

大数据也会带动决策机制的改革,促进从经验决策、量化决策向大数据决策转变。世界上不同部门均有大量的数据,但是并非每一个部门都有能力把大数据用好。为此,大数据引发了各国科技界、产业界和政府部门的高度重视。

物尽其用向来都是可望而不可即的目标

1)现在我们正处于从工业时代走向知业时代的转变,社会中的许多组织过程在网络环境中亦变得更加动态复杂,大数据实际上揭示了实时社会信号的到来,也必将催生新型社会管理产业。知识自动化、社会及文化资源规划等系统知识滥觞,故必须尽快利用大数据,创新社会管理,开发出各种各样的社会管理和服务系统。否则,就像工业生产那样,不利于新型社会管理和服务系统而对及时处理,甚至无视社会信号,也可能在社会过程中产生许多爆炸性事件,危害社会的健康发展。

2)实际上,19世纪法国科学家安培提出控制论一词的原意就是科学地进行国务与社会事务的管理,只是当时还没有大数据和社会信号,但却已经有了工业生产中的物理信号。因此,只能把控制论的思想用于工业控制,使工业社会得以实现。今天,网络技术、信息理论、智能系统已经把大数据和社会信号洪水般地推向几乎每个人的面前。我们必须尽快将其作为一种财富加以识别和利用,从而更有效地服务人类,以向更加开放、繁荣、公正的社会迈进。

3)大数据催生数据产业。为使得数据真正能够聚集、整合、集成发挥大数据能效之必须:

1)美国于2012年启动大数据研发计划,美国国家科学基金会、能源部、国防部等6个联邦部门和机构共同提高收集、储存、保留、管理、分析和共享海量数据所需的核心技术,扩大大数据技术开发和应用所需人才的供给。目前,美国已形成庞大的大数据产业,在企业发展、国防建设等方面发挥了巨大作用。在大数据产业建设中要制定出一定的方案,包括监管与法制并防止可能发生的弊端。

2我国大数据研究起步尚不算太晚,而且国家高度重视,所以我国应大力促进大数据研究和产业的发展。当然,在发展大数据的时候一定要发挥多学科交叉与融合的优势,同时我国应尽快建立一套完整的大数据人才培养体系。

3为了社会与经济的繁荣,大数据在各行各业必须给予高度重视,改革开放以来我国各类数据大量流向国外,充实了国外的大数据库,但我国各界人士却不能平等共享。基于我国拥有对各类大数据的分析和利用能力,又占有大数据之优势,这就必须克服理论、技术、方法、软件和人才等方面的困难,克服部门闭关的本位与保守主义,克服一切偏见,求同存异并迅速建立起各学科与行业的大数据库、软件库和共享平台。

6.5 强化挖掘大数据潜能已成为必然

6.5.1 大数据应迅速转化为产品

随着社会的进步,科学与技术的发展和经济的快速增长,大数据已经如同工业社会的石油和金属矿产资源一样,确具有举足轻重的作用,即作为一种资源

2014年,国际数据公司(IDC)发布的第七份数字宇宙研究报告指出,全球数据总量将以每两年翻一番的速度持续增长。2013年到2020年,数据量将增长10倍,从4.42ZB增长到44ZB。如此庞大的数据,看上去十分耀眼。但与此同时,庞大数据如何转化为切切实实的产品,发挥其经济效益,创造更大的社会价值,仍然是一个亟待解决的问题

目前,由国际数据委员会(CODATA)中国全国委员会主办、在兰州召开的2015科学数据大会上,与会专家、企业代表就此问题进行了深入探讨。

积累到了相当可观的数据量,亟需转化为收益

1)大数据的价值

当今,中国已是世界上第二大数据生产国,仅次于美国。预计在不久的将来,中国将超过美国,成为世界头号数据生产国。但来自各行各业的数据却长期尚找不到合适的变现方式,并一直沉睡在数据库中。

中科院寒旱所科研人员长期在西北地区的寒区旱区进行深入科考和研究,积累了二三十年的科学数据,但很多时候他们拥有的数据的价值在科学研究方面体现的比较多,但是其在经济价值方面却未能一一体现。这是因为,大数据只有进行分析处理,深度挖掘后才有价值,否则就不能发挥作用

甘肃移动网络部总经理助理亢凯认为,目前绝大多数的行业、企业都不具备大数据处理的能力,因为大数据还有一定的高门槛,故导致大数据的价值未能得到充分发挥。这是由于若紧靠一个企业或者一个行业将数据聚积起来,并不一定能产生足够的价值,而是必须将不同领域的数据汇聚起来,进行融合、加工、凝练方能具有足够的价值

2)如何把数据转化成为产品

数据堂公司肖永红认为:大数据完全可以转化为产品,只要建立在开放共享的基础上。目前,数据正在成为各行业的关键支撑,未来数据产品有着很大市场与潜在空间他提出:

1)任何来自医疗、健康、销量、物流、景点、交通、监控、气候、教育、住房等领域的数据源产生的数据,都可以汇集到类似数据银行这样的第三方平台,凡是需要大数据的企业就可以来数据银行付费,进行数据交易。

关于数据来源是众包平台,即雇佣兼职人员采集数据。比如,在网站上发布一个信息,要求网友收集超市的购物小票,上传图片后会给网友提供物质奖励,于是就获得了很多独家的核心数据。这些来自超市购物的数据,对于零售企业是非常有用的。于是就可以把这些信息销售给他们。

2)科研机构、行业协会、政府部门以及网络数据,都是从第三方平台可以获得的大数据来源。得到数据后,要进行数据清洗,剔除掉无用的信息或不准确的数据,再进行数据关联等工作,最后为企业提供定制、销售、订阅、应用等多项服务

贵阳大数据交易所相关人员表示,贵州省正在推行的贵阳大数据交易所也在做类似工作,旨在率先推动数据互联共享方面的探索,将会带动大数据清洗、挖掘和应用等相关产业发展。拥有数据的用户,完全可以把数据提供给这个平台,再由有需要的企业进行采购,这样就能形成产品

当今,百度将通过与各行各业的深度合作、融合线上与线下数据,实现数据价值的核聚变,推动各行各业发生化学反应,助力行业发展,开放平台服务于360行。

3)大数据市场化进程中也还有一些问题有待解决。作为有数据需求的企业来说,他们当比愿意有偿取得这些信息,而问题是:大数据的价值如何确定?利益如何分配?大数据的校准?大数据如何开放、共享等?这些问题的推进必须由政府部门提供政策和相关的制度引导。

6.5.2 阅兵训练中使用了大数据

2015826日新华社电(刘济美,王丹)报导,这次阅兵中信息化方法手段得到了充分运用,实现了训练考核的精确定位、精心评判,即阅兵训练已经悄然进入大数据时代

我们能看到的或许只是冰山一角

1冷车现象曾让反坦克导弹方队头疼不已。冷车指车辆刚启动时,由于水温、油温偏低,导致同意转速下装备行进速度不一致,无法达到匀速通过天安门的标准。反坦克导弹方队长单正海介绍,为解决冷车问题,他们为每台阅兵车绘制了车速与转速在不同油温、水温条件下的关系曲线图,通过数据分析的方法精确定位每台车在不同条件下达到标准速度所需要的条件,彻底解决冷车问题

2大数据分析还用在查找和纠正驾驶员细微驾驶问题上,提高单兵的驾驶技能反坦克导弹方队政委王文轩表示,现在方队的前后车辆距离误差仅为01m,并列行驶车辆标齐误差只有0.03m

3)了解受阅官兵的健康状况和训练受伤情况,更好地实施科学训练,有针对性地提供医疗保障,阅兵保障站医疗防疫队理疗组对来自不同兵种地4个装备方队和来自不同地区的4个徒步方队进行了数据抽样调查。

北京军区总医院全军骨科研究所主任医师叶超群表示,体能训练一般都会带来训练伤,我们通过大数据指导科学实训,在提高训练效果的同时尽可能地预防、减少受阅官兵的训练伤

6.5.3 重视大数据潜能挖掘

2018年底前,我国将建成政府数据统一开放平台,以达加快大数据部署,深化大数据应用,并已成为稳增长、促改革、调结构、惠民生,以及推动政府治理能力现代化地内在需要和必然选择。

1)《促进大数据发展行动纲领》提出的重要意义在国务院印发《促进大数据发展行动纲领》(以下简称纲要)中提出要全面推进大数据发展和应用,加快政府数据开放共享,深化大数据在各行业的创新应用,通过建设数据强国,提升政府治理能力,推动经济转型升级。此外,《纲要》还提出要在2017年底形成跨部门数据资源共享共用格局,在2018年底前建成国家政府数据统一开放平台。

这是我国第一次把发展大数据上升为国家战略中国电子信息产业发展研究员信息化研究中心副主任潘文在接受《经济日报》记者采访时表示,此次《纲要》发布,对推进落实中国制造2015”互联网+”国家战略、促进大众创业、万众创新,推动经济和社会发展具有重要意义。

2)数据已成为推动经济转型发展的新动力和新的经济增长点

20153月,大数据首次出现在《政府工作报告》中以来,国务院常务会议一年内6次提及大数据运用。大数据充分利用优质共享的信息知识和创新资源,不断降低社会信息成本,通过基于大数据精准分析和科学决策,将有力支撑教育文化、健康医疗、电子商务、工业制造、现代农业等,提升传统产业生产效率和经济效益,同时培育形成新产业、新消费热点和新服务模式,有利于稳增长、调结构

与基础软件行业追逐国际主流趋势不同,我国大数据产业在国际竞争中已崭露头角,未来存在更大的发展空间和发展机遇。目前,我国互联网、移动互联网用户规模居全球第一,拥有丰富的数据资源和应用市场优势,大数据部分关键技术研发取得突破,涌现出一些互联网创新企业和创新应用,一些地方政府已启动大数据相关工作

大数据产业正成为新的经济增长点,产业规模迅速增长。2014年,中国大数据IT市场规模达93.1亿元,增长率为37.3%。预计2015年至2017年,中国大数据IT市场年复合增长率能达到33.3%

3)《纲要》在未来5~10年逐步实现既定目标的基点上部署了三个方面的主要任务:

《纲要》提出大力推动政府部门数据共享,其目标为:在2017年底前形成跨部门数据资源共享格局,构建以人为本、惠及全民的民生服务新体系,2018年底前建成国家政府数据统一开放平台。

1加快政府数据开放共享、推动资源整合、提升治理能力。

2推动产业创新发展、培育新兴业态、助力经济转型

3强化安全保障、提高理解水平、促进健康发展。

大数据风口的含金量仍在持续增加

7 结语

7.1在科学与技术、工业与农业和其所包含的一系列学科中,电子信息和网络平台一直扮演着重要角色,而大数据时代的来临则更加凸显了信息竞争和网络优势的重要地位。当今我们正处在大数据时代,大数据的重要性毋庸置疑,但目前却尚难以达成共识。因为大数据涉及面极为广泛,除本文讨论的科学领域的需求外,未来的数字化城市、数字化工厂(如西门子)等将会把大数据提上日程。大数据的确为现代科学发展与创新提供了一种科学的研究方法论,面临大数据时代的这种格局应如何集成,凝练并从大数据中提出前瞻性的新信息,进而为创新再造做出新的贡献乃当务之急。大数据是数字化时代生存的新的战略资源,但是并非具有无所不能的能力。人们要认识到,在大数据的集成与共享中有发展、有创新,存在国家安全、技术安全问题,亦存在将数据演化为一种权力和部门保守主义之争。

7.2维克托·迈尔-舍恩伯格和肯尼思·库克耶在所著的《大数据时代》一书中曾写道:大数据时代——生活、工作与思维的大变革。进一步讲,大数据开启了一次重大的时代转型,就像我们用望远镜认识了宇宙,用显微镜认识了微生物世界一样,大数据正在改变的不仅是我们的生活和我们理解世界的方式,他所带来的更多改变正蓄势待发

7.3我对大数据理解尚不够深远,对其变现尚缺乏量化的认识,当比需要不断深化认识和厘定导向。显然,各部门、各学科、各领域还是从本体做起。例如,在地球科学或更为具体一点,从地球物理学出发寻找切入点去逼近制高点。因为,必须考虑到我国的国情、人文体系和思维的特殊性,充分认识到大数据作为数字化时代的一种新的战略资源,正在改变人类的生产和生活方式,对国家和社会发展将会起到巨大的作用。对于科学技术,从大数据中凝练出新的信息和创新再造,这就是大数据必须发展、必须应用的必然所在。

7.4同时也要看到,在大数据、大科学和大发展的召唤下(郭华东等,2014),尽管各部门和个人拥有大量的数据,但是并非他们都能够挖掘出大数据的潜能,真正发挥其效能的人并非处处皆是,这就必然地会催生大数据产业的呈现。为此,通过国内外较为广泛、深入的交流与探讨,提升我国对大数据的研究水平和发挥其影响力还有一段艰难的路程要走。大数据涉及到政治、经济、国防、军事、法律、社会科学、自然科学等。事实上,不论是科学技术、工业、农业均不存在没有数据的事件、没有数据的个人与部门。为了能更好的利用大数据,要求制定出一整套开放、利用、检查和防范的大数据体系,这是政府部门无法回避的事实。

7.5为此,以国务院颁发的《促进大数据发展行动纲领》为纲,以使大数据在我国各个领域和部门成为推动经济转型发展的行动力和新的增长点,并在创新的进程中展示出更为广泛和深远的效能。

免  责  声  明

本文来源于媒体/网络,了解原文可以通过“阅读原文”溯源。凡本公众号的文章、图片、音频、视频文件等资料的版权归版权所有人所有,如有疑意,请及时用电子邮件通知我们,以迅速采取适当措施。
邮箱:guazthb@163.com
请扫描下方二维码,关注我们!
若有咨询需求,敬请联系!

大年科技
大年科技官方平台。
 最新文章