时间来到 2012 年,国内一些技术发展较快的行业,如电信和头部银行(国有大行和股份制银行)基本都完成了数据仓库的建设。彼时 Hadoop 技术快速普及,大数据平台开始受到关注,尤其受互联网行业迅速发展的影响,大数据平台迎来历史的高光时刻。
发展背景
21世纪初期,随着互联网特别是移动互联网相关业务的快速发展,数据规模呈几何倍数增长,数据种类也变得更加丰富,以5V(Volume、Velocity、Variety、Veracity和Value)为特征的大数据时代快速来临,而传统数据仓库在这一背景下愈发力有未逮。
谷歌基于其具体实践所形成的所谓“三驾马车”论文,即GFS(2003)、MapReduce(2004)、Bigtable(2006) 为新时期问题提供了明确且可靠的解决方案,基于Hadoop的大数据平台是上面几篇论文的开源实现,逐渐受到关注并伴随互联网行业的高歌猛进迅速普及至其他行业,企业纷纷使用大数据平台构建数据湖(Data Lake),数据平台建设迎来蓬勃发展期。
技术特性
大数据平台的核心是Hadoop这一分布式计算框架,一个方面,它使用HDFS实现数据的分布式存储,有效解决海量数据的存储及管理问题,同时具有高可靠、高扩展、高容错、低成本等特性;另一方面,它使用MapReduce、Spark等组件实现分布式计算,对所存储的数据进行大规模并行处理与分析。
与基于MPP关系型数据库的传统数据仓库系统相比,基于Hadoop的大数据平台系统在支持存储结构化数据的同时还实现了对非结构化数据的存储,集群扩展能力可达到数千节点的水平,对机器学习、实时分析处理等也有更为优异的支撑,但其天然的Schema-on-Read数据管理机制(而非关系型数据库中的Schema-on-Write)也预示了其后续发展中的隐忧。
阶段特点
Hadoop在其发展初期仅有HDFS和MapReduce两个基础组件,随着数据规模的持续增大以及对数据处理时效性需求的不断提升,其计算与存储相关技术组件也在不断变化,以适应不同场景下数据存储管理与分析处理要求。大数据平台的底层存储经过十多年的发展,一直是HDFS一枝独秀;而在计算引擎方面则发展迅速,由于最初的MapReduce大规模批处理无法满足海量数据处理的时效性,业界陆续推出了Spark通用内存计算框架、Flink实时数据处理计算框架、以及与之相配合的诸如Sqoop数据迁移工具、Yarn资源管理工具等组件,所有这些技术组件共同促进了Hadoop最终发展成为一个非常成熟的生态系统。
以Hadoop技术生态为代表的大数据平台重塑了企业对数据的采集、存储、处理和分析的全过程,同时也迎合了同期机器学习(深度学习)技术的发展要求,在各个行业受到广泛应用,成为这一时期数据平台建设的技术基准。
然而,随着Hadoop大数据平台建设逐步推广,企业尝试将Hadoop用于一些非核心场景(如银行的三方数据平台)之后,发现Hadoop不仅性能和并发支持有限,而且事务支持弱,交付、运维成本高,企业意识到基于Hadoop的大数据平台终究无法替代核心数仓。值得注意的是,投身Hadoop技术的两家头部企业Cloudera和Hortonworks经历了上市的高光时刻,最终在2018年10月合并后退市了。
随着云计算技术的进一步普及与深入应用,数据平台开始步入云时代,而Hadoop技术架构也面临着云原生的挑战。
往期推荐