Doris MPP架构和 Hadoop 分布式架构到底有什么区别?

文摘   2024-11-05 00:00   重庆  
MPP(Massively Parallel Processing)架构和Hadoop架构在大数据处理领域都有广泛应用,但它们的设计理念和应用场景有所不同。以下是MPP架构和Hadoop架构的主要异同点:

01

相同点

  • 分布式处理:
    两者都采用分布式处理的方式,将数据和计算任务分布在多个节点上,以提高处理能力和扩展性。
  • 水平扩展:
    两者都支持通过增加节点来水平扩展系统,以应对更大的数据量和更高的处理需求。
  • 容错性:
    两者都具备一定的容错机制,能够在某个节点故障时继续运行,保证系统的稳定性和可靠性。

这或许是一个对你有用的开源项目data-warehouse-learning 项目是一套基于 MySQL + Kafka + Hadoop + Hive + Dolphinscheduler + Doris + Seatunnel + Paimon + Hudi + Iceberg + Flink + Dinky + DataRT + SuperSet 实现的实时离线数仓(数据湖)系统,以大家最熟悉的电商业务为切入点,详细讲述并实现了数据产生、同步、数据建模、数仓(数据湖)建设、数据服务、BI报表展示等数据全链路处理流程。

https://gitee.com/wzylzjtn/data-warehouse-learning

https://github.com/Mrkuhuo/data-warehouse-learning

https://bigdatacircle.top/

项目演示:

02

不同点

设计目标:
MPP架构:主要设计用于大规模并行处理,特别适合OLAP(在线分析处理)场景,强调高性能和低延迟。MPP架构通常用于实时或近实时的复杂查询和数据分析。
Hadoop架构:主要设计用于批处理和大规模数据存储,特别适合OLTP(在线事务处理)后的数据处理和离线分析。Hadoop架构通常用于处理大规模数据集,强调数据的可靠性和处理能力。
数据存储:
MPP架构:通常使用列式存储,如Parquet、ORC等,以优化查询性能。数据在节点之间分布均匀,每个节点负责一部分数据的存储和计算。
Hadoop架构:使用HDFS(Hadoop Distributed File System)进行数据存储,数据以块的形式分布到各个节点,支持大规模数据的存储和冗余备份。
计算模型:
MPP架构:采用SQL或其他声明式语言进行查询,查询执行计划由协调节点生成,然后分发到各个计算节点并行执行。MPP架构中的计算节点可以直接通信,减少中间结果的传输开销。
Hadoop架构:采用MapReduce模型进行计算,数据处理分为Map和Reduce两个阶段。Map阶段将数据切分成小块并行处理,Reduce阶段对Map阶段的输出进行汇总和合并。Hadoop架构中的节点间通信通过中间结果文件进行。
查询性能:
MPP架构:由于列式存储和高度并行的查询执行,MPP架构在处理复杂查询和大规模数据集时具有更高的性能和更低的延迟。
Hadoop架构:由于MapReduce模型的特性,Hadoop架构在处理大规模数据集时具有较强的吞吐能力,但查询延迟相对较高,更适合批处理和离线分析。
适用场景:
MPP架构:适用于需要高性能和低延迟的实时或近实时分析场景,如金融分析、实时报表、复杂查询等。
Hadoop架构:适用于需要处理大规模数据集的批处理和离线分析场景,如日志分析、数据仓库、机器学习等。

03

进交流群群添加作者

推荐阅读系列文章

如果喜欢 请点个在看分享给身边的朋友

大数据技能圈
分享大数据前沿技术,实战代码,详细文档
 最新文章