Hadoop学习之路（十二）分布式集群中HDFS系统的各种角色

职场 2024-10-15 13:39 云南

点击上方蓝字关注我们

NameNode

学习目标

理解 namenode 的工作机制尤其是元数据管理机制，以增强对 HDFS 工作原理的理解，及培养 hadoop 集群运营中“性能调优”、“namenode”故障问题的分析解决能力

问题场景

1、Namenode 服务器的磁盘故障导致 namenode 宕机，如何挽救集群及数据？

2、Namenode 是否可以有多个？namenode 内存要配置多大？namenode 跟集群数据存储能力有关系吗？

3、文件的 blocksize 究竟调大好还是调小好？结合 mapreduce

NameNode的职责

1、负责客户端请求（读写数据请求）的响应
2、维护目录树结构（元数据的管理：查询，修改）
3、配置和应用副本存放策略
4、管理集群数据块负载均衡问题

NameNode元数据的管理

WAL（Write ahead Log）: 预写日志系统

　　在计算机科学中，预写式日志（Write-ahead logging，缩写 WAL）是关系数据库系统中用于提供原子性和持久性（ACID 属性中的两个）的一系列技术。在使用 WAL 的系统中，所有的修改在提交之前都要先写入 log 文件中。

　　Log 文件中通常包括 redo 和 undo 信息。这样做的目的可以通过一个例子来说明。假设一个程序在执行某些操作的过程中机器掉电了。在重新启动时，程序可能需要知道当时执行的操作是成功了还是部分成功或者是失败了。如果使用了 WAL，程序就可以检查 log 文件，并对突然掉电时计划执行的操作内容跟实际上执行的操作内容进行比较。在这个比较的基础上，程序就可以决定是撤销已做的操作还是继续完成已做的操作，或者是保持原样。

　　WAL 允许用 in-place 方式更新数据库。另一种用来实现原子更新的方法是 shadow paging，它并不是 in-place 方式。用 in-place 方式做更新的主要优点是减少索引和块列表的修改。ARIES 是 WAL 系列技术常用的算法。在文件系统中，WAL 通常称为 journaling。PostgreSQL 也是用 WAL 来提供 point-in-time 恢复和数据库复制特性。

　　NameNode 对数据的管理采用了两种存储形式：内存和磁盘

　　首先是内存中存储了一份完整的元数据，包括目录树结构，以及文件和数据块和副本存储地的映射关系；

1、内存元数据 metadata（全部存在内存中），其次是在磁盘中也存储了一份完整的元数据。

2、磁盘元数据镜像文件 fsimage_0000000000000000555

fsimage_0000000000000000555 等价于

edits_0000000000000000001-0000000000000000018

……

edits_0000000000000000444-0000000000000000555

合并之和

3、数据历史操作日志文件 edits：edits_0000000000000000001-0000000000000000018 （可通过日志运算出元数据，全部存在磁盘中）

4、数据预写操作日志文件 edits_inprogress_0000000000000000556 （存储在磁盘中）

metadata = 最新 fsimage_0000000000000000555 + edits_inprogress_0000000000000000556

metadata = 所有的 edits 之和（edits_001_002 + …… + edits_444_555 + edits_inprogress_556）

VERSION（存放 hdfs 集群的版本信息）文件解析：

#Sun Jan 06 20:12:30 CST 2017 ## 集群启动时间
namespaceID=844434736 ## 文件系统唯一标识符
clusterID=CID-5b7b7321-e43f-456e-bf41-18e77c5e5a40 ## 集群唯一标识符
cTime=0 ## fsimage 创建的时间，初始为 0，随 layoutVersion 更新
storageType=NAME_NODE ##节点类型
blockpoolID=BP-265332847-192.168.123.202-1483581570658 ## 数据块池 ID，可以有多个
layoutVersion=-60 ## hdfs 持久化数据结构的版本号

查看 edits 文件信息：

hdfs oev -i edits_0000000000000000482-0000000000000000483 -o edits.xml 
cat edits.xml

查看 fsimage 镜像文件信息：

hdfs oiv -i fsimage_0000000000000000348 -p XML -o fsimage.xml 
cat fsimage.xml

NameNode 元数据存储机制

A、内存中有一份完整的元数据(内存 metadata)

B、磁盘有一个“准完整”的元数据镜像（fsimage）文件(在 namenode 的工作目录中)

C、用于衔接内存 metadata 和持久化元数据镜像 fsimage 之间的操作日志（edits 文件）

（PS：当客户端对 hdfs 中的文件进行新增或者修改操作，操作记录首先被记入 edits 日志文件中，当客户端操作成功后，相应的元数据会更新到内存 metadata 中）

回到顶部

DataNode

问题场景

1、集群容量不够，怎么扩容？

2、如果有一些 datanode 宕机，该怎么办？

3、datanode 明明已启动，但是集群中的可用 datanode 列表中就是没有，怎么办？

Datanode 工作职责

1、存储管理用户的文件块数据

2、定期向 namenode 汇报自身所持有的 block 信息（通过心跳信息上报）

（PS：这点很重要，因为，当集群中发生某些 block 副本失效时，集群如何恢复 block 初始副本数量的问题）

<property>
 <!—HDFS 集群数据冗余块的自动删除时长，单位 ms，默认一个小时 --><name>dfs.blockreport.intervalMsec</name><value>3600000</value><description>Determines block reporting interval in milliseconds.</description></property>

Datanode 掉线判断时限参数

datanode 进程死亡或者网络故障造成 datanode 无法与 namenode 通信，namenode 不会立即把该节点判定为死亡，要经过一段时间，这段时间暂称作超时时长。HDFS 默认的超时时长为 10 分钟+30 秒。如果定义超时时间为 timeout，则超时时长的计算公式为：t

imeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval

而默认的 heartbeat.recheck.interval 大小为 5 分钟，dfs.heartbeat.interval 默认为 3 秒。需要注意的是 hdfs-site.xml 配置文件中的 heartbeat.recheck.interval 的单位为毫秒， dfs.heartbeat.interval 的单位为秒。所以，举个例子，如果 heartbeat.recheck.interval 设置为 5000（毫秒），dfs.heartbeat.interval 设置为 3（秒，默认），则总的超时时间为 40 秒。

<property>
 <name>heartbeat.recheck.interval</name>
 <value>5000</value></property><property>
 <name>dfs.heartbeat.interval</name>
 <value>3</value></property>

回到顶部

SecondaryNameNode

SecondaryNamenode 工作机制

SecondaryNamenode 的作用就是分担 namenode 的合并元数据的压力。所以在配置 SecondaryNamenode 的工作节点时，一定切记，不要和 namenode 处于同一节点。但事实上，只有在普通的伪分布式集群和分布式集群中才有会 SecondaryNamenode 这个角色，在 HA 或者联邦集群中都不再出现该角色。在 HA 和联邦集群中，都是有 standby namenode 承担。

元数据的 CheckPoint

每隔一段时间，会由 secondary namenode 将 namenode 上积累的所有 edits 和一个最新的 fsimage 下载到本地，并加载到内存进行 merge（这个过程称为 checkpoint） CheckPoint 详细过程图解：

CheckPoint 触发配置

dfs.namenode.checkpoint.check.period=60 ##检查触发条件是否满足的频率，60 秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
##以上两个参数做 checkpoint 操作时，secondary namenode 的本地工作目录
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}
dfs.namenode.checkpoint.max-retries=3 ##最大重试次数
dfs.namenode.checkpoint.period=3600 ##两次 checkpoint 之间的时间间隔 3600 秒
dfs.namenode.checkpoint.txns=1000000 ##两次 checkpoint 之间最大的操作记录

CheckPoint 附带作用

Namenode 和 SecondaryNamenode 的工作目录存储结构完全相同，所以，当 Namenode 故障退出需要重新恢复时，可以从SecondaryNamenode的工作目录中将fsimage拷贝到Namenode 的工作目录，以恢复 namenode 的元数据

http://mp.weixin.qq.com/s?__biz=MzU0Nzc5NTgzNw==&mid=2247502499&idx=1&sn=317ba083db53cd4336b56f33f6b0135e

知识怪叔

大家好，我是知识怪叔！致力于知识探秘，大数据，人工智能，公考，研究生考试（计算机与经济），教资考试等方面学习与考试，每天会定时更新相关文章，共勉于有需要学习人士，如有不满意地方，敬请给小编留言，同时会在以后学习之中再激再励。

最新文章

宋同志的英年早逝至少影响了中国近三十年的政局

【600命中10W比分神预测：2-1】周一009英超：纽卡斯尔联VS西汉姆联(本店发单量大,需要的可以速速来）

【命中5w】周一009 英超:店里大神十一连红，跟单的快点跟上，佣金赚了117w，纽卡斯尔联VS西汉姆联谁能占得先机？

50红137W 发单人佣金530W 寻找实力发单人【免费私房菜】周一001阿布扎比艾因VS吉达国民亚冠要对上了，这比赛可有看头。

黄帝一生育有25子，这12个姓氏是直系子孙，其中是否有你的姓氏？

霸占我国领土5年不还，我军忍无可忍，最终用5小时将其赶出中国

中年男女逐渐开始失去性欲

我们在黄岩岛画了个200海里的圈，可覆盖菲律宾首都

曾在美国卖三蹦子走红的贵州小伙：赚到了人生第一个100万

越活越年轻的4个好习惯，请逼自己养成

妹妹变后妈给他生弟弟，儿子变性变仇人，马斯克一家为何如此荒唐

郑州万人“夜袭”开封，被当棋子还浑然不知！

郑州万人“夜袭”开封，背后主谋是谁？

2018年，贵州男子讲笑话，把邻居“活活笑死”，最后赔了家属6万

吃到一碗真五常大米有多难？产地直发，厨友都抢着囤的，空口吃都香！

插上即用，无需联网，“随叫随到"！网友：太实用了！

脚臭竟是因为这个？狂走5km也不脚臭的秘密，轻轻一喷，臭味拜拜！

娱乐圈的15对明星亲戚，张佳宁比舅舅名气大，宋楚炎是姑姑的骄傲

当个全世界最有钱的10个人，第一名财富已经突破20000亿！

一部书海纳三千年智慧，没它就出不了诸葛亮、王阳明

今天才知道，原来螨虫最怕它，简单又迅速，比太阳暴晒强N倍！

印度少女同时嫁给5个老公，一妻多夫也可以？真实原因令人无奈

周六001西甲：皇家马德里VS奥萨苏纳精研24小时，主任套路已看透，不玩虚的，直接上主菜！

河南小伙在非洲14年，这里一夫多妻，男人只用玩，女人干活地位低

7件历史上的荒诞事件，虽然不可思议，但是真的发生了

速抢！仿真猫娘口角杯大福利来啦！

为什么你买的莆田鞋那么差带你了解行业内幕

小学生最喜欢的10位明星排行榜，他们竟然都不认识刘德华！

法律硕士非法学“法理学”精简背诵笔记

刀郎新徒徐子尧的十张精致唯美照

河南小伙在非洲14年，这一夫多妻男人只用玩，女人干活挣钱养家

央视开播！40集年代大剧来了，梅婷领衔，有“年度剧王”的潜质

央一今晚开播！《上甘岭》来了！讲真，这才是当下观众最想看的剧

2024金鹰奖：范伟终夺视帝，赵丽颖飞升，《三体》的意难平和解了

史无前例成家常便饭！回忆起2020年到底有多魔幻？2020年到底那些事，让我们到现在都触目惊心的

中国为什么很少拍元朝历史剧？不是不想拍，而是确实不能拍

最让人不解的贪官情妇：自己是富婆、公婆都是院士，她到底为什么

包养10位情妇，睡觉翻牌生下11个私生子，70多岁还在拼命生娃

被唐玄宗专宠了11年，杨玉环究竟好在哪？3大优势，让其欲罢不能

杨玉环被唐玄宗独宠11年，夜夜被临幸，为何却终身不孕？是何原因

《志愿军2》票房破4亿，给演员演技排名：辛柏青第3，朱一龙第2

热度夺冠，看完释小龙和蒋璐霞新片，我想说：女性动作片就这么拍

仅播4集，拿下飙升榜第一！终于有让我熬夜狂追的古装武侠剧了

早期的张馨予才是真的“大号水蜜桃”，这谁能顶得住啊？真有料！

flink + iceberg 快速搭建

“高启兰”程隆妮才是真的“人间水蜜桃”，这谁能顶得住啊？

计算机考研之操作系统

《暗夜与黎明》迎来震撼结局反特剧的创新和突破

被称为死亡禁区的哀牢山，究竟隐藏着什么秘密？

《人民警察》剧情揭秘，谁是内鬼？陆毅新剧引爆全网热议！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉