【大数据存储与管理】分布式文件系统HDFS：05 HDFS存储原理

Ne0inhk

23 Mar 2026 — 11 min read

【作者主页】Francek Chen
【专栏介绍】 ⌈ ⌈ ⌈大数据技术原理与应用 ⌋ ⌋ ⌋专栏系统介绍大数据的相关知识，分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化，以及大数据在互联网领域、生物医学领域的应用和大数据的其他应用。
【GitCode】专栏资源保存在我的GitCode仓库：https://gitcode.com/Morse_Chen/BigData_principle_application。

本文介绍 HDFS 的存储原理，包括数据的冗余存储、数据存取策略、数据错误与恢复。

一、数据的冗余存储

作为一个分布式文件系统，为了保证系统的容错性和可用性，HDFS 采用了多副本方式对数据进行冗余存储，通常一个数据块的多个副本会被分布到不同的数据节点上。如图1所示，数据块 1 被分别存放到数据节点 A 和 C 上，数据块 2 被存放在数据节点 A 和 B 上等。这种多副本方式具有以下 3 个优点。

图1 HDFS数据块多副本存储

加快数据传输速度。当多个客户端需要同时访问同一个文件时，可以让各个客户端分别从不同的数据块副本中读取数据，这就大大加快了数据传输速度。
容易检查数据错误。HDFS 的数据节点之间通过网络传输数据，采用多个副本可以很容易判断数据传输是否出错。
保证数据的可靠性。即使某个数据节点出现故障失效，也不会造成数据丢失。

二、数据存取策略

数据存取策略包括数据存放、数据读取和数据复制等方面，它在很大程度上会影响到整个分布式文件系统的读写性能，是分布式文件系统的核心内容。

（一）数据存放

为了提高数据的可靠性与系统的可用性，以及充分利用网络带宽，HDFS 采用了以机架（Rack）为基础的数据存放策略。一个 HDFS 集群通常包含多个机架，不同机架之间的数据通信需要经过交换机或者路由器，同一个机架中不同机器之间的通信则不需要经过交换机和路由器，这意味着同一个机架中不同机器之间的通信要比不同机架之间机器的通信带宽大。

HDFS 默认每个数据节点都在不同的机架上，这种方法会存在一个缺点，那就是写入数据的时候不能充分利用同一机架内部机器之间的带宽。但是，与这个缺点相比，这种方法也带来了更多很显著的优点：首先，可以获得很高的数据可靠性，即使一个机架发生故障，位于其他机架上的数据副本仍然是可用的；其次，可以在多个机架上并行读取数据，大大提高数据读取速度；最后，可以更容易地实现系统内部负载均衡和错误处理。

HDFS 默认的冗余复制因子是 3，每一个文件块会被同时保存到 3 个地方，其中，有两个副本放在同一个机架的不同机器上面，第 3 个副本放在不同机架的机器上面，这样既可以保证机架发生异常时的数据恢复，也可以提高数据读写性能。一般而言，HDFS 副本的放置策略如图2。

图2 HDFS副本的放置策略

如果是在集群内发起写操作请求，则把第 1 个副本放置在发起写操作请求的数据节点上，实现就近写入数据。如果是在集群外发起写操作请求，则从集群内部挑选一台磁盘空间较为充足、CPU 不太忙的数据节点，作为第 1 个副本的存放地。
第 2 个副本会被放置在与第 1 个副本不同的机架的数据节点上。
第 3 个副本会被放置在与第 1 个副本相同的机架的其他节点上。
如果还有更多的副本，则继续从集群中随机选择数据节点进行存放。

（二）数据读取

HDFS 提供了一个 API 可以确定一个数据节点所属的机架 ID，客户端也可以调用 API 获取自己所属的机架 ID。当客户端读取数据时，从名称节点获得数据块不同副本的存放位置列表，列表中包含了副本所在的数据节点，可以调用 API 来确定客户端和这些数据节点所属的机架 ID。当发现某个数据块副本对应的机架 ID 和客户端对应的机架 ID 相同时，就优先选择该副本读取数据，如果没有发现，就随机选择一个副本读取数据。

（三）数据复制

HDFS 的数据复制采用了流水线复制的策略，大大提高了数据复制过程的效率。当客户端要往 HDFS 中写入一个文件时，这个文件会首先被写入本地，并被切分成若干个块，每个块的大小是由 HDFS 的设定值来决定的。每个块都向 HDFS 集群中的名称节点发起写请求，名称节点会根据系统中各个数据节点的使用情况，选择一个数据节点列表返回给客户端，然后客户端就把数据首先写入列表中的第 1 个数据节点，同时把列表传给第 1 个数据节点，当第 1 个数据节点接收到 4 KB 数据的时候，写入本地，并且向列表中的第 2 个数据节点发起连接请求，把自己已经接收到的 4 KB 数据和列表传给第 2 个数据节点。当第 2 个数据节点接收到 4 KB 数据的时候，写入本地，并且向列表中的第 3 个数据节点发起连接请求，依此类推，列表中的多个数据节点形成一条数据复制的流水线。最后，当文件写完的时候，数据复制也同时完成。

三、数据错误与恢复

HDFS 具有较高的容错性，可以兼容廉价的硬件设备，它把硬件出错看成一种常态，而不是异常，并设计了相应的机制检测数据错误和进行自动恢复，主要包括以下 3 种情形。

（一）名称节点出错

名称节点保存了所有的元数据信息，其中最核心的两大文件是 FsImage 和 EditLog，如果这两个文件发生损坏，那么整个 HDFS 实例将失效。Hadoop 采用两种机制来确保名称节点的安全：一是把名称节点上的元数据信息同步存储到其他文件系统，比如远程挂载的网络文件系统（Network File System，NFS）中；二是运行一个第二名称节点，当名称节点死机以后，可以把运行第二名称节点作为一种弥补措施，利用第二名称节点中的元数据信息进行系统恢复，但是从前面对第二名称节点的介绍中可以看出，这样做仍然会丢失部分数据。因此，一般会把上述两种方式结合使用，当名称节点发生死机时，首先到远程挂载的网络文件系统中获取备份的元数据信息，放到第二名称节点上进行恢复，并把第二名称节点作为名称节点来使用。

（二）数据节点出错

每个数据节点会定期向名称节点发送“心跳”信息，向名称节点报告自己的状态。当数据节点发生故障，或者网络发生断网时，名称节点就无法收到来自一些数据节点的“心跳”信息，这时这些数据节点就会被标记为“死机”，节点上面的所有数据都会被标记为“不可读”，名称节点也不会再给它们发送任何 I/O 请求。这时，有可能出现一种情形，即由于一些数据节点的不可用，会导致一些数据块的副本数量小于冗余因子。名称节点会定期检查这种情况，一旦发现某个数据块的副本数量小于冗余因子，就会启动数据冗余复制，为它生成新的副本。HDFS 与其他分布式文件系统的最大区别就是可以调整冗余数据的位置。

（三）数据出错

网络传输和磁盘错误等因素都会造成数据错误。客户端在读取数据后，会采用 MD5 和 SHA-1 对数据块进行校验，以确定读取正确的数据。在文件被创建时，客户端就会对每一个文件块进行信息摘录，并把这些信息写入同一个路径的隐藏文件里面。当客户端读取文件的时候，会先读取该信息文件，然后利用该信息文件对每个读取的数据块进行校验。如果校验出错，客户端就会请求到另外一个数据节点读取该文件块，并且向名称节点报告这个文件块有错误，名称节点会定期检查并且重新复制这个块。

小结

HDFS 采用多副本冗余存储，能加快传输、便于查错、保证可靠性。数据存取策略上，以机架为基础存放数据，读取时优先选同机架副本，复制采用流水线策略。在数据错误与恢复方面，针对名称节点出错，采用同步存储和第二名称节点结合恢复；数据节点出错则启动冗余复制；数据出错时客户端校验，出错则换节点读取并报告名称节点重新复制，确保系统稳定运行。

欢迎点赞👍 | 收藏⭐ | 评论✍ | 关注🤗

【C++】类和对象(中)

一、类的默认成员函数编译器会自动生成的成员函数称为默认成员函数。一个类，不写的情况下编译器会默认生成以下6个默认成员函数。另外在C++11中，增加了两个默认成员函数，移动构造和移动赋值。默认成员函数从两方面学习： 1. 我们不写时，编译器默认生成的函数行为是啥？满足我们的需求吗？编译器默认生成的函数不满足我们的需求，那如何自己实现？二、构造函数构造函数主要任务是对象实例化时初始化对象。就像每次写栈或队列时需要初始化Stack Init()、Queue Init()，用了构造函数就不需要写这一步。构造函数的特点：函数名与类名相同：类class Stack，类中的函数Stack()无返回值。也无void对象实例化时系统会自动调用对应的构造函数构造函数可以重载如果类中没有显式定义构造函数，则C++编译器会自动生成一个无参的默认构造函数，一旦用户显式定义编译器将不再生成无参构造函数、全缺省构造函数、我们不写构造时编译器默认生成的构造函数，都叫做默认构造函数。但是这三个函数有且只有一个存在，不能同时存在。无参构造函数和全缺省构造函数虽然构成函数重载，但是调用时会存在歧

【C++】深入浅出“图”——最短路径算法

文章目录 * 一、Dijkstra算法 * 二、Bellman_Ford算法 * 三、Floyd_Warshall算法一、Dijkstra算法最短路径问题是指，从在带权的有向图中从某一顶点出发，找到通往另一顶点的最短路径，“最短”指的是沿路径各边的权值总和最小。 Dijkstra算法是单源最短路径的经典贪心算法，只能用于没有负权的图。它从起点出发，每次选当前距离最小且未确定最短路径的节点，用它去松弛（更新）所有邻接点的最短路径估计值，标记该节点为 “已确定”，重复此过程直到所有节点处理完毕，最终得到起点到图中所有节点的最短路径。 // src是选定的起点，dist记录起点到各点的最短路径，pPath记录到每个点的最短路径的前驱顶点下标voidDijkstra(const V& src, vector<W>& dist, vector<int>& pPath){ size_t srci =GetVertexIndex(

【Linux】线程池（一）C++ 手写线程池：基于策略模式实现高性能日志模块

文章目录 * 池化技术 * 线程池的日志模块 * 日志与策略模式 * 日志模块 * 两个核心问题 * 设计文件等级 * 刷新策略 * 获取日志时间 * logger类实现 * 内部类LogMessage实现 * 日志刷新流程图及源码池化技术池化技术可以减少很多的底层重复工作，例如创建进程、线程、申请内存空间时的系统调用和初始化工作，例如线程池，先预先创建好一些线程，当任务到来时直接将预先创建好的线程唤醒去处理任务，效率会远远高于任务到来时临时创建线程。例如内存池，但我们要用1mb空间时内存池会一次性申请20mb空间，效率会远远高于用多少空间申请多少空间（申请空间会调用系统调用）。线程池是执行流级别的池化技术，STL中的空间配置器和内存池是内存块管理级别的池化技术。线程池的日志模块下⾯开始，我们结合我们之前所做的所有封装，进⾏⼀个线程池的设计。在写之前，我们要做如下准备。 * 准备线程的封装 * 准备锁和条件变量的封装 * 引⼊日志，对线程进⾏封装日志与策略

【探寻C++之旅】C++ 智能指针完全指南：从原理到实战，彻底告别内存泄漏

前言作为 C++ 开发者，你是否曾因以下场景头疼不已？函数中new了数组，却因异常抛出导致后续delete没执行，排查半天定位到内存泄漏；多模块共享一块内存，不知道该由谁负责释放，最后要么重复释放崩溃，要么漏释放泄漏；用了auto_ptr后，拷贝对象导致原对象 “悬空”，访问时直接崩溃却找不到原因。如果你有过这些经历，那智能指针一定是你必须掌握的现代 C++ 工具。它基于 RAII 思想，自动管理动态资源，让你无需手动delete，从根源上减少内存泄漏风险。今天，我们就从 “为什么需要智能指针” 到 “不同智能指针的实战场景”，带你系统掌握这一核心特性。请君浏览 * 前言 * 一、智能指针的诞生：解决手动管理内存的 “千古难题” * 1.1 一个典型的内存泄露场景 * 1.2 智能指针的核心：RAII 思想 * 二、C++ 标准库智能指针：