Hadoop——HDFS读写流程

HDFS写流程（也就是client上传文件到HDFS的流程）：

Client和NN连接创建文件元数据
NN判定元数据是否有效，比如判定client有没有权限创建文件，当前HDFS里有没有相同的同级同名文件
NN触发副本放置策略，返回一个有序的DN列表
Client和DN建立Pipeline连接（为降低带宽消耗和上传延时，client会根据距离，挑选一个与自己最近的DN建立连接）
Client将block以更小的packet（64KB）的形式发送，并使用更小的数据chunk（512B）+ chucksum（校验和，4B）（每一个chuck对应一个chucksum）填充这个packet，每填充满一个packet，就发送这个packet
Client将packet放入发送队列dataqueue中，并向第一个DN发送
第一个DN收到packet后本地保存并发送给第二个DN
第二个DN收到packet后本地保存并发送给第三个DN，这一个过程中，上游节点同时发送下一个packet，也就是第一个DN给第二个DN发送packet时，client可以同时并行地给第一个DN发第二个packet。这种形式就是流水线的形式，并且各个DN的传输过程是并行的。
Hdfs使用这种传输方式，副本数对于client是透明的，也就是client并不需要管要发多少副本，只需要给跟它连接的那个DN发送就行
当block传输完成，DN们各自向NN汇报block状态，汇报的同时client也还在传输下一个block
所以，client的传输和block的汇报也是并行的

注意：1.client只和第一个DN连接，并不和其他DN连接，所以整个传输的形式是pipeline的而不是client与所有DN分发式的连接。2.所有连接都是TCP连接。3.可能会有DN宕机的现象，如果是最后一个DN宕机影响不大，如果是第一个DN宕机，则client会立刻跟第二个DN建立连接，如果是第二个DN宕机，第一个DN会立刻跟第三个DN建立连接。在这个过程中因为宕机会出现副本数目不足的情况，所以在最后DN跟NN汇报block状态时，NN会通知某一个不太忙的DN在本机再复制一个副本，保证副本数目的可靠性。