hadoop文件存放问题

2024-12-26 02:28:49

推荐回答（2个）

回答1：

（1）文件分割后，会有一个文件 --> block的映射，这个映射是持久化到硬盘中的，具体的映射关系表是在FSNamesystem.java中构建的（该部分的构建使用的是FSDirectory.java的功能，filename - blockset）；
有了文件到块的映射表就可以通过文件找到blocklist；
（2）datanode的选取，hadoop有它本身的机制，一般来说，datanode默认是三个，选取的是不同机架的datanode，同机架里选一台，另一个机架里选取两台（安全性等考虑）；
（3）block写入datanodes，选取的三个datanode，比如说是A、B、C，先写给A，A再写给B，B再写给C；然后B收到C的写入成功，A收到B的写入成功，然后告诉namenode 和 client写入成功；
（4）真正写的并不是block，而是比block更小的好像是chunk ，还包括有各种校验。

回答2：

可以的没问题