Hadoop默认的数据就存储了三份的,一般不需要做备份的,不知道你这里备份是要做什么?
hadoop备份的是数据块(就是将每个文件分割为128M大小的数据块,不够的按128M进行存储)
对每个数据块进行备份然后存放到子节点上(并且每个子节点上存放的不会是同一个数据块)0
假如备份数为3份,就会把文件分割后的每个数据块进行备份,存放到不同的子节点上,当一个子节点出现异常,就会通过反馈机制将信息反馈给主节点,主节点就会将该节点上的数据块进行重新备份存放到其他子节点上,使得数据块的备份数保持在自定义数
这样就可以保证数据不会丢失,体现了hadoop的容错性(就是允许子节点出错,因为你出错了我还有备份的数据)
可以百度搜一下:Hadoop文件系统数据定时、实时备份和恢复的方法
Hadoop 是一个分布式系统基础架构,是一个分布式文件系统HDFS(Hadoop Distributed File System),对于那些有着超大数据集(large data set)的应用程序的企业,如大数据一般都会用到Hadoop文件系统。
通过UCache灾备云平台就可以在线进行Hadoop文件系统数据定时、实时备份和恢复,同时,Hadoop定时备份任务支持自动发现数据源的功能,对要备份的文件进行勾选,
注意事项
当集群有一个NameNode时,进行Hadoop文件系统备份,需要确保集群必须处在开启状态;当集群有多个NameNode时,需要一台active 一台standy,才可以正常使用,如果两个namenode都是standby,也需要执行相应的命令使集群保持正常状态。
详细的操作步骤可以看我在百度百家号的文章里有操作步骤截图!