HDFS DistCp命令使用 2015-05-28 20:00

介绍

DistCp用于两个HDFS集群、HDFS集群的两个NameService之间进行文件拷贝。DistCp使用Map/Reduce和文件系统API进行操作。

使用

hadoop distcp hdfs://myns1/spark /user
hadoop distcp hdfs://myns1/spark hdfs://myns2/

经验:DistCp在拷贝过程中,需要往临时目录中写入数据。临时目录默认是HDFS(fs.defaultFS)的/tmp目录。如果没有此目录,执行DistCp时会失败。

注意

如果是两个相同版本的HDFS互相拷贝,可以直接使用hdfs://协议。如果是不同版本,则可以使用webhdfs://协议。比如:

hadoop distcp webhdfs://aaaa:50070/spark hdfs://myns2/

参考文档

Tags: #HDFS    Post on Hadoop