Spark函数之checkpoint、getCheckpointFile和setCheckpointDir 2015-08-20 21:04

checkpoint

checkpoint用于给RDD设置一个checkpoint。有了checkpoint,一定后续的计算出错,不需要从头开始重新计算,只需要从checkpoint点开始计算。

checkpoint需要将数据保存在磁盘上。保存前,需要确保目录已经存在。如果是保存在本地目录中,需要注意各个work节点上都有相关的目录。所以最好的方式是保存在HDFS上。

数据保存形式为二进制。

举例:

1
2
3
4
sc.setCheckpointDir("my_directory_name")
val a = sc.parallelize(1 to 4)
a.checkpoint
a.count

setCheckpointDir、getCheckpointFile和isCheckpointed

setCheckpointDir:用于设置checkpoint文件的路径。

getCheckpointFile:获取checkpoint文件的路径。如果没有做过checkpoint,则为空。

isCheckpointed:判断是否做过checkpoint。

Tags: #Spark    Post on Spark-API