Spark去掉文本文件首行(表头) 2015-09-17 21:01

简介

方法一:

1
2
val header = rdd.first()
rdd2 = rdd.filter(_ != header)

方法二:

1
2
//不知道首行是否永远在Partition 0?
val rdd2 = rdd.mapPartitionsWithIndex{ (idx, iter) => if (idx == 0) iter.drop(1) else iter }
Tags: #Spark    Post on Spark