Flume与+Kafka+Spark Streaming集成(1.6.0+0.8.2.1+1.3.1) 2015-07-03 17:15

介绍

流处理讲究时效性,因此流处理都是对实时采集的数据进行处理。数据采集上,开源的软件应用最普遍的是Flume。Flume有很强大和灵活的数据采集能力。可以针对很多种类型的数据进行采集。

所以,Flume经常配合Storm/Spark Streaming一起使用。但Flume直接对接流处理系统,会存在如下两个问题:

  1. Flume的采集能力与的能力不匹配导致数据丢失。
  2. 后端流处理重启数据会丢失

为了解决这两个问题,在Flume与流处理系统中间增加了缓冲区Kafka。所以一般是Flume+Kafka+Storm/Spark Streaming一起使用。

整合方案

  • Flume与Kafka的整合参考文档:

Flume与Kafka集成

  • Kafka与Spark Streaming的整合参考文档:

Kafka与Spark Streaming集成