1.实时流处理项目 流程图
日志收集框架Flume--->消息队列Kafka--->Spark Streaming--->HBase--->数据处理结果可视化。
实时流处理适用场景:时效性高 数据量大
离线计算和实时计算对比:
数据来源 | 离线 | 实时 |
处理过程 | HDFS 历史数据 数据量大 | 消息队列(kafka),实时记录变化的数据 |
处理速度 | MapReduce:map + reduce | Spark Streaming storm flink(Stream) |
进程 | 启动+销毁 | 实时在线 |
实时流处理架构与技术选型