【hadoop生态之Flume】概念【笔记+代码】

发布时间：2024-07-08 18:01

一、Flume简介

Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。
Flume基于流式架构，容错性强，也很灵活简单。
Flume、Kafka用来实时进行数据收集，Spark、Flink用来实时处理数据，impala用来实时查询。

二、Flume角色

2.1、Source

用于采集数据，Source是产生数据流的地方，同时Source会将产生的数据流传输到Channel，这个有点类似于Java IO部分的Channel。

2.2、Channel

用于桥接Sources和Sinks，类似于一个队列。

2.3、Sink

从Channel收集数据，将数据写到目标源(可以是下一个Source，也可以是HDFS或者HBase)。

2.4、Event

传输单元，Flume数据传输的基本单元，以事件的形式将数据从源头送至目的地。

三、Flume传输过程

source监控某个文件或数据流，数据源产生新的数据，拿到该数据后，将数据封装在一个Event中，并put到channel后commit提交，channel队列先进先出，sink去channel队列中拉取数据，然后写入到HDFS中。

相关推荐

【ASP.NET Core】URL重写

Java数据结构之二叉搜索树详解

更好的包管理器——pnpm

10个超级有趣的数据可视化项目，太牛批了

pytorch的backward求导

Maven之聚合与继承

SpringCloud微服务实战——搭建企业级开发框架（十一）：集成OpenFeign用于微服务间调用

Nginx 实战核心知识点整理（下）

C++ 基础与深度分析 Chapter11 类与面向对象编程（构造函数：缺省、单一、拷贝、移动、赋值）

最快最好用的数据增强库「albumentations」一文看懂用法

图片验证码识别-自动登录工具开发

FPGA ——I2C总线原理详解

中文主播也能海外带货！同声传译助直播类应用开拓海外市场

使用next.js开发网址缩短服务的方法

python如何打印字符串

【web安全】常见web安全问题及解决思路

运筹优化工具ortools解读与实践-CP-SAT应用案例

html图片标签img的介绍以及基本用法详解

pyqt5之QTableWidget相关开发笔记

排名前10的vue前端UI框架值得你掌握

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网，如有侵权请联系：561261067@qq.com

桂ICP备16001015号