Hadoop生态圈之Flume（一）

发布时间：2023-01-17 17:30

1. 概述

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。

Flume的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel),待数据真正到达目的地(sink)后，flume在删除自己缓存的数据。

2. 运行机制

flume 本身是一个 Java 进程，在需要采集数据机器上启动 ----> agent 进程
agent 进程里面包含了：source（采集源）、sink（下沉地）、channel（数据传输通道）
在整个数据的传输的过程中，流动的是event，它是Flume内部数据传输的最基本单元。event将传输的数据进行封装。如果是文本文件，通常是一行记录，event也是事务的基本单位。event从source，流向channel，再到sink，本身为一个字节数组，并可携带headers(头信息)信息。event代表着一个数据的最小完整单元，从外部数据源来，向外部的目的地去。
一个完整的event包括：event headers、event body、event信息，其中event信息就是flume收集到的日记记录。

相关推荐

Java并发中的同步容器与并发容器，你了解多少？

Xilinx Aurora 8B/10B IP核详解和仿真

基于最新 Vite+Vue3+VantUI移动端应用项目搭建

mysql命令和sql语句学习

跟着迪哥学python epub_跟着迪哥学PYTHON数据分析与机器学习实战

分布式系统中数据存储方案实践

实时BI（三）离线数据与实时数据处理的技术实现

程序员搞开源，读什么书最合适？

python字符串拼接

C语言中的表达式求值

如何使用mybatis-plus实现分页查询功能

这几十道指针与数组结合的题目，你能做对几题？

软件测试基础(四)

Pyqt主要组件QFileDialog，QMessageBox，QInputDialog，QPushButton详解，附详细代码（持续更新中.....）

docker实践总结——容器与Linux进程

我有 7种实现web实时消息推送的方案，7种！

Android 面试题：为什么 Activity 都重建了 ViewModel 还存在？—— Jetpack 系列（3）

数字IC笔面试（一）——联发科提前批笔试题记录

机器学习（19）——循环神经网络（一）

联邦学习笔记（三）

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网，如有侵权请联系：561261067@qq.com

桂ICP备16001015号