使用kettle进行数据的多表关联

发布时间：2023-08-07 18:30

使用kettle进行数据的多表关联

一、任务描述
二、任务目标
三、任务环境
四、任务分析
五、任务实施
- 步骤1、环境准备
- 步骤2、创建Transformmations
- 步骤3、运行任务

申明：未经许可，禁止以任何形式转载，若要引用，请标注链接地址
全文共计1982字，阅读大概需要3分钟

一、任务描述

本实验任务主要完成基于ubuntu环境的使用kettle进行数据的多表关联的工作。通过完成本实验任务，要求学生熟练掌握使用kettle进行数据的多表关联的方法，为后续实验的开展奠定ETL平台基础，也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。

二、任务目标

1、掌握使用kettle进行数据的多表关联

三、任务环境

Ubuntu16.04、Java1.8、Kettle7.1

四、任务分析

Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。
Kettle组成部分：

Kettle概念模型图：

Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。
Transformation（转换）：
Transformation（转换）是由一系列被称之为step（步骤）的逻辑工作的网络。转换本质上是数据流。下图是一个转换的例子，这个转换从文本文件中读取数据，过滤，然后排序，最后将数据加载到数据库。本质上，转换是一组图形化的数据转换配置的逻辑结构，转换的两个相关的主要组成部分是step（步骤）和hops（节点连接），转换文件的扩展名是.ktr。
Jobs（工作）：
Jobs（工作）是基于工作流模型的，协调数据源、执行过程和相关依赖性的ETL活动，Jobs（工作）将功能性和实体过程聚合在了一起，工作由工作节点连接、工作实体和工作设置组成，工作文件的扩展名是.kjb。
我们的任务是：
1、掌握使用kettle进行数据的多表关联

五、任务实施

步骤1、环境准备

右击Ubuntu操作系统桌面，从弹出菜单中选择【Open Terminal Here】命令打开终端。
启动kettle。

图1 启动kettle
开启mysql服务。如图2所示。

图2 开启mysql

步骤2、创建Transformmations

新建一个”Transformmations”(双击Transformmations即可),然后选择”Design”栏,将”Input”下的”Table input”(拖过去两个)和”Lookup”栏下的”Stream lookup”,以及”Output”栏下的”Table output”三个图标拖进工作区。按住Shift键，鼠标拖拽”Table input”图标到”Stream lookup”图标上，产生连线。同理”Table output”的线也连上。注意箭头方向。如图3所示