首先来介绍一下ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

kettle工具使用教程(ETL工具Kettle的介绍和使用)(1)

ETL的实现需要借助工具,对于开源世界,也提供了很多优秀的开源工具,例如Apatar-Java 编写,是一个开源的数据抽取、转换、 装载(ETL)项目;Heka-一个用来收集和整理来自多个不同源的数据的工具,通过对数据进行收集和整理后发送结果报告到不同的目标用于进一步分析;Scriptella-一个开源的 ETL (抽取-转换-加载)工具和一个脚本执行工具,采用 Java 开发;Talend-针对的数据集成工具市场的 ETL(数据的提取 Extract、传输 Transform、载入Load)开源软件;Kettle-一款国外开源的 etl 工具,纯 java 编写,绿色无需安装。今天就来介绍一下kettle这个工具。

kettle工具使用教程(ETL工具Kettle的介绍和使用)(2)

kettle这个工具数据抽取高效稳定,它有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。kettle家族有四大工具:

1、SPOON:允许你通过图形界面来设计ETL转换过程(Transformation)

2、PAN:Pan是一个后台执行的程序,没有图形界面,类似于时间调度器

3、CHEF:任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。

4、KITCHEN:批量使用由Chef设计的任务

一、首先是要下载这个ETL工具,官网如果下载太慢,可私信“KETTLE”来获取资源。

二、由于是绿色免安装的,所以下载完可以找到指定打开文件进行打开(Windows 系统用Sponn.bat文件,类UNIX平台用spoon.sh文件):

kettle工具使用教程(ETL工具Kettle的介绍和使用)(3)

三、点击可执行文件,就能打开kettle工具,界面如下:

kettle工具使用教程(ETL工具Kettle的介绍和使用)(4)

四、关于kettle界面中的元素及使用,我们后续会一一说明:

kettle工具使用教程(ETL工具Kettle的介绍和使用)(5)

kettle工具使用教程(ETL工具Kettle的介绍和使用)(6)