数据仓库架构
数据仓库架构很复杂,因为它是一个包含来自多个来源的历史和交换数据的信息系统。构建数据仓库层有 3 种方法:单层、两层和三层。数据仓库的 3 层架构解释如下。
单层架构
单层的目标是最小化存储的数据量。这个目标是消除数据冗余。这种架构在实践中并不经常使用。
两层架构
两层架构是数据仓库层之一,它将物理可用的源和数据仓库分开。这种架构不可扩展,也不支持大量最终用户。由于网络限制,它还存在连接问题。
三层数据仓库架构
这是最广泛使用的数据仓库架构。
它由顶层、中层和底层组成。
- 底层: Datawarehouse 服务器的数据库作为底层。它通常是一个关系数据库系统。使用后端工具清理、转换数据并将其加载到该层。
- 中间层:数据仓库中的中间层是一个 OLAP 服务器,它使用 ROLAP 或 MOLAP 模型实现。对于用户,此应用程序层呈现数据库的抽象视图。该层还充当最终用户和数据库之间的中介。
- 顶层:顶层是前端客户端层。顶层是您连接并从数据仓库中获取数据的工具和 API。它可以是查询工具、报告工具、托管查询工具、分析工具和数据挖掘工具。
数据仓库组件
我们将通过图表了解数据仓库组件和数据仓库架构,如下所示:
数据仓库架构
数据仓库基于 RDBMS 服务器,RDBMS 服务器是一个中央信息存储库,由一些关键的数据仓库组件包围,使整个环境具有功能性、可管理性和可访问性。
主要有五个数据仓库组件:
数据仓库数据库
中央数据库是数据仓库环境的基础。该数据库是在 RDBMS 技术上实现的。但是,这种实现受到以下事实的限制:传统 RDBMS 系统针对事务数据库处理而不是数据仓库进行了优化。例如,即席查询、多表连接、聚合会占用大量资源并降低性能。
因此,使用数据库的替代方法如下所列 -
- 在数据仓库中,并行部署关系数据库以实现可扩展性。并行关系数据库还允许在各种多处理器配置或大规模并行处理器上使用共享内存或不共享模型。
- 新的索引结构用于绕过关系表扫描并提高速度。
- 使用多维数据库 (MDDB) 来克服由于关系数据仓库模型而造成的任何限制。示例:来自 Oracle 的 Essbase。
采购、收购、清理和转换工具 (ETL)
数据采购、转换和迁移工具用于执行将数据转换为数据仓库中统一格式所需的所有转换、汇总和所有更改。它们也称为提取、转换和加载 (ETL) 工具。
它们的功能包括:
- 根据监管规定匿名数据。
- 消除操作数据库中不需要的数据加载到数据仓库中。
- 搜索和替换来自不同来源的数据的通用名称和定义。
- 计算摘要和派生数据
- 如果缺少数据,请使用默认值填充它们。
- 对来自多个数据源的重复数据进行去重。
这些提取、转换和加载工具可能会生成定期更新数据仓库中数据的 cron 作业、后台作业、Cobol 程序、shell 脚本等。这些工具也有助于维护元数据。
这些 ETL 工具必须应对数据库和数据异构的挑战。
元数据
元数据这个名字暗示了一些高级技术数据仓库概念。然而,这很简单。元数据是关于定义数据仓库的数据的数据。它用于构建、维护和管理数据仓库。
在数据仓库架构中,元数据起着重要的作用,因为它指定了数据仓库数据的来源、用途、价值和特征。它还定义了如何更改和处理数据。它与数据仓库紧密相连。
例如,供应链管理的数据库中的一行可能包含:
1000 M100 500
这是一个毫无意义的数据,直到我们查阅 Meta 告诉我们它是
- 订单:1000
- 产品编号:M100
- 金额 500 美元
因此,元数据是将数据转化为知识的重要组成部分。
元数据有助于回答以下问题
- 数据仓库包含哪些表、属性和键?
- 数据从哪里来?
- 数据重新加载多少次?
- 清洁应用了哪些转变?
元数据可以分为以下几类:
- 技术元数据:这种元数据包含有关数据仓库设计人员和管理员使用的仓库的信息。
- 业务元数据:这种元数据包含详细信息,为最终用户提供了一种易于理解存储在数据仓库中的信息的方法。
查询工具
数据仓库的主要目标之一是为企业提供信息以做出战略决策。查询工具允许用户与数据仓库系统进行交互。
这些工具分为四类:
- 查询和报告工具
- 应用程序开发工具
- 数据挖掘工具
- OLAP 工具
1.查询和报告工具:
查询和报告工具可以进一步分为
- 报告工具
- 托管查询工具
报告工具:
报告工具可以进一步分为生产报告工具和桌面报告编写器。
- 报告编写者:这种报告工具是专为最终用户进行分析而设计的工具。
- 生产报告:这种工具允许组织生成定期的运营报告。它还支持大容量批处理作业,如打印和计算。一些流行的报告工具包括 Brio、Business Objects、Oracle、PowerSoft、SAS Institute。
托管查询工具:
这种访问工具通过在用户和数据库之间插入元层来帮助最终用户解决数据库和 SQL 和数据库结构中的障碍。
2. 应用开发工具:
有时内置的图形和分析工具不能满足组织的分析需求。在这种情况下,使用应用程序开发工具开发自定义报告。
3. 数据挖掘工具:
数据挖掘是通过挖掘大量数据发现有意义的新关联、模式和趋势的过程。数据挖掘工具用于使此过程自动化。
4. OLAP 工具:
这些工具基于多维数据库的概念。它允许用户使用精细和复杂的多维视图来分析数据。
数据仓库总线架构
数据仓库总线决定了数据在仓库中的流动。数据仓库中的数据流可分为流入、上行、下行、流出和元流。
在设计数据总线时,需要考虑跨数据集市的共享维度和事实。
数据仓库架构最佳实践
要设计数据仓库架构,您需要遵循以下给定的最佳实践:
使用针对信息检索优化的数据仓库模型,可以是维度模式、非规范化或混合方法。
在数据仓库中选择合适的设计方法作为自顶向下和自底向上的方法
需要确保快速准确地处理数据。同时,您应该采取一种方法将数据整合为单一版本的事实。
精心设计数据仓库的数据采集和清理流程。
设计允许在数据仓库组件之间共享元数据的元数据架构
当信息检索需求接近数据抽象金字塔的底部或需要访问多个操作源时,请考虑实施 ODS 模型。
人们应该确保数据模型是集成的,而不仅仅是合并的。在这种情况下,您应该考虑 3NF 数据模型。它也是获取 ETL 和数据清理工具的理想选择