ETL架构

问题描述 投票:0回答:3
Http://en.wikipedia.org/wiki/extract,_transform,_load

ETL体系结构设计的四层方法

功能层:核心功能ETL处理(提取,转换和负载)。 operational Management层:工作流定义和管理,参数,调度,监视,通信和警报。

审核,平衡与控制(ABC)层:工作执行统计,平衡和控制,拒绝和错误处理,代码管理。

    utilitylayer
  • :支持所有其他层的常见组件。 真实生活ETL循环
  • 典型的现实生活ETL周期包括以下执行步骤:
  • 循环启动
  • 构建参考数据
  • 提取(来自来源)
  • validate transform(清洁,应用业务规则,检查数据完整性,创建聚合或分类)
阶段(如果使用的话,加载到分期表中)

审计报告(例如,在遵守业务规则时。此外,如果失败有助于诊断/维修)

出版(目标表)
    Archive
  1. 清理
  2. 我不知道您的情况是什么或您的要求是什么,但是您可能会想到问题。
  3. 仅名称是“”架构:
  4. 提取 transform
  5. 负载
  6. 在加载CSV时,可以将DB表格到CSV是“ L”。大多数ETL问题根本不复杂。 Beyond,您应该抓住Java,免费和商业,图书馆和完整的船舶处理系统中已经可用的1或200万ETL和ESB软件包中的任何一个,并且只是采用了您最喜欢的其中一个。
  7. 获取白板,将一些气泡与线条一起串在一起,然后将其转换为代码。
  8. 回答这个问题:“最好的做法是什么?”答案取决于您要完成的工作。
简化,假设您正在做以下一个:
java architecture etl
3个回答
6
投票
您正在构建一个数据仓库,该仓库将以某种方式重组数据

您正在将数据从A点移到B点,但是您没有重组数据

当我使用“重组”一词时,我的意思是更改表的谷物或最低级别的细节。
  • 对于1。通常遵循您的问题中概述的十个步骤。 一般最佳实践:
  • 将尽可能多的转换逻辑推到数据库资源上,而不是ETL软件(ETL软件通常较慢)
  • 估算,转换和审计步骤用于采用您组织使用的任何主数据管理(MDM)标准
对于2。这更简单得多,因此可以使用您的问题中概述的任何一种方法。

线,但仍然相关。实施ETL应用程序时,请考虑以下最佳实践:

DATA分析:在设计您的ETL过程之前,分析源数据以了解其内容,结构和质量。

1
投票

尺度性:设计您的ETL系统以处理随着时间的推移增加数据量的增加。考虑并行处理技术以提高性能。

Error处理:实施强大的错误处理和记录机制以快速识别和解决问题。

    数据质量:合并数据清理和验证步骤,以确保将要加载到目标系统的数据的质量。
  1. 插入加载:在可能的情况下,实现增量加载以仅处理新创建或更改的数据,减少处理时间和资源的使用。

Metadata管理:维护有关您的ETL流程的全面元数据,包括来源对目标映射,转换规则和数据谱系。

测试:制定彻底的测试策略,包括单位测试,集成测试和端到端测试,以确保ETL流程可靠性。
  • 监视和警报:实施监视和警报机制以主动识别和解决ETL流程中的问题。
version控件:将版本控制用于您的ETL代码和配置来跟踪更改并促进协作。


0
投票

此外,还考虑使用免费计划的前建造解决方案,尤其是在开发具有增长潜力的较小项目时。我的首选是
    https://skyvia.com
  1. 在慷慨的免费试用层中,我为我提供了我所需的一切。

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.