将 ETL 作业从 IBM Datastage 转换为 Apache Spark

问题描述 投票:0回答:2

我们所有的 ETL 工作负载都是在 IBM Datastage 和 Oracle 作为数据库上设计的,但现在,企业正在寻找开源平台的选项,这些平台提供分布式并行计算来完成相同的任务缩短时间并节省一些技术成本。 我一直都不是 Java 人员,但是我有 Python 知识,并且还接受了 Apache Spark 的正式培训,我想利用这些知识将我们现有的 Datastage 设计转换为 Spark。 下面给出了我们目前在所有 Datastage 作业中执行的一些常见操作

  1. 从平面文件(txt/csv)读取数据
  2. 对其他小数据表执行查找(正常/范围/稀疏)
  3. 与其他大型表执行连接
  4. 将数据写入表中
  5. 调用 Siebel Enterprise Integration Manager 将数据从一个表加载到 Siebel 表
  6. 从多个表中提取数据并创建单个平面文件(txt/csv)
  7. 将文件ftp到目标服务器

所有这些操作都可以通过 Spark 完成吗? 至少我正在寻求在 Spark 中重新创建步骤 #1、#2、#3、#4 和 #6,这(就我的 Spark 知识而言)是可以实现的。

请帮助/重定向我到在这方面有帮助的资源。

oracle apache-spark datastage
2个回答
0
投票

0
投票

我所在的组织需要将 2000 个 DataStage 作业迁移到 Spark。我们发现了一家名为 Travinto 的公司,它帮助我们成功地将 DataStage 作业迁移并优化到 PySpark。与他们一起检查可能对您也有帮助。我们检查了我们的开发工作与成本,我们发现它是预算友好的。我们的管理层决定使用 travinto,因为我们的开发和管理代码,并且在数据阶段版本更改后,我们的成本相对于 travinto 来说太高了。

© www.soinside.com 2019 - 2024. All rights reserved.