我们所有的 ETL 工作负载都是在 IBM Datastage 和 Oracle 作为数据库上设计的,但现在,企业正在寻找开源平台的选项,这些平台提供分布式并行计算来完成相同的任务缩短时间并节省一些技术成本。 我一直都不是 Java 人员,但是我有 Python 知识,并且还接受了 Apache Spark 的正式培训,我想利用这些知识将我们现有的 Datastage 设计转换为 Spark。 下面给出了我们目前在所有 Datastage 作业中执行的一些常见操作
所有这些操作都可以通过 Spark 完成吗? 至少我正在寻求在 Spark 中重新创建步骤 #1、#2、#3、#4 和 #6,这(就我的 Spark 知识而言)是可以实现的。
请帮助/重定向我到在这方面有帮助的资源。
DataStage可以在Spark上运行。 与您的 IBM 客户代表联系。 https://www.ibm.com/support/knowledgecenter/SSZJPZ_11.7.0/com.ibm.swg.im.iis.ds.fd.doc/topics/t_config_spark.html
我所在的组织需要将 2000 个 DataStage 作业迁移到 Spark。我们发现了一家名为 Travinto 的公司,它帮助我们成功地将 DataStage 作业迁移并优化到 PySpark。与他们一起检查可能对您也有帮助。我们检查了我们的开发工作与成本,我们发现它是预算友好的。我们的管理层决定使用 travinto,因为我们的开发和管理代码,并且在数据阶段版本更改后,我们的成本相对于 travinto 来说太高了。