如何使用 Pentaho 将多个来源的数据导入到单个输出文件?

问题描述 投票:0回答:1

我有一个转换过程,可以从多个数据源获取数据并将它们连接到单个 CSV 输出中。

此过程是一个原始作业,它会删除以前的信息并加载当前从数据源获取的数据。

我需要的是输出 CSV 保留数据源不再返回的数据,更新更改的数据,并添加新的数据。 换句话说,我需要保留旧信息,更新更改并添加新记录。

我对 Pentaho 相当陌生,到目前为止还无法做到这一点。 您能帮助我完成我需要实施的流程吗?

bigdata etl pentaho kettle pentaho-spoon
1个回答
0
投票

您可以使用“合并行(差异)”步骤来比较数据集的 2 个不同版本。 Keys 用于合并行,

Values
用于比较它们。 然后根据这些标志使用
Switch Case
来处理行:

相同

: 两行中都找到了密钥,并且比较的值相同。

更改

: 两行中都找到了键,但一个或多个比较值不同。

: 在参考行中未找到该密钥。

已删除

: 在比较行中未找到该键。

© www.soinside.com 2019 - 2024. All rights reserved.