如何使用pentaho水壶从行集中查找唯一值?

问题描述 投票:0回答:2

我有一个非标准化表。我想从该表的一个特定列中选择所有值,并仅将该列中的唯一值加载到单独的表中。

如何使用 Pentaho Spoon 做到这一点?请注意,我对 Spoon 完全是新手。我一生中只尝试过 hello world 转换。

我有一个名为“Employees”的表,其中有很多列,如下所示(我在这里没有给出不相关的列):

+-------------------------------------------------------+

                           Employees
+-------------------------------------------------------+

employee_number | employee_name | deputed_branch | phone

+-------------------------------------------------------+

现在我只想使用 Spoon 将唯一的分支名称移动到名为

branches
的新表中。

“分支”表将如下所示:

+-------------------------------------------------------+

                           branches
+-------------------------------------------------------+

| branch_id | branch_name 

+-------------------------------------------------------+

其中branch_id将是唯一的并且自动递增。

要连接

Employees
branches
表,我将使用
Employee_branch
表,该表将由
employee_number
branch_id
列组成。

谁能告诉我该怎么做吗?

提前致谢!

etl pentaho kettle
2个回答
3
投票

你不能在sql中这样做吗?

从员工中选择不同的 deputed_branch

如果没有;然后使用唯一行步骤(并非必须对数据进行排序)或按步骤进行分组。 (也已排序)

或者;如果行数较少则内存分组(数据不需要排序)


0
投票

我发现在 Pentaho 中生成唯一值的方法是使用 Unique Rows (HashSet) 步骤。与常规“唯一行”步骤的区别在于,它不需要将数据排序为连续的相同行。

© www.soinside.com 2019 - 2024. All rights reserved.