我有一个非标准化表。我想从该表的一个特定列中选择所有值,并仅将该列中的唯一值加载到单独的表中。
如何使用 Pentaho Spoon 做到这一点?请注意,我对 Spoon 完全是新手。我一生中只尝试过 hello world 转换。
我有一个名为“Employees”的表,其中有很多列,如下所示(我在这里没有给出不相关的列):
+-------------------------------------------------------+
Employees
+-------------------------------------------------------+
employee_number | employee_name | deputed_branch | phone
+-------------------------------------------------------+
现在我只想使用 Spoon 将唯一的分支名称移动到名为
branches
的新表中。
“分支”表将如下所示:
+-------------------------------------------------------+
branches
+-------------------------------------------------------+
| branch_id | branch_name
+-------------------------------------------------------+
其中branch_id将是唯一的并且自动递增。
要连接
Employees
和 branches
表,我将使用 Employee_branch
表,该表将由 employee_number
和 branch_id
列组成。
谁能告诉我该怎么做吗?
提前致谢!
你不能在sql中这样做吗?
从员工中选择不同的 deputed_branch
如果没有;然后使用唯一行步骤(并非必须对数据进行排序)或按步骤进行分组。 (也已排序)
或者;如果行数较少则内存分组(数据不需要排序)
我发现在 Pentaho 中生成唯一值的方法是使用 Unique Rows (HashSet) 步骤。与常规“唯一行”步骤的区别在于,它不需要将数据排序为连续的相同行。