如何将具有重复标识符的行与具有非重复标识符的行分开?

问题描述 投票:0回答:1

我想在 Pentaho 中生成两个输出。一个输出包含 CPF 唯一的行,另一个输出包含 CPF 重复的行。最初我使用了“数据网格”和“排序行”步骤,但我不知道如何去做我想做的事情。查看数据:

数据输入:


| CPF           | Nome         | Ano |
-------------------------------------|             
|636.624.160-00 |Alexandre Dias| 2023|                  
|438.815.860-75 |José da Silva | 2023|
|438.815.860-75 |José da Silva | 2022|
|311.520.000-55 |Maria Pereira | 2022|
|835.894.510-84 |Otávio Campos | 2023|
|835.894.510-84 |Otávio Campos | 2022|

我想要的输出:

单 CPF 的线路输出:


| CPF           | Nome         | Ano |
-------------------------------------|             
|636.624.160-00 |Alexandre Dias| 2023|                  
|311.520.000-55 |Maria Pereira | 2022|

输出带有重复 CPF 的行:

| CPF           | Nome         | Ano |
-------------------------------------|                              
|438.815.860-75 |José da Silva | 2023|
|438.815.860-75 |José da Silva | 2022|
|835.894.510-84 |Otávio Campos | 2023|
|835.894.510-84 |Otávio Campos | 2022|

Obs:CPF 随机生成。

pentaho pentaho-spoon pentaho-data-integration
1个回答
0
投票

通过文本输入加载数据作为记录行,

然后在侧流“内存组”中添加 CPF 上的数据并添加计数字段。 然后根据计数添加 1 或 0(id count = 1 then 1 else 0)。

将主流与侧流的查找连接起来,在侧流中检索 0/1 变量。 基于0/1变量的“切换步骤” 在两个路径中的每一个上,写入两个不同的文件。

© www.soinside.com 2019 - 2024. All rights reserved.