Cloud Dataprep - 使用中间数据集替换代码或id值

问题描述 投票:1回答:2

我是GCP dataprep中的新手,现在正在尝试创建一个配方,但我无法弄清楚这样做的方法。

总之,我有2个文件,第一个有这个列:NAME,CONTRY_CODE,...

第二个是:COUNTRY_CODE,COUNTRY_NAME

如何将第一个数据集中的COUNTRY_CODE替换为第二个数据集的COUNTRY_NAME(与相应的COUNTRY_CODE匹配)?

提前致谢!

google-cloud-platform google-cloud-dataprep trifacta
2个回答
0
投票

对于任何试图制作此类事物的人。您可以使用Dataprep中的Lookup属性来实现它!

只需选择要更改的列(在我的情况下为COUNTRY_CODE),然后选择查找 - >选择数据集(在我的情况下是第二个)。它将按预期取代它!


0
投票

虽然查找答案将正常工作,但JOIN选项可能是一个更好的可扩展性解决方案,因为它支持远程端的多个列,显示匹配率,允许模糊匹配,以及许多其他好东西(如忽略空格中的空格)火柴)。您还可以选择连接类型来控制输出和缺失行的处理方式。

在语义上这两个选项没有太大的不同,我没有看到真正的性能差异 - 但我已经能够通过使用像这样的连接简化一些操作:

Google Cloud DataPrep step menu showing a simple Join operation

© www.soinside.com 2019 - 2024. All rights reserved.