我是GCP dataprep中的新手,现在正在尝试创建一个配方,但我无法弄清楚这样做的方法。
总之,我有2个文件,第一个有这个列:NAME,CONTRY_CODE,...
第二个是:COUNTRY_CODE,COUNTRY_NAME
如何将第一个数据集中的COUNTRY_CODE替换为第二个数据集的COUNTRY_NAME(与相应的COUNTRY_CODE匹配)?
提前致谢!
对于任何试图制作此类事物的人。您可以使用Dataprep中的Lookup属性来实现它!
只需选择要更改的列(在我的情况下为COUNTRY_CODE),然后选择查找 - >选择数据集(在我的情况下是第二个)。它将按预期取代它!
虽然查找答案将正常工作,但JOIN选项可能是一个更好的可扩展性解决方案,因为它支持远程端的多个列,显示匹配率,允许模糊匹配,以及许多其他好东西(如忽略空格中的空格)火柴)。您还可以选择连接类型来控制输出和缺失行的处理方式。
JOIN
在语义上这两个选项没有太大的不同,我没有看到真正的性能差异 - 但我已经能够通过使用像这样的连接简化一些操作: