比较bigquery中重复项的多个大数据集

问题描述 投票:0回答:1

我对于salesforce的soql经验有限,需要在bigquery中将此问题应用于此问题。

上下文:我有4个不同的数据集,列名不同,订单范围从7000到35000行,所有四个都包含重复的行,并且它们之间共享重复的行。

目标:我想要一个没有重复行的数据集。

我的直觉:我觉得我应该规范化列名,将它们添加到同一个表中并采取这种方法Remove Duplicate Data in bigquery

与此同时,我觉得将每个数据集上传到自己的表并使用连接或其他东西写入新表可能更好。我真的没有这方面的经验做出明智的决定。

我选择了bigquery soley,因为如果有更好的解决方案,我可以访问它。

sql database duplicates google-bigquery soql
1个回答
0
投票

你可以使用union

select a as x, b as y, c as z
from table1
union distinct
select d, e, f
from table2
union distinct
select g, h, i
from table3
union distinct
select j, k, l
from table4;

union删除表内和表之间的重复项。这将返回名称为xyz的列。

© www.soinside.com 2019 - 2024. All rights reserved.