如何在 clickhouse 数据库的一个特定表中找到 重复数据条目?
我实际上正在调查合并树表,并且实际上在我的表上扔了优化语句,但这并没有达到目的。重复的条目仍然存在。
最好有一个通用策略,而不引用各个列名称。
我只想查看重复的条目,因为我正在处理非常大的表。
最直接的方法是运行此查询。
SELECT
*,
count() AS cnt
FROM myDB.myTable
GROUP BY *
HAVING cnt > 1
ORDER BY date ASC
如果该查询变得很大,您可以分段运行它。
SELECT
*,
count() AS cnt
FROM myDB.myTable
WHERE (date >= '2020-08-01') AND (date < '2020-09-01')
GROUP BY *
HAVING cnt > 1
ORDER BY date ASC