我们可以在 hive 表中创建一个同时具有分区和分桶功能的列吗?
我很困惑我们如何使用它
我的配置单元表中有按日期分区的数据。由于一天的数据量很大,我想将这些数据进一步分为4部分。这样我就想阅读每个部分并处理数据。
分桶和分区是相辅相成的。因此,如果您一起使用它们(我认为您做不到),它不会按照您想要的方式分发,即使组很小,它也会分发数据。现在,如果您发现某些日子的数据很大,请首先尝试在日期列上进行存储,然后在地理/年龄/角色或其他一些粒度较小的分类变量等列上进行分区。
你也可以试试这个 -
CREATE TABLE mytable(
RecordNumber int,
City string,
Zipcode int,
date_entered date
)
PARTITIONED BY(country STRING)
CLUSTERED BY(date_entered) INTO 300 BUCKETS;