我们可以在hive中制作一个同时具有分区和分桶功能的列吗?

问题描述 投票:0回答:1

我们可以在 hive 表中创建一个同时具有分区和分桶功能的列吗?

我很困惑我们如何使用它

我的配置单元表中有按日期分区的数据。由于一天的数据量很大,我想将这些数据进一步分为4部分。这样我就想阅读每个部分并处理数据。

hive
1个回答
0
投票

分桶和分区是相辅相成的。因此,如果您一起使用它们(我认为您做不到),它不会按照您想要的方式分发,即使组很小,它也会分发数据。现在,如果您发现某些日子的数据很大,请首先尝试在日期列上进行存储,然后在地理/年龄/角色或其他一些粒度较小的分类变量等列上进行分区。
你也可以试试这个 -

CREATE TABLE mytable(
RecordNumber int, 
City string,
Zipcode int,
date_entered date
)
PARTITIONED BY(country STRING)
CLUSTERED BY(date_entered) INTO 300 BUCKETS;


© www.soinside.com 2019 - 2024. All rights reserved.