GCP BigQuery - 限制但全表读取 - 如何将查询数据限制到最小值

Question

看起来

LIMIT

对处理/查询的数据量没有影响（如果您信任 UI）。

SELECT
  * --count(*)
FROM
  `bigquery-public-data.github_repos.commits`
-- LIMIT   20

如何将查询的数据量限制到最小（即使可能总是需要一整个分区）

如何在查询执行前检查真实的大概金额？

在执行详细信息中指出，仅查询了 163514 行作为输入（而不是 244928379 行）

Answer 1

如果您想限制 BQ 用于查询的数据量，您有以下两个选项：

表分区 大查询可以使用您提供的日期/日期时间/时间戳列或通过插入日期来分区数据（如果您对表有定期更新，这很好）。

为此，您必须在 DDL 中指定分区策略：
```
CREATE TABLE mydataset.mytable (foo: int64, txdate:date)
PARTITION BY txdate
```
通配符表（如分片 - 将数据拆分为多个表

当您的数据包含有关不同域（地理、客户类型等）或来源的信息时，此方法有效。您可以使用类似的架构（通常人们使用相同的架构）创建“子表”或“分片”，而不是使用一张大表。例如，
```
dateset.tablename.eur
```
用于欧洲数据，``dataset.tablename.jap`` 用于日本数据。

您可以直接查询其中一张表
```
select col1,col2... from dataset.tablename.custromer_eur; 
```
或从所有表中查询
```
select col1,col2 from 'dataset.tablename.*' 
```
通配符表也可以按日期分区。