AWS Glue Catalog API：不同结构的元数据中的Parameters字段

Question

AWS胶水数据目录由不同的结构组成，例如Database Table Partition Column等。没有仔细检查它们中的每一个，但是似乎所有它们中都存在Parameters字段（键-值对的映射数组）。我注意到，如果表是由crawler创建的，那么我们可以看到类似的内容：

{
    "CrawlerSchemaDeserializerVersion": "1.0",
    "CrawlerSchemaSerializerVersion": "1.0",
    "UPDATED_BY_CRAWLER": "some-crawler-name",
    "averageRecordSize": "12",
    "classification": "parquet",
    "compressionType": "none",
    "objectCount": "123",
    "recordCount": "1234567",
    "sizeKey": "1234567890",
    "typeOfData": "file"
}

对于Table["Parameters"]以及Table["StorageDescriptor"]["Parameters"]。如果我们的表具有分区，则每个分区都将具有相同的词典，但averageRecordSize，objectCount，recordCount，sizeKey的值将不同。对它们进行求和后，我们得到的值与Table["Parameters"]中的值相同。所有这些都是有道理的，我想当我们想按需或按计划重新运行爬虫时，这些值决定了爬虫的逻辑。

[不是使用搜寻器，而是使用boto3和airflow手动管理多个AWS Glue目录。例如，我可以将分区定义从目录12345中的db_1.table_1复制到目录6789中的db_2.table_2，或在table_1中定义其他元参数。但是，此[[Parameters字段对我来说仍然是一个谜，我找不到与之相关的任何文档。

看起来像一些键，例如recordCount，保留供AWS Glue内部使用（尽管可以手动定义）。
其他服务（尤其是雅典娜）也使用它们吗？
我在哪里可以找到这样的键及其含义的列表，以使我的键不会受到干扰？
文档提到这些键值对定义了与表关联的属性和一些限制：
每个键是一个键字符串，长度不少于1个或大于255个字节，与单行字符串模式匹配。
每个值都是UTF-8字符串，长度不超过512000字节。
Parameters字段可以包含多少个键？查询数据时，这些键值对的数量是否会影响性能？
对表，分区及其存储描述符保持Parameters字段同步有多重要？>
AWS胶水数据目录由不同的结构组成，例如数据库，表，分区，列等。它们没有逐一检查，但似乎参数字段（映射数组...

Answer 1

https://docs.aws.amazon.com/redshift/latest/dg/r_CREATE_EXTERNAL_TABLE.html#r_CREATE_EXTERNAL_TABLE-parameters

AWS Glue Catalog API：不同结构的元数据中的Parameters字段

问题描述投票：0回答：1

1个回答

最新问题

AWS Glue Catalog API：不同结构的元数据中的Parameters字段

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1