AWS Glue Catalog API:不同结构的元数据中的Parameters字段

问题描述 投票:0回答:1

AWS胶水数据目录由不同的结构组成,例如DatabaseTablePartitionColumn等。没有仔细检查它们中的每一个,但是似乎所有它们中都存在Parameters字段(键-值对的映射数组)。我注意到,如果表是由crawler创建的,那么我们可以看到类似的内容:

{
    "CrawlerSchemaDeserializerVersion": "1.0",
    "CrawlerSchemaSerializerVersion": "1.0",
    "UPDATED_BY_CRAWLER": "some-crawler-name",
    "averageRecordSize": "12",
    "classification": "parquet",
    "compressionType": "none",
    "objectCount": "123",
    "recordCount": "1234567",
    "sizeKey": "1234567890",
    "typeOfData": "file"
}

对于Table["Parameters"]以及Table["StorageDescriptor"]["Parameters"]。如果我们的表具有分区,则每个分区都将具有相同的词典,但averageRecordSizeobjectCountrecordCountsizeKey的值将不同。对它们进行求和后,我们得到的值与Table["Parameters"]中的值相同。所有这些都是有道理的,我想当我们想按需或按计划重新运行爬虫时,这些值决定了爬虫的逻辑。

[不是使用搜寻器,而是使用boto3airflow手动管理多个AWS Glue目录。例如,我可以将分区定义从目录12345中的db_1.table_1复制到目录6789中的db_2.table_2,或在table_1中定义其他元参数。但是,此[[Parameters字段对我来说仍然是一个谜,我找不到与之相关的任何文档。

看起来像一些键,例如recordCount,保留供AWS Glue内部使用(尽管可以手动定义)。

    其他服务(尤其是雅典娜)也使用它们吗?
  1. 我在哪里可以找到这样的键及其含义的列表,以使我的键不会受到干扰?
  2. 文档提到这些键值对定义了与表关联的属性和一些限制:

      每个键是一个键字符串,长度不少于1个或大于255个字节,与单行字符串模式匹配。
  3. 每个值都是UTF-8字符串,长度不超过512000字节。
  • Parameters字段可以包含多少个键?查询数据时,这些键值对的数量是否会影响性能?
  • 对表,分区及其存储描述符保持Parameters字段同步有多重要?>

  • AWS胶水数据目录由不同的结构组成,例如数据库,表,分区,列等。它们没有逐一检查,但似乎参数字段(映射数组...
  • amazon-web-services aws-glue aws-glue-data-catalog
    1个回答
    © www.soinside.com 2019 - 2024. All rights reserved.