AWS Glue 爬网程序在数据目录中创建表的方式与 parquet 文件不同。 AWS Glue Crawler 转换“.”在镶木地板文件中到表中的“_”
例如:
镶木地板文件名:schema.tablename
表名称:schema_tablename
预期的表名称:schema.tablename
是否有任何 Glue 爬虫设置或属性执行此操作?请指教。
我认为这是不可能的,如果您参考以下有关爬虫如何工作的文档(https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html#crawler-running) .
它指出以下内容:
爬网程序为其创建的表生成名称。这 存储在 AWS Glue 数据目录中的表的名称 遵循以下规则:“
- 仅允许使用字母数字字符和下划线 (_)。
关于您如何引用/使用术语“架构”,我认为您指的是数据库架构,AWS Glue 不是这样工作的,如果您想在一个集合中包含/分配多个表,它会位于一个 AWS Glue 数据库内。
如果你想在一个DATABASE中对多个表进行分离/分组,你需要事先创建这个,并让你的爬虫在其中创建表,至于表的名称,你可以删除“schema”前缀并仅使用表的名称。