AWS 胶水提取 id 引用的 json

问题描述 投票:0回答:1

我在 s3 上有一个像这样结构的 json 数据文件,每个对象的 id 用作键

{
"id_01": {"name": "Julie", "city": "Paris"},
"id_02": {"name": "Marc", "city": "Lyon"},
etc.
}

爬虫是否有可能生成这样的模式? :

id|name|city

如果没有,直接从 s3 获取文件而不先爬行是一个好的做法吗?

amazon-web-services etl aws-glue
1个回答
0
投票

不会,AWS Glue Crawler 不会自动从该 JSON 结构生成架构,因为它需要统一格式的数据,例如对象数组,而不是具有动态键的对象。

您可以将 JSON 预处理为数组格式,如下所示:

[
  {"id": "id_01", "name": "Julie", "city": "Paris"},
  {"id": "id_02", "name": "Marc", "city": "Lyon"}
]

至于直接从S3获取而不进行爬行,对于小文件或不经常访问的文件来说是可以的。但如果您需要定期查询它,请考虑转换数据并使用 Athena 之类的工具以获得更好的性能。

© www.soinside.com 2019 - 2024. All rights reserved.