我在 s3 上有一个像这样结构的 json 数据文件,每个对象的 id 用作键
{
"id_01": {"name": "Julie", "city": "Paris"},
"id_02": {"name": "Marc", "city": "Lyon"},
etc.
}
爬虫是否有可能生成这样的模式? :
id|name|city
如果没有,直接从 s3 获取文件而不先爬行是一个好的做法吗?
不会,AWS Glue Crawler 不会自动从该 JSON 结构生成架构,因为它需要统一格式的数据,例如对象数组,而不是具有动态键的对象。
您可以将 JSON 预处理为数组格式,如下所示:
[
{"id": "id_01", "name": "Julie", "city": "Paris"},
{"id": "id_02", "name": "Marc", "city": "Lyon"}
]
至于直接从S3获取而不进行爬行,对于小文件或不经常访问的文件来说是可以的。但如果您需要定期查询它,请考虑转换数据并使用 Athena 之类的工具以获得更好的性能。