AWS Glue Crawler将json文件归类为UNKNOWN

Question

我正在开发一个ETL作业，它将JSON文件摄取到RDS登台表中。我配置的爬虫只要它们的大小不超过1MB就可以对JSON文件进行分类。如果我缩小文件（而不是漂亮的打印），如果结果低于1MB，它将对文件进行分类而不会出现问题。

我无法想出一个解决方法。我尝试将JSON转换为BSON或GZIPing JSON文件，但它仍然被归类为UNKNOWN。

还有其他人遇到过这个问题吗？有一个更好的方法吗？

Answer 1

我有两个json文件，分别是42mb和16mb，在S3上作为路径分区：

我和你有同样的问题，爬虫分类为UNKNOWN。

我能够解决它：

Answer 2

如上所述

使用内置JSON分类器运行爬网程序时，整个文件用于定义模式。由于您未指定JSON路径，因此爬网程序将数据视为一个对象，即只是一个数组。

这也是阮在答案中指出的。