我正在开发一个ETL作业,它将JSON文件摄取到RDS登台表中。我配置的爬虫只要它们的大小不超过1MB就可以对JSON文件进行分类。如果我缩小文件(而不是漂亮的打印),如果结果低于1MB,它将对文件进行分类而不会出现问题。
我无法想出一个解决方法。我尝试将JSON转换为BSON或GZIPing JSON文件,但它仍然被归类为UNKNOWN。
还有其他人遇到过这个问题吗?有一个更好的方法吗?
我有两个json文件,分别是42mb和16mb,在S3上作为路径分区:
我和你有同样的问题,爬虫分类为UNKNOWN。
我能够解决它:
如上所述
https://docs.aws.amazon.com/glue/latest/dg/custom-classifier.html#custom-classifier-json
使用内置JSON分类器运行爬网程序时,整个文件用于定义模式。由于您未指定JSON路径,因此爬网程序将数据视为一个对象,即只是一个数组。
这也是阮在答案中指出的。