Amazon Athena 查询 S3 Common Crawl 索引返回状态代码:503

问题描述 投票:0回答:1

我使用 Amazon Athena 成功查询 Common Crawl 存档的索引,直到几周后它开始返回“服务:Amazon S3;状态代码:503;错误代码:SlowDown”。我遵循了这种方法https://skeptric.com/common-crawl-index-athena/并且它的运行速度非常快并且符合预期。 如果成功运行 Athena 需要不到 10 秒的时间来扫描 300 个 parquet 文件的存储桶以返回结果,但现在它运行了 1 分钟,然后无法打开随机 parquet 文件,返回前面提到的错误代码。

Athena 中的 SQL 语句如下所示:

SELECT url_host_registered_domain As domain, url_path, warc_filename, warc_record_offset, warc_record_length
FROM "ccindex"."ccindex"
WHERE crawl = 'CC-MAIN-2023-06' AND subset = 'warc' AND url_host_registered_domain IN ('ica.se', 'hemkop.se', 'spar.no', 'obs.no', 'obsbygg.no', 'rarecoin.store')

我现在每次收到的错误代码是:

HIVE_CANNOT_OPEN_SPLIT: Error opening Hive split s3://commoncrawl/cc-index/table/cc-main/warc/crawl=CC-MAIN-2023-06/subset=warc/part-00275-b5ddf469-bf28-43c4-9c36-5b5ccc3b2bf1.c000.gz.parquet (offset=0, length=67108864): com.amazonaws.services.s3.model.AmazonS3Exception: Please reduce your request rate. (Service: Amazon S3; Status Code: 503; Error Code: SlowDown...

我已经设置了一个指数退避算法来重试,它偶尔会起作用,但我不高兴一直扫描(并支付)千兆字节的数据而没有得到任何结果:/

这是我这边的问题还是亚马逊没有提供足够的资源?有没有人遇到过同样的问题或者可以建议一种替代方法来检索索引结果?

performance amazon-s3 amazon-athena common-crawl
1个回答
1
投票

我看到您通过制作镶木地板文件的镜像解决了您自己的问题,但是,我们这边的根本问题不再发生。我们不确定每秒向我们发送数百万个请求的人是否停止了,或者亚马逊是否最终找到了删除这些请求的签名,但过去 12 小时情况好多了。

将来,我们建议您查看我们的新状态网页以了解发生了什么。此外,我们的博客有时会发布一些有趣的帖子。例如,最近的性能博客文章包含您使用的解决方法。

新状态网页:https://status.commoncrawl.org/

最近关于我们性能问题的博客文章:https://commoncrawl.org/blog/oct-nov-2023-performance-issues

© www.soinside.com 2019 - 2024. All rights reserved.