我应该在 EMR 上使用 AWS Glue 或 Spark 将二进制数据处理为 parquet 格式吗

问题描述 投票:0回答:2

我的工作要求是从传感器读取二进制数据并为 Analytics 生成镶木地板输出结果。

  • 对于存储,我选择了 s3 和 Dynamodb。

  • 对于处理引擎,我对如何在 AWS EMR 或 AWS Glue 之间进行选择感到困惑。

  • 数据处理代码库将使用Python和Spark进行维护。

请发表您对选择 AWS EMR 或 AWS Glue 的建议。

apache-spark pyspark binary aws-glue amazon-emr
2个回答
1
投票

这是一个基于意见的问题,现在您拥有 AWS EMR Serverless。

AWS Glue 1)管理性更强,因此受到限制,2)恕我直言,需要考虑架构更改的爬行问题,3)自己对数据帧的解释,4)运行时配置更少,5)无服务器可扩展性的选项更少。似乎有一些错误等不断出现。

AWS EMR 是 1) 一个足够容易配置的 AWS 平台,2) 具有他们认为运行 Spark 的最佳方式的 AWS 风格,3) 在使用动态扩展时随后缩减资源方面的一些限制,4)一个使用 Spark 的平台,因此将有更多的人员可供雇用,5)允许引导非标准提供的软件,并选择标准软件,例如 HBase。

所以,在某种程度上是可比的。并在其他方面有所不同; AWS Glue 是 ETL/ELT,AWS EMR 是具有更多功能的。


0
投票

使用 Glue / EMR 取决于您的用例。

EMR 是一个托管服务器集群,成本低于 Glue,但也需要更多的维护和设置开销。您不仅可以运行 Spark,还可以在 EMR 上运行其他框架,例如 Flink。

Glue 是无服务器 Spark / Python,并且非常易于使用。它不能在最新的 Spark 版本上运行,并且抽象了很多 Spark,从好的方面来说也是坏的方面,即您无法非常轻松地设置特定配置。

© www.soinside.com 2019 - 2024. All rights reserved.