我的工作要求是从传感器读取二进制数据并为 Analytics 生成镶木地板输出结果。
对于存储,我选择了 s3 和 Dynamodb。
对于处理引擎,我对如何在 AWS EMR 或 AWS Glue 之间进行选择感到困惑。
数据处理代码库将使用Python和Spark进行维护。
请发表您对选择 AWS EMR 或 AWS Glue 的建议。
这是一个基于意见的问题,现在您拥有 AWS EMR Serverless。
AWS Glue 1)管理性更强,因此受到限制,2)恕我直言,需要考虑架构更改的爬行问题,3)自己对数据帧的解释,4)运行时配置更少,5)无服务器可扩展性的选项更少。似乎有一些错误等不断出现。
AWS EMR 是 1) 一个足够容易配置的 AWS 平台,2) 具有他们认为运行 Spark 的最佳方式的 AWS 风格,3) 在使用动态扩展时随后缩减资源方面的一些限制,4)一个使用 Spark 的平台,因此将有更多的人员可供雇用,5)允许引导非标准提供的软件,并选择标准软件,例如 HBase。
所以,在某种程度上是可比的。并在其他方面有所不同; AWS Glue 是 ETL/ELT,AWS EMR 是具有更多功能的。
使用 Glue / EMR 取决于您的用例。
EMR 是一个托管服务器集群,成本低于 Glue,但也需要更多的维护和设置开销。您不仅可以运行 Spark,还可以在 EMR 上运行其他框架,例如 Flink。
Glue 是无服务器 Spark / Python,并且非常易于使用。它不能在最新的 Spark 版本上运行,并且抽象了很多 Spark,从好的方面来说也是坏的方面,即您无法非常轻松地设置特定配置。