我的理解是AWS Glue中的Dev Endpoints可用于迭代开发代码,然后将其部署到Glue作业。我发现这在开发Spark作业时特别有用,因为每次运行作业时,在后台启动Hadoop集群需要几分钟时间。但是,在Glue中使用Python shell而不是Spark时,我发现存在差异。 Import pg
在我使用Sagemaker JupyterLab Python笔记本创建的Dev Endpoint中不起作用,但在使用Python shell创建作业时在AWS Glue中工作。 Glue中存在的dev端点中是否应该存在相同的库?如果你不能在两个地方重现相同的代码(开发端点和胶水作业),那么拥有一个开发端点有什么意义呢?
首先,Python shell作业不会在后端启动Hadooo Cluster,因为它不会为您的作业提供Spark环境。其次,由于PyGreSQL不是用纯Python编写的,它不适用于Glue的本机环境(Glue Spark Job,Dev端点等)。第三,Python Shell对某些内置包有额外的支持。
因此,我没有看到使用DevEndpoint进行Python Shell作业的重点。