emr 相关问题

Amazon Elastic MapReduce(Amazon EMR)是一项Web服务,使企业,研究人员,数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Simple Storage Service(Amazon S3)的Web规模基础架构上运行的托管Hadoop框架。

将 AWS 凭证传递给 PigStorage 函数

如何将 AWS 凭证(aws_access_key 和 aws_secret_key)传递给 PIG PigStorage 函数? 谢谢

回答 3 投票 0

如何在 Amazon EMR 上引导安装 Python 模块?

我想做一些非常基本的事情,只需通过 EMR 控制台启动 Spark 集群并运行依赖于 Python 包(例如 Arrow)的 Spark 脚本。什么是最直接的...

回答 6 投票 0

使用 JsonSerDe 时找不到启动令牌错误

我正在尝试从S3导入JSON数据,并在进行一些查询后,再次将输出以JSON格式导出到S3。但是,我得到“org.apache.hadoop.hive.serde2.SerDeException:java.io。

回答 3 投票 0

EMR 上的 Spark 日志在哪里?

在 EMR 中的 Spark 上运行作业时,我无法从 Scala 中的 println 调用中找到错误日志或消息。 我可以在哪里访问这些内容? 我正在使用

回答 6 投票 0

EMR集群CORE节点上的执行器

在EMR集群中我有1个MASTER、1个CORE和4个TASK节点。看来 YARN 不仅在 TASK 节点上而且还在 CORE 节点上创建 CPU 绑定的 SPARK 执行器。有什么办法可以防止它......

回答 2 投票 0

在 EMR 上运行 Python Spark

我们在 EMR 上运行 python Spark 作业遇到了困难。 aws emr add-steps --cluster-id j-XXXXXXXX --steps \ 类型=CUSTOM_JAR,名称=“Spark 程序”,\ Jar =“command-runner.jar”,ActionOnFailure = CONT...

回答 2 投票 0

开放EMR和HL7

我对 EMR 和 HL7 非常陌生。 我单独安装了 Joomla CMS 和 OpenEMR。我需要 JoomlaCMS 将 HL7 消息发送到 OpenEMR 并通过互联网接收 HL7 中的响应。 我不知道...

回答 2 投票 0

Spark on 纱线模式以“退出状态:-100。诊断:在*丢失*节点上释放容器”

我正在尝试使用最新的 EMR 加载包含 1TB 数据的数据库以在 AWS 上触发。而且运行时间太长了,连6个小时都没有完成,但是运行了6h30m后,我得到了一些错误

回答 8 投票 0

Spark 2.0 状态:完成 纱线上的退出状态代码 -100

有人可以向我指出有关 -100 退出代码含义的文档吗? EMR 集群,YARN 上的 Spark 2.0.0(根据 EMR 标准 Spark 集群部署)。我看过 https://www.cloudera.com/documentation/

回答 1 投票 0

使用 AWS Data Pipelines 运行计划的 EMR Spark 应用程序的自定义指标

对于我们的项目,我们有一个在 EMR 集群上运行的 spark 应用程序 - 它使用 AWS Data Pipelines 按计划运行。 (即实例在应用程序/作业完成后关闭)。我是

回答 0 投票 0

如何并发运行EMR集群步骤?

你好,我有一个EMR集群。每当我向它提交 "步骤 "时,它都会按顺序运行它们。有什么方法可以同时运行 "步骤 "吗?或者说,合适的用例是将多个集群旋转起来,在 ...

回答 2 投票 7

pyspark的SparkUI-每个阶段对应的代码行?

我在AWS集群上运行了一些pyspark程序。我正在通过Spark UI监视作业(请参见附件)。但是,我注意到与scala或Java spark程序不同,该程序显示每个Stage都是...

回答 1 投票 9

AWS EMR Hadoop管理

我们当前在组织中使用Apache Hadoop(Vanilla版本)。我们正计划迁移到AWS EMR。我试图了解AWS EMR Hadoop在内部如何工作(而不是如何使用它),主要是...

回答 2 投票 0

AWS EMR YARN容量调度程序配置

我正在尝试通过引导操作来启动EMR群集,以配置YARN调度程序。这是我用来查找值的文章。 http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide / ...

回答 1 投票 1

在AWS EMR上运行Spark,如何在主节点上运行驱动程序?

似乎默认情况下,EMR将Spark驱动程序部署到CORE节点之一,导致MASTER节点实际上未被利用。是否可以在MASTER节点上运行驱动程序...

回答 2 投票 10

其中没有“ =”的配置单元分区表的S3文件夹结构

我具有这样的现有S3文件夹结构,s3:// mydata / {country} / {date} / {country}可以是30个不同的国家中的任何一个{date}可以是自20150101起的任何日期在Hive中...

回答 1 投票 2

番石榴/星火问题

我的Spark版本为2.2.0,它在本地运行,但在具有相同版本的EMR上,它具有以下异常。 org.apache.spark.SparkException:作业中止。在org.apache.spark.sql.execution.datasources ....

回答 1 投票 0

凤凰表上的配置单元查询抛出ColumnNotFoundException

我使用hbase和hive(hive-server2)运行EMR集群。我的ETL管道使用数据创建并填充Phoenix表。如果不存在则创建表UNMAPPED_FACTS(ACCOUNT VARCHAR NOT NULL,...

回答 1 投票 1

如何设置使用云的形成脚本EMR集群的根设备EBS卷

我想推出使用AWS云的形成脚本的AWS EMR集群。我不能够设置根设备EBS卷的大小。默认情况下,它会创建大小为10 GB的容量。我希望我的群集应当有50 ...

回答 1 投票 1

AWS EMR星火Python记录

我跑在AWS EMR一个非常简单的Spark的工作,似乎无法从我的脚本中的任何日志输出。我已经与印刷试图标准错误:从pyspark进口SparkContext进口SYS如果__name__ ==” ...

回答 3 投票 14

© www.soinside.com 2019 - 2024. All rights reserved.