emr 相关问题

Amazon Elastic MapReduce（Amazon EMR）是一项Web服务，使企业，研究人员，数据分析师和开发人员能够轻松且经济高效地处理大量数据。它利用在Amazon Elastic Compute Cloud（Amazon EC2）和Amazon Simple Storage Service（Amazon S3）的Web规模基础架构上运行的托管Hadoop框架。

将 AWS 凭证传递给 PigStorage 函数

如何将 AWS 凭证（aws_access_key 和 aws_secret_key）传递给 PIG PigStorage 函数？谢谢

amazon-web-services apache-pig emr

回答 3 投票 0

如何在 Amazon EMR 上引导安装 Python 模块？

我想做一些非常基本的事情，只需通过 EMR 控制台启动 Spark 集群并运行依赖于 Python 包（例如 Arrow）的 Spark 脚本。什么是最直接的...

python amazon-web-services apache-spark emr

回答 6 投票 0

使用 JsonSerDe 时找不到启动令牌错误

我正在尝试从S3导入JSON数据，并在进行一些查询后，再次将输出以JSON格式导出到S3。但是，我得到“org.apache.hadoop.hive.serde2.SerDeException：java.io。

amazon-web-services hive emr amazon-emr

回答 3 投票 0

EMR 上的 Spark 日志在哪里？

在 EMR 中的 Spark 上运行作业时，我无法从 Scala 中的 println 调用中找到错误日志或消息。我可以在哪里访问这些内容？我正在使用

scala apache-spark emr

回答 6 投票 0

EMR集群CORE节点上的执行器

在EMR集群中我有1个MASTER、1个CORE和4个TASK节点。看来 YARN 不仅在 TASK 节点上而且还在 CORE 节点上创建 CPU 绑定的 SPARK 执行器。有什么办法可以防止它......

hadoop-yarn emr

回答 2 投票 0

在 EMR 上运行 Python Spark

我们在 EMR 上运行 python Spark 作业遇到了困难。 aws emr add-steps --cluster-id j-XXXXXXXX --steps \ 类型=CUSTOM_JAR，名称=“Spark 程序”，\ Jar =“command-runner.jar”，ActionOnFailure = CONT...

apache-spark pyspark emr

回答 2 投票 0

开放EMR和HL7

我对 EMR 和 HL7 非常陌生。我单独安装了 Joomla CMS 和 OpenEMR。我需要 JoomlaCMS 将 HL7 消息发送到 OpenEMR 并通过互联网接收 HL7 中的响应。我不知道...

php joomla hl7 emr

回答 2 投票 0

Spark on 纱线模式以“退出状态：-100。诊断：在*丢失*节点上释放容器”

我正在尝试使用最新的 EMR 加载包含 1TB 数据的数据库以在 AWS 上触发。而且运行时间太长了，连6个小时都没有完成，但是运行了6h30m后，我得到了一些错误

apache-spark hadoop-yarn emr

回答 8 投票 0

Spark 2.0 状态：完成纱线上的退出状态代码 -100

有人可以向我指出有关 -100 退出代码含义的文档吗？ EMR 集群，YARN 上的 Spark 2.0.0（根据 EMR 标准 Spark 集群部署）。我看过 https://www.cloudera.com/documentation/

apache-spark emr

回答 1 投票 0

使用 AWS Data Pipelines 运行计划的 EMR Spark 应用程序的自定义指标

对于我们的项目，我们有一个在 EMR 集群上运行的 spark 应用程序 - 它使用 AWS Data Pipelines 按计划运行。（即实例在应用程序/作业完成后关闭）。我是

amazon-web-services apache-spark emr metrics amazon-cloudwatch

回答 0 投票 0

如何并发运行EMR集群步骤？

你好，我有一个EMR集群。每当我向它提交 "步骤 "时，它都会按顺序运行它们。有什么方法可以同时运行 "步骤 "吗？或者说，合适的用例是将多个集群旋转起来，在 ...

amazon-web-services amazon-ec2 emr

回答 2 投票 7

pyspark的SparkUI-每个阶段对应的代码行？

我在AWS集群上运行了一些pyspark程序。我正在通过Spark UI监视作业（请参见附件）。但是，我注意到与scala或Java spark程序不同，该程序显示每个Stage都是...

apache-spark pyspark emr

回答 1 投票 9

AWS EMR Hadoop管理

我们当前在组织中使用Apache Hadoop（Vanilla版本）。我们正计划迁移到AWS EMR。我试图了解AWS EMR Hadoop在内部如何工作（而不是如何使用它），主要是...

hadoop amazon-web-services emr

回答 2 投票 0

AWS EMR YARN容量调度程序配置

我正在尝试通过引导操作来启动EMR群集，以配置YARN调度程序。这是我用来查找值的文章。 http：//docs.aws.amazon.com/datapipeline/latest/DeveloperGuide / ...

java amazon-web-services emr

回答 1 投票 1

在AWS EMR上运行Spark，如何在主节点上运行驱动程序？

似乎默认情况下，EMR将Spark驱动程序部署到CORE节点之一，导致MASTER节点实际上未被利用。是否可以在MASTER节点上运行驱动程序...

amazon-web-services apache-spark emr

回答 2 投票 10

其中没有“ =”的配置单元分区表的S3文件夹结构

我具有这样的现有S3文件夹结构，s3：// mydata / {country} / {date} / {country}可以是30个不同的国家中的任何一个{date}可以是自20150101起的任何日期在Hive中...

amazon-s3 hive emr

回答 1 投票 2

番石榴/星火问题

我的Spark版本为2.2.0，它在本地运行，但在具有相同版本的EMR上，它具有以下异常。 org.apache.spark.SparkException：作业中止。在org.apache.spark.sql.execution.datasources ....

apache-spark guava emr

回答 1 投票 0

凤凰表上的配置单元查询抛出ColumnNotFoundException

我使用hbase和hive（hive-server2）运行EMR集群。我的ETL管道使用数据创建并填充Phoenix表。如果不存在则创建表UNMAPPED_FACTS（ACCOUNT VARCHAR NOT NULL，...

hadoop hive emr amazon-emr phoenix

回答 1 投票 1

如何设置使用云的形成脚本EMR集群的根设备EBS卷

我想推出使用AWS云的形成脚本的AWS EMR集群。我不能够设置根设备EBS卷的大小。默认情况下，它会创建大小为10 GB的容量。我希望我的群集应当有50 ...

amazon-web-services amazon-cloudformation emr

回答 1 投票 1

AWS EMR星火Python记录

我跑在AWS EMR一个非常简单的Spark的工作，似乎无法从我的脚本中的任何日志输出。我已经与印刷试图标准错误：从pyspark进口SparkContext进口SYS如果__name__ ==” ...

python apache-spark emr

回答 3 投票 14

emr 相关问题

最新问题