hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

Apache Spark:如何取消代码中的作业并终止正在运行的任务?

我正在 Hadoop 集群上运行 Spark 应用程序(版本 1.6.0),并在客户端模式下使用 Yarn(版本 2.6.0)。我有一段运行长时间计算的代码,如果需要的话我想杀死它......

回答 3 投票 0

用于 Spark 提交的本地或远程 jar

我有一个在yarn-client(客户端驱动程序)中运行的spark-submit作业,除其他功能外,它还通过Kafka读取和发送消息。 在我的集群上,只有 Kafka 代理节点有 Kafka jar ...

回答 2 投票 0

使用合并(1)时出现java.lang.OutOfMemoryError

我正在尝试通过以下方式保存rdd, data.coalesce(1).saveAsTextFile(outputPath) 但我收到 java.lang.OutOfMemoryError: 无法获取 76 字节内存,得到 0 有人遇到过SIM卡吗...

回答 1 投票 0

pyspark 映射问题 - 拆分后索引超出范围

当尝试将 6 列 pyspark RDD 映射到 4d 元组时,除了返回正常结果的 0 之外,任何列表元素都会出现列表超出范围错误。 数据集的结构如下: X,Y,...

回答 1 投票 0

将mapreduce作业从windows提交到hadoop 2.2到ubuntu时出现UnsatisfiedLinkError (NativeIO$Windows.access0)

我将 MapReduce 作业从 Windows 上运行的 Java 应用程序提交到 ubuntu 上运行的 hadoop 2.2 集群。在 hadoop 1.x 中,这按预期工作,但在 hadoop 2.2 上,我收到一个奇怪的错误: java.

回答 4 投票 0

无法在master上启动节点管理器

我正在设置一个 Hadoop YARN 集群,并且使用一台机器作为主设备和从设备。当我使用以下命令启动 YARN 时,它会在从属设备上启动节点管理器,但不会在主机上启动...

回答 3 投票 0

hadoop.tmp.dir 应该是什么?

Hadoop 有配置参数 hadoop.tmp.dir,根据文档,它是“其他临时目录的基础”。我想,这个路径是指本地文件系统。 我将此值设置为...

回答 4 投票 0

java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V

2024-05-31 22:47:36.939[0;39m [32m 信息[0;39m [35m10452[0;39m [2m---[0;39m [2m[ 主]][0;39m [36ms .s.e.d.SQLHadoopMapReduceCommitProtocol[0;39m [2m:[0;39m 使用输出提交者类组织....

回答 1 投票 0

NoClassDefFoundError:org/apache/parquet/conf/ParquetConfiguration

我正在尝试从java文件系统中读取镶木地板文件: 公共静态无效主(字符串[] args)抛出IOException { 字符串路径 = "a.parquet"; var apr=新 AvroParquetReader<

回答 1 投票 0

将TO_CHAR、IS_DATE转换为hive查询

我想将特定数据转换到Hive。 但是,Oracle 中提供的功能无法在 Hive 中使用。我该如何解决这个问题? 应用的转换规则如下。 解码(TRUE,IS_DATE(TO_CHAR(

回答 2 投票 0

错误:spark-shell \Spark in\..' 此时出乎意料

我正在使用 Windows 10。 想要在我的机器上安装 Apache Spark。 官方下载页面在这里。 我按照文章在此处完成了 Apache Spark 安装。 我做了什么 : 安装/添加

回答 1 投票 0

从kafka读取数据并写入hadoop/hbase/hive/spark堆栈批量处理

我有一个技术堆栈,其中 Hadoop 作为原始数据的分布式存储,HBase 作为在 Hadoop 和 HDFS 之上运行的 NoSQL 数据库,Hive 作为 Hive 之上的 RDBMS 数据仓库,用于应用程序...

回答 1 投票 0

如何判断hadoop namenode是否已经格式化?

第一次配置我的hadoop namenode时,我知道我需要运行 bin/hadoop namenode -格式 但在将数据加载到 HDFS 后,第二次运行此操作将清除所有内容,

回答 2 投票 0

Hadoop:权限被拒绝(公钥、密码、键盘交互)

在安装 Hadoop 时,我遇到了很多错误,但这个错误就是无法解决。无论我做什么,它都会一次又一次地弹出。一旦我通过命令 ./start-all.sh 启动 Hadoop,我就会得到

回答 3 投票 0

在“start-dfs.sh”之后出现错误“权限被拒绝(公钥,密码)”

这个问题之前被问过几次,我尝试了所有建议的解决方案来生成无密码密钥,但无济于事。可能需要做一些不同的事情,就像在......上执行此操作时一样

回答 2 投票 0

本地主机:prathviraj18@localhost:权限被拒绝(公钥,密码)

prathviraj18@prathviraj18:~$ start-dfs.sh 在 [localhost] 上启动名称节点 本地主机:prathviraj18@localhost:权限被拒绝(公钥、密码)。 启动数据节点 本地主机:prathviraj18@loc...

回答 3 投票 0

如何在Hadoop上使用运行时分区

我在hadoop中有两个parquet数据源,它们都有运行时过滤器。 我有一个查询,它将每个表中的一些数据连接到一个结果集中。 每桌都有一个烤箱...

回答 1 投票 0

Docker - Hive 出现 Postgres 错误

我已经设置了三个联网的容器,因为我想将 Hadoop 和 Hive 与 PostgreSQL 一起使用。您可以通过 https://github.com/jcool12/hadoop-docker/tree/main/hi... 访问 Docker 设置

回答 1 投票 0

一台机器启动spark-shell成功,另一台机器启动失败

机器和spark集群都在同一个本地网络中。 我的一台机器 0.0.0.99 已经与 Spark 集群连接。 由于业务需要,我们不得不使用另一...

回答 1 投票 0

停用hdfs中的数据节点

我在 Apache hdfs 中有一些复制因子为 1 的数据节点,想要停用其中一些节点,并且不想丢失存储在其中的数据。 由于数据量太大,无法下载数据...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.