hdfs 相关问题

Hadoop分布式文件系统（HDFS）是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本，并将它们分布在整个集群中的数据节点上，以实现可靠的计算，并计算商用硬件上的大量数据。

如何将端口绑定到local主机？我有一个hadoop defaultfs应用程序在端口8020中运行，如sudo netstat -tulpn | GREP：8020，其中10.44.142.19是内部地址 TCP 0 0 10.44.142.19:8020 ...

显示，其中

linux hdfs port ip-address iptables

回答 0 投票 0

如何删除禁止的。我有HDP Hortonworks 2.5.3群集，纱线中的MapReduce作业因错误而失败： java.io.ioexception：DistCP失败：Job Job_1498784032636_0015 失败的：申请

mapreduce hdfs hadoop-yarn hadoop2 hortonworks-data-platform

回答 2 投票 0

使用临时目录sphark交易写操作

根据Databricks的此博客，Spark依赖于Hadoop的“提交协议”类，因此，如果由于某些故障输出目录没有更改，如果作业未完成（部分输出文件确实...

apache-spark amazon-s3 hdfs

回答 2 投票 0

为什么数据在我的本地目录中不存在？ kubernetes-hadoop-cluster

我对Kubernetes相对较新。我正在使用它来部署群集进行数据处理。我知道可能有更好的实践，因此任何建议都将不胜感激！

kubernetes hadoop hdfs persistent-volumes

回答 0 投票 0

尝试从 HDFS 读取文件时由于连接超时，无法连接到位于 192.168.99.100:50070 的 Hadoop NameNode

尝试从 Python 脚本连接到在 Docker 容器内运行的 Hadoop HDFS 实例时遇到 ConnectTimeout 错误。该脚本应该使用

python docker hadoop hdfs docker-network

回答 1 投票 0

Hadoop Namenode 故障转移过程如何工作？ [已关闭]

Hadoop 权威指南说 - 每个Namenode运行一个轻量级故障转移控制器进程，其它的工作是监视其 Namenode 是否出现故障（使用简单的心跳机制）和触发...

hadoop hdfs hadoop2 failover namenode

回答 1 投票 0

Jupyter Notebook：检查hdfs目录内容

我正在使用Jupyter Notebook，这是我使用过的路径之一： my_df = sqlContext.read.parquet('hdfs://myPath/user/hive/warehouse/myDB.db/myTable/**') 因为我想检查一下发生了什么...

python hadoop hdfs

回答 1 投票 0

如何让hadoop put创建不存在的目录

我一直在使用Cloudera的hadoop（0.20.2）。在这个版本中，如果我将一个文件放入文件系统，但目录结构不存在，它会自动创建父目录： ...

hadoop hdfs cloudera put biginsights

回答 5 投票 0

错误：在 Jakarta EE 中使用 Kerberos 连接到 HDFS 时，`callbackHandler` 可能不为空

我正在尝试在 JakartaEE 应用程序中使用 Kerberos 身份验证连接到 HDFS。连接代码似乎设置正确，但我在尝试时遇到以下错误...

java hadoop jakarta-ee hdfs kerberos

回答 1 投票 0

Spark 由于多个 ExecutorLostFailure 而在 dropDuplicates() 处失败

我在 HDFS 上存储了 479 个 parquet 文件（每个文件约 120 MB，总共略多于 20 亿条记录），我试图确定此数据集的最佳 Spark 配置，但我无法

apache-spark hadoop pyspark hdfs

回答 1 投票 0

使用 Spark 高效读取 PDF/文本/Word 文件

我正在对我的数据进行NLP（自然语言处理）处理。数据采用文件形式，可以是 PDF/Text/Word/HTML 类型。这些文件存储在 lo...

java apache-spark hdfs file-format

回答 2 投票 0

Flume + Kafka + HDFS：消息分割

我有以下 Flume 代理配置来从 kafka 源读取消息并将其写回 HDFS 接收器 tier1.sources = 源1 第 1 层.channels = 通道 1 tier1.sinks = 水槽1 1 级。

hadoop hdfs apache-kafka avro flume

回答 1 投票 0

在 docker 上运行的 Spark 和 HDFS 集群

我正在尝试设置一个在本地计算机上运行的 Spark 应用程序，以连接到 HDFS 集群，其中 NameNode 在 Docker 容器内运行。以下是我的设置的相关详细信息：

docker apache-spark hadoop hdfs

回答 1 投票 0

有没有办法使用 Pydoop 将数据附加到 hdfs 文件？

我正在尝试使用 python 将对象的内容写入 hdfs 中的文件。为此，我找到了一个用 python 实现的 hdfs API，名为 Pydoop。阅读 API，我可以轻松使用 p 的 dump() 方法...

python hadoop hdfs

回答 2 投票 0

如何使用 Docker 在 Windows 上设置 Apache Impala？

任何人都可以帮助我提供分步指南或 docker-compose.yml 文件，该文件可用于设置 Apache Impala 及其所需的服务（例如，Impala Daemon、State Store、Catalog Service、HDF）。 ..

docker hdfs impala

回答 1 投票 0

Apache NiFi 2.0.0 中缺少 PutHDFS 处理器

我使用的是 Apache NiFi 2.0.0，不幸的是它不包括 PutHDFS 处理器。我的项目需要这个版本的 NiFi，因为它具有与 Python 脚本的集成功能，所以升级...

hadoop hdfs apache-nifi

回答 1 投票 0

Apache Nifi：Puthdfs 处理器 - 复制到 0 个节点，而不是 minReplication (= 1)。有 1 个数据节点正在运行，1 个节点被排除

我正在使用 Apache NIFI 1.28 版本，我正在尝试创建一个简约的数据流，我在其中生成数据并希望在 HDP（Hortonworks 数据平台）2.5.0 中摄取 HDFS，我正在...

java hadoop hdfs

回答 1 投票 0

Apache Nifi：PutHDFS 处理器问题 - PutHDFS 无法写入 HDFS java.lang.NoClassDefFoundError：org/apache/hadoop/conf/Configurable

我正在使用 Apache NIFI 1.28 版本，我正在尝试创建一个简约的数据流，我在其中生成数据并希望在 HDP（Hortonworks 数据平台）2.5.0 中摄取 HDFS，我正在...

java hadoop hdfs apache-nifi

回答 1 投票 0

如何检查namenode返回哪个HDFS datanode ip到spark？

如果我在 PySpark 中读取/写入数据帧并指定 HDFS 名称节点主机名和端口： df.write.parquet("hdfs://namenode:8020/test/go", mode="覆盖") 有什么办法

apache-spark hadoop pyspark apache-spark-sql hdfs

回答 1 投票 0

在 Spark SQL 中编写 SQL 与使用 Dataframe API

我是 Spark SQL 世界的新手。我目前正在迁移应用程序的摄取代码，其中包括阶段摄取数据、HDFS 中的原始层和应用程序层以及进行 CDC（更改数据捕获），

apache-spark pyspark apache-spark-sql hive hdfs

回答 4 投票 0

hdfs 相关问题

最新问题