Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。
根据Databricks的此博客,Spark依赖于Hadoop的“提交协议”类,因此,如果由于某些故障输出目录没有更改,如果作业未完成(部分输出文件确实...
为什么数据在我的本地目录中不存在? kubernetes-hadoop-cluster
我对Kubernetes相对较新。我正在使用它来部署群集进行数据处理。我知道可能有更好的实践,因此任何建议都将不胜感激!
尝试从 HDFS 读取文件时由于连接超时,无法连接到位于 192.168.99.100:50070 的 Hadoop NameNode
尝试从 Python 脚本连接到在 Docker 容器内运行的 Hadoop HDFS 实例时遇到 ConnectTimeout 错误。该脚本应该使用
Hadoop Namenode 故障转移过程如何工作? [已关闭]
Hadoop 权威指南说 - 每个Namenode运行一个轻量级故障转移控制器进程,其 它的工作是监视其 Namenode 是否出现故障(使用简单的 心跳机制)和触发...
我正在使用Jupyter Notebook,这是我使用过的路径之一: my_df = sqlContext.read.parquet('hdfs://myPath/user/hive/warehouse/myDB.db/myTable/**') 因为我想检查一下发生了什么...
我一直在使用Cloudera的hadoop(0.20.2)。 在这个版本中,如果我将一个文件放入文件系统,但目录结构不存在,它会自动创建父目录: ...
错误:在 Jakarta EE 中使用 Kerberos 连接到 HDFS 时,`callbackHandler` 可能不为空
我正在尝试在 JakartaEE 应用程序中使用 Kerberos 身份验证连接到 HDFS。连接代码似乎设置正确,但我在尝试时遇到以下错误...
Spark 由于多个 ExecutorLostFailure 而在 dropDuplicates() 处失败
我在 HDFS 上存储了 479 个 parquet 文件(每个文件约 120 MB,总共略多于 20 亿条记录),我试图确定此数据集的最佳 Spark 配置,但我无法
我正在对我的数据进行NLP(自然语言处理)处理。数据采用文件形式,可以是 PDF/Text/Word/HTML 类型。这些文件存储在 lo...
我有以下 Flume 代理配置来从 kafka 源读取消息并将其写回 HDFS 接收器 tier1.sources = 源1 第 1 层.channels = 通道 1 tier1.sinks = 水槽1 1 级。
我正在尝试设置一个在本地计算机上运行的 Spark 应用程序,以连接到 HDFS 集群,其中 NameNode 在 Docker 容器内运行。 以下是我的设置的相关详细信息:
有没有办法使用 Pydoop 将数据附加到 hdfs 文件?
我正在尝试使用 python 将对象的内容写入 hdfs 中的文件。为此,我找到了一个用 python 实现的 hdfs API,名为 Pydoop。阅读 API,我可以轻松使用 p 的 dump() 方法...
如何使用 Docker 在 Windows 上设置 Apache Impala?
任何人都可以帮助我提供分步指南或 docker-compose.yml 文件,该文件可用于设置 Apache Impala 及其所需的服务(例如,Impala Daemon、State Store、Catalog Service、HDF)。 ..
Apache NiFi 2.0.0 中缺少 PutHDFS 处理器
我使用的是 Apache NiFi 2.0.0,不幸的是它不包括 PutHDFS 处理器。我的项目需要这个版本的 NiFi,因为它具有与 Python 脚本的集成功能,所以升级...
Apache Nifi:Puthdfs 处理器 - 复制到 0 个节点,而不是 minReplication (= 1)。有 1 个数据节点正在运行,1 个节点被排除
我正在使用 Apache NIFI 1.28 版本,我正在尝试创建一个简约的数据流,我在其中生成数据并希望在 HDP(Hortonworks 数据平台)2.5.0 中摄取 HDFS,我正在...
我正在使用 Apache NIFI 1.28 版本,我正在尝试创建一个简约的数据流,我在其中生成数据并希望在 HDP(Hortonworks 数据平台)2.5.0 中摄取 HDFS,我正在...
如何检查namenode返回哪个HDFS datanode ip到spark?
如果我在 PySpark 中读取/写入数据帧并指定 HDFS 名称节点主机名和端口: df.write.parquet("hdfs://namenode:8020/test/go", mode="覆盖") 有什么办法
在 Spark SQL 中编写 SQL 与使用 Dataframe API
我是 Spark SQL 世界的新手。我目前正在迁移应用程序的摄取代码,其中包括阶段摄取数据、HDFS 中的原始层和应用程序层以及进行 CDC(更改数据捕获),