Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。
早上好,我想创建一个从某个 URL 到我的 HDFS 的 Nifi 流。我使用我的个人构建和 Dockerfile 在本地创建了 HDFS 集群,它正在工作,但是当我尝试使用
在生产环境中部署时如何读取项目中的db.properties文件或任何其他conf文件......在scala Spark YARN HDFS中
在生产环境中部署时如何读取项目中的 db.properties 文件或任何其他 conf 文件......在 scala Spark Yarn HDFS 中...... 我收到这个错误... 2009 年 5 月 24 日 16:34:32 信息 客户: ...
Spark 基于多个分区(即 DATE_KEY 和 BASE_FEED)读取镶木地板文件
我正在使用 PySpark 从按 DATE_KEY 分区的 HDFS 位置读取镶木地板文件。以下代码始终从 MAX(DATE_KEY) 分区读取文件并转换为 Polars 数据帧。 定义
我正在使用org.apache.hadoop.fs来检查HDFS中的目录是否为空。我查找了 FileSystem api,但找不到任何接近它的东西。基本上我想检查目录是否...
我想将HDFS的目录名与awk结合起来。这可行吗?目录名,而不是文件名。 这是我在本地的 awk 工作正常: awk 'NR <= 1000 && FNR == 1{print
我对 Hive 存储数据的位置有点困惑。 它将数据存储在 HDFS 还是 RDBMS 中? Hive Metastore 是否使用 RDBMS 来存储 Hive 表元数据?
我正在使用logstash 将 HDFS 审核日志消息填充到 Kafka 主题中。 我在 Kafka 主题中收到的示例消息具有以下格式: allowed=true ugi={myuser} (auth:SIMPLE) ip={/x.x.x...
有没有办法扫描本地文件系统以查找特定文件夹中的更改,就像使用 HDFS (GitHub 示例)一样?使用常规路径或带有 hdfs:// 的 URI 运行它似乎可以工作,但是使用...
运行 Spark-shell 时出现错误:SparkContext:初始化 SparkContext 时出错
我在三个节点上成功安装了spark。我可以访问 Spark Web UI 并发现每个工作节点和主节点都处于活动状态。 我可以成功运行 SparkPi 示例。 我的集群信息: 10.45.10.33(
我想将 .sas7bdat 文件转换为 .csv/txt 格式,以便我可以将其上传到配置单元表中。 我从外部服务器接收 .sas7bdat 文件,但我的计算机上没有 SAS。
当使用下面的命令将数据帧保存在 HDFS 上时,我尝试在数据帧上应用分桶。 df.写入 .format("镶木地板") .bucketBy(200,"groupIdProjection") .sortBy("
我正在尝试制作一个Map-reduce程序,它将执行2个周期。第一个映射缩减周期将创建一个包含 2 个键|值对的文件。然后我需要在
我正在尝试从带有分区的镶木地板文件创建一个配置单元表。 创建外部表 a(col1 string, col2 string),由 (col3 string) 分区,存储为镶木地板位置 '/qa/app/project/'; 微软
任何人都可以帮我解决这个问题,同时尝试在ubuntu上安装hadoop吗?
当我尝试在 ubuntu 上安装 hadoop 时,我已经收到这个错误很长时间了。 :~/hadoop$ bin/hdfs namenode -format 无法识别的选项:- 错误:无法创建 Java 虚拟机....
HDFS 由于“状态备用时不支持操作类别 WRITE”而出现许多坏块 - 了解为什么 datanode 找不到 Active NameNode
最近我想将集群从2.6.5升级到3.1.3,但失败了。所以我将版本回滚到旧版本。但是发生了一些奇怪的事情。我们集群的datanode无法将块的情况报告给...
使用正则表达式分隔符将数据加载到 Hive 表时获取额外的空值
我在hdfs上的一个文件中有以下5行数据。我想将其加载到表中。我有正则表达式可以做到这一点,但它为每行数据加载一行额外的空值。有谁知道吗...
安装hadoop时出现“HADOOP_COMMON_HOME”错误
我第一次在 VMFusion 上的 Ubuntu 18.04 上安装 hadoop (3.2.2)。在安装结束时,当我运行“hdfs namenode -format”时,它显示:错误:无效的 HADOOP_COMMON_HOME。 这是...
HDFS存储支持压缩格式来存储压缩文件。我知道 gzip 压缩不支持夹板。现在想象一下该文件是一个 gzip 压缩文件,其压缩大小为 1 G...
配置在windows上运行的pentaho 9.3来访问linux上的hadoop集群和目录
我已经在 Linux 上的两个节点集群上安装了 Hadoop,并且它运行完美,在 3 个虚拟机上,我在 Windows 上安装了 Pentaho,我正在尝试创建与集群的连接,但是...
我正在尝试连接到远程计算机上运行的 HDFS 实例。 我在 Windows 机器上运行 eclipse,而 HDFS 在 Unix 机器上运行。这是我尝试过的 配置...