Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。
我正在使用logstash 将 HDFS 审核日志消息填充到 Kafka 主题中。 我在 Kafka 主题中收到的示例消息具有以下格式: allowed=true ugi={myuser} (auth:SIMPLE) ip={/x.x.x...
有没有办法扫描本地文件系统以查找特定文件夹中的更改,就像使用 HDFS (GitHub 示例)一样?使用常规路径或带有 hdfs:// 的 URI 运行它似乎可以工作,但是使用...
运行 Spark-shell 时出现错误:SparkContext:初始化 SparkContext 时出错
我在三个节点上成功安装了spark。我可以访问 Spark Web UI 并发现每个工作节点和主节点都处于活动状态。 我可以成功运行 SparkPi 示例。 我的集群信息: 10.45.10.33(
我想将 .sas7bdat 文件转换为 .csv/txt 格式,以便我可以将其上传到配置单元表中。 我从外部服务器接收 .sas7bdat 文件,但我的计算机上没有 SAS。
当使用下面的命令将数据帧保存在 HDFS 上时,我尝试在数据帧上应用分桶。 df.写入 .format("镶木地板") .bucketBy(200,"groupIdProjection") .sortBy("
我正在尝试制作一个Map-reduce程序,它将执行2个周期。第一个映射缩减周期将创建一个包含 2 个键|值对的文件。然后我需要在
我正在尝试从带有分区的镶木地板文件创建一个配置单元表。 创建外部表 a(col1 string, col2 string),由 (col3 string) 分区,存储为镶木地板位置 '/qa/app/project/'; 微软
任何人都可以帮我解决这个问题,同时尝试在ubuntu上安装hadoop吗?
当我尝试在 ubuntu 上安装 hadoop 时,我已经收到这个错误很长时间了。 :~/hadoop$ bin/hdfs namenode -format 无法识别的选项:- 错误:无法创建 Java 虚拟机....
HDFS 由于“状态备用时不支持操作类别 WRITE”而出现许多坏块 - 了解为什么 datanode 找不到 Active NameNode
最近我想将集群从2.6.5升级到3.1.3,但失败了。所以我将版本回滚到旧版本。但是发生了一些奇怪的事情。我们集群的datanode无法将块的情况报告给...
使用正则表达式分隔符将数据加载到 Hive 表时获取额外的空值
我在hdfs上的一个文件中有以下5行数据。我想将其加载到表中。我有正则表达式可以做到这一点,但它为每行数据加载一行额外的空值。有谁知道吗...
安装hadoop时出现“HADOOP_COMMON_HOME”错误
我第一次在 VMFusion 上的 Ubuntu 18.04 上安装 hadoop (3.2.2)。在安装结束时,当我运行“hdfs namenode -format”时,它显示:错误:无效的 HADOOP_COMMON_HOME。 这是...
HDFS存储支持压缩格式来存储压缩文件。我知道 gzip 压缩不支持夹板。现在想象一下该文件是一个 gzip 压缩文件,其压缩大小为 1 G...
配置在windows上运行的pentaho 9.3来访问linux上的hadoop集群和目录
我已经在 Linux 上的两个节点集群上安装了 Hadoop,并且它运行完美,在 3 个虚拟机上,我在 Windows 上安装了 Pentaho,我正在尝试创建与集群的连接,但是...
我正在尝试连接到远程计算机上运行的 HDFS 实例。 我在 Windows 机器上运行 eclipse,而 HDFS 在 Unix 机器上运行。这是我尝试过的 配置...
我正在本地 Windows 计算机上安装 HDFS。我遵循的安装指南是 https://github.com/MuhammadBilalYar/Hadoop-On-Window/wiki/Step-by-step-Hadoop-2.8.0-installation-on-Window...
我正在尝试使用 org/apache/lucene/misc/IndexMergeTool 将两个 Solr 核心索引合并到新索引中。 所有索引都保存在 HDFS 上的路径 /apps/solr/data/collection_name/data/index 下。 所以我创造了...
如何使用linux或hdfs命令将多个parquet文件合并为单个parquet文件?
我生成了多个小 parquet 文件作为 hive ql 作业的输出,我想将输出文件合并到单个 parquet 文件吗? 使用 hdfs 或 linux 命令执行此操作的最佳方法是什么...
我正在为 Hadoop 构建自动安装脚本,但遇到了 HBase 无法启动的问题,因为 HDFS 尚未完全启动并准备就绪。我如何以编程方式(从 Bash、ide...
我被问到以下问题。 面试官:如何恢复hdfs中删除的文件。 我:我们可以从垃圾目录复制/移回原始目录。 采访者:除了...还有其他办法吗
MOD10A1 NDSI 积雪层中 100 到 200 的值意味着什么?
我正在使用 MODIS 积雪产品 (MOD10A1),无法理解返回的一些值。我正在尝试从 NDSI 获取积雪覆盖百分比(归一化积雪指数差异...