hdfs 相关问题

Hadoop分布式文件系统（HDFS）是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本，并将它们分布在整个集群中的数据节点上，以实现可靠的计算，并计算商用硬件上的大量数据。

为什么元数据消耗大量存储以及如何优化？

我在基于 HDFS 的数据湖上使用 PySpark 和 Apache Iceberg，并且遇到了严重的存储问题。我的应用程序每秒都会摄取实时数据。大约2小时后，我...

apache-spark pyspark hdfs streaming apache-iceberg

回答 1 投票 0

如何在Ubuntu中编译并执行这个JAVA应用程序？

src/hdfs 中有一个 Hdfs.java，lib 中有一个实用程序 jar 文件。使用实用程序 jar 编译 Hdfs.java 时给出的选项是什么？我该如何执行？我走过...

java ubuntu hdfs javac

回答 2 投票 0

在集群中的执行器上运行 python 脚本 [Scala/Spark]

我有python脚本：导入系统对于 sys.stdin 中的行：打印（“你好”+行）我在集群中的工作人员上运行它： def run(spark: SparkSession) = { val data = List("约翰"...

python scala apache-spark hadoop hdfs

回答 1 投票 0

将猪结果存储在文本文件中

我想将结果存储在文本文件中并按我想要的名称命名。是否可以使用 STORE 功能来做到这一点？我的代码： a = 使用 PigStorage(';') 加载 'example.csv'; b = FOREACH a 生成 $0,$1,$2...

hadoop apache-pig hdfs bigdata

回答 2 投票 0

无法通过 Hadoop Web 界面将已删除的文件移至垃圾箱

我在 Hadoop-3.3.6 Web 界面中遇到了有关文件删除的问题。默认情况下，当我通过 Hadoop Web 界面删除文件时，它们将被永久删除并且不会消失...

hadoop hdfs webhdfs recycle-bin

回答 1 投票 0

.gz 文件是不可分割的。但如果我将它们放在 HDFS 中，它们会根据块大小创建多个块

我们都知道.gz是不可分割的，这意味着只有单核可以读取它。这意味着，当我将一个巨大的 .gz 文件放在 HDFS 上时，它实际上应该作为单个块存在。我看到它正在变得 sp...

apache-spark hadoop split hdfs

回答 1 投票 0

hdfs dfs -mkdir 没有这样的文件或目录

我是hadoop新手，我正在尝试在hdfs中创建一个名为input_dir的目录。我已经设置了我的虚拟机，安装并成功启动了hadoop。这是我运行的命令： hdfs dfs -mkdir 输入...

hadoop hdfs

回答 1 投票 0

将hadoop HDFS与Snowflake集成

我正在构建个人项目，但我陷入困境。具体来说，在编写 Spark 作业来处理和转换数据后，我将数据加载到 hadoop HDFS 中。然后我想把hdfs连接到snowflake上，然后...

apache-spark snowflake-cloud-data-platform hdfs

回答 1 投票 0

从 Cloudera Impala (HDFS) 到 Vertica 的数据迁移

我正在尝试执行从HDFS（Cloudera Impala）到Vertica数据库的数据迁移。有什么办法可以加快数据传输速度吗？我已经看到 CDataSync 可能是一个合适的工具，但我不能

database data-science hdfs vertica data-migration

回答 1 投票 0

如何将 CSV 中的数据加载到 impala 的外部表中

我正在按照此解决方案将外部表加载到 Impala 中，因为如果通过引用文件加载数据，我会得到相同的错误。所以，如果我运行： [quickstart.cloudera:21000] > 创建外部

hdfs impala

回答 2 投票 0

fsimage hdfs 的内容

我有一个关于 fsimage 中的元数据是什么的问题。我读到文件系统名称空间的所有突变，例如文件重命名、权限更改、文件创建、块分配...

apache hadoop hdfs

回答 4 投票 0

hadoop HA 与 qjm 错误安装

这是我第一次使用 qjs 安装 Hadoop HA，至少整整一周我都遇到了很多麻烦。实验室设置如下 10.0.0.10 动物园1 solr1 had1 10.0.0.11 动物园2 solr2 had2 10....

hadoop solr hdfs

回答 1 投票 0

使用 Hive 和 Hadoop 设置 Presto：加载 Hadoop 本机库时出错

我正在尝试在 Hive 也已启动并运行的机器上配置单节点 Presto，还安装了 3 节点 Hadoop 集群并在单独的 3 台机器上运行。以下是我的配置...

hadoop hive hdfs presto

回答 1 投票 0

从 HDP 非安全集群迁移到 CDP 安全集群

我们正在将 HDFS 数据从 HDP 非安全集群迁移到 CDP 安全集群，当我阅读 Cloudera 文档时，他们提到“distcp”作为处理

migration hdfs cloudera hdp cloudera-cdp

回答 2 投票 0

hadoop 将本地文件系统文件夹复制到 HDFS

我需要将一个文件夹从本地文件系统复制到HDFS。我找不到任何将文件夹（包括其所有子文件夹）移动到 HDFS 的示例 $ hadoop fs -copyFromLocal /home/ubuntu/Source-Folder-To-

hadoop hdfs

回答 8 投票 0

HDFS：尝试编辑已挂载的 NFS 卷中的现有文件时出现错误 22

总结：我在 OSX 中安装了 HDFS nfs 卷，它不允许我编辑现有文件。我可以附加和创建包含内容的文件，但不能“使用写入标志打开它们”。本来我问的是...

hadoop hdfs nfs jupyter-lab

回答 1 投票 0

HDFS 数据节点：无法将主机名解析为 IP 地址

我正在使用 Docker、VirtualBox 和 Ubuntu 24.04 配置带有 Hadoop 生态系统的虚拟机。目前，我正在使用 docker-compose.yaml 来运行多个服务，包括 namenode、datanode、

docker hadoop docker-compose hdfs

回答 1 投票 0

配置spark默认从hdfs读取数据

我已经安装了HDFS和Spark。但是，如何配置 Spark 默认从 hdfs://localhost:9000/ 读取？目前，要将文件加载到 Spark DataFrame 中，我需要编写spark.read.load(&...

apache-spark hadoop hdfs

回答 1 投票 0

Hadoop HDFS - 丢失副本和复制块之间的区别

我知道复制不足的块和错误复制的块都是由于相对于复制因子集而言数据节点数较少而发生的。但它们之间有什么区别呢？重新设置时...

hadoop hdfs fsck

回答 2 投票 0

从 hadoop 访问亚马逊 S3 存储桶，并从命令行指定 SecretAccessKey

我正在尝试使用 hdfs 命令访问亚马逊 S3 存储桶。这是我运行的命令： $ hadoop fs -ls s3n://:@/tpt_files/ -ls：无效

amazon-web-services hadoop amazon-s3 hdfs

回答 2 投票 0

hdfs 相关问题

最新问题