hdfs 相关问题

Hadoop分布式文件系统(HDFS)是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本,并将它们分布在整个集群中的数据节点上,以实现可靠的计算,并计算商用硬件上的大量数据。

HDFS 中的数据节点与 Spark 集群中的执行器节点相同吗?

我正在学习 Apache Spark 和 HDFS。尽管我对一件事感到困惑,但我大部分都理解它们。我的问题是:HDFS中的数据节点和执行器是一样的吗

回答 4 投票 0

如何指定hdfs命令行的日志级别?

我希望在启动 hdfs 命令时有更多日志。但是,我不知道如何指定日志级别,或者即使可以。 我测试了几种解决方案: Hadoop 2.7.0 文档 --log...

回答 1 投票 0

使用 apache hadoop 安装/配置 apache ambari 有问题吗?

我已经安装并配置了一个4节点的hadoop集群。现在我想用hadoop集群配置apache ambari,原因很明显,让hadoop管理更简单、更直观。 我是...

回答 0 投票 0

在 Hadoop HDFS 中,删除几个早于 x 天且名称中有空格的文件(不像 UNIX)

我在一个hadoop目录下有几十万个文件,我需要调试它们。我想删除超过 3 个月的文件,我正在尝试批量删除一千个文件...

回答 1 投票 0

如何使用 pyspark 编写 hive 分区表,并跳过相等的数据列?

在我的项目中,我使用带有pyspark的hadoop-hive。 我的表由此查询创建。 创建表 target_db.target_table( 标识字符串) 分区方式( 用户名字符串, 类别 st...

回答 1 投票 0

在 scala 的 hdfs 文件中以逗号分隔格式存储数据帧的特定列值

我有一个数据框,其中只有一列包含 json 数据字符串。这个数据框的大小是 50M。我想将这个 json 字符串以逗号分隔的数组格式存储在指定的数字中......

回答 0 投票 0

是否可以更新已经写入S3的数据?

我正在考虑用S3替换当前使用的Hadoop,但在此之前,我想知道是否可以更新已经写入S3的数据。 Hadoop as HDFS,你只写一次,读很多......

回答 3 投票 0

如何将Hadoop HDFS文件夹直接导出到远程服务器

我正在寻找将 HDFS 目录导出到远程服务器(到普通文件系统)的解决方案。我对两台服务器(本地和远程)都有 sudo/root 访问权限。要导出的文件大小约为 3TB ...

回答 0 投票 0

HDFS 上带有 Parquet 数据的 AutoFaiss - OSError:仅对可搜索文件有效

我正在尝试使用 autoafaiss 从以 Parquet 格式存储在 HDFS 中的数据集中生成 ANN 索引。运行 build_index 函数时,我遇到一个错误,指出“OSError:...

回答 0 投票 0

如何计算集群上的文件数量和大小?

如果文件是由不同用户创建的,如何统计一个公共集群上的文件数量和文件大小?即一个用户创建了10个文件,另一个用户创建了20个,第一个的大小是2GB,

回答 0 投票 0

如何计算 Impala 查询中的 NaN 项?

我有一张表,在一个双精度字段中有“NaN”。我只是想计算有多少项目是“NaN”: 从表中选择计数(*) 其中 col = 'NaN' AnalysisException:DOUBL 类型的操作数...

回答 3 投票 0

Parquet/Avro/CSV 用例

我们有一些 csv 格式如下 hash_id c1 c2 c3 其中 hash_id 是一个字符串,c1 c2 和 c3 是整数列表,0 或 1。 理想情况下,我们希望将其编码为一个 numpy 数组,...

回答 0 投票 0

更改 hdfs 中的节点

我们有将配置文件上传到 HDFS 的代码: 从 hdfs 导入 InsecureClient def upload_file_to_hdfs(local_path,remote_path): client = InsecureClient(url='http://hdfs_server:50070', user='...

回答 0 投票 0

Apache Beam 上的 Flink:找不到方案“hdfs”的文件系统实现

最近尝试将 s3 读取交换到 hdfs,在我的项目中具有以下依赖项: org.apache.beam ...

回答 0 投票 0

SparkStreaming或Flink应用的checkpoint路径不释放HDFS存储空间

应用实际数据与其使用空间不匹配。 hdfs dfs -du -h /landsat_flink_ha | grep G 42.9 K 89.3 G /landsat_flink_ha/application_1658448699056_990584 去里面...

回答 0 投票 0

TestDFSIO hdfs 退出文件

你好,我在 hdfs 中实施了一项新技术,以增强存储、吞吐量和访问时间。 我需要测量 HDFS 上现有文件的读/写性能,我发现了这个基准测试 TestD...

回答 0 投票 0

DolphinDB基于数据库的分区设计有什么优势?

DolphinDB 为什么分区是基于数据库而不是表? 这样的设计有什么好处?

回答 1 投票 0

尝试连接到 hadoop datanode 时出现超时错误

尝试将文件放入 hdfs 时出现此错误。 org.apache.hadoop.net.ConnectTimeoutException:60000 毫秒超时 等待通道准备好连接。频道: java.nio.chan...

回答 2 投票 0

reducers 的默认数量

在Hadoop中,如果我们没有设置reducer的数量,那么会创建多少个reducer? 就像映射器的数量取决于(总数据大小)/(输入分割大小), 例如。如果数据大小...

回答 2 投票 0

如何将项目 django 与 HDFS 连接?

我想把我的项目django和HDFS连接起来存储数据 我想将我的项目 django 与 HDFS 连接起来存储数据,我该怎么做

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.