hdfs 相关问题

Hadoop分布式文件系统（HDFS）是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本，并将它们分布在整个集群中的数据节点上，以实现可靠的计算，并计算商用硬件上的大量数据。

tar.gz 可以在 hdfs 上拆分吗？

我有一个tar.gz文件（大小4GB）。我想上传到hadoop集群上。该文件是否会分割为 128MB 的块。

hadoop hdfs

回答 1 投票 0

Hadoop：MapReduce 作业给出 Java 库错误

当我在 Cloudera VM 中运行任何 MapReduce 作业时，以下警告会连续出现 4-5 次。请让我知道如何解决它。 16/11/06 00:47:38 警告 hdfs.DFSClient：捕获异常...

java hadoop mapreduce hdfs cloudera-quickstart-vm

回答 1 投票 0

从hdfs加载数据到HIVE错误路径未找到

我面临着一个我不知道如何解决的问题。我已将 csv 文件上传到路径 /user/oscarvicenteremonhotmail/StockPrices.csv 和 /user/oscarvicenteremonhotmail/hdfshive/

hive hdfs

回答 1 投票 0

容器以非零退出代码 50 退出，用于将 Spark Dataframe 保存到 hdfs

我正在 Pyspark 上运行一个小脚本，从 hbase 表中提取一些数据并创建一个 Pyspark 数据框。我正在尝试将数据帧保存回本地 hdfs，并且正在运行...

apache-spark pyspark hdfs apache-spark-sql hadoop-yarn

回答 1 投票 0

Avro 架构更新，一个 avro 文件中包含两个架构

我有一个带有第一个架构的 avro 文件，然后我更新了附加到同一文件的架构。所以现在我在一个文件中有两个模式。 avro 如何处理这种情况。我会有什么新领域吗...

hdfs avro spark-avro confluent-schema-registry

回答 1 投票 0

为嵌套 JSON 数据创建 Hive 表

我无法将嵌套的 JSON 数据加载到 Hive 表中。以下是我尝试过的：输入示例： {"DocId":"ABC","User1":{"Id":1234,"用户名":"

json hadoop hive hdfs

回答 3 投票 0

在Java应用程序中设置HDFS连接超时

我使用Hadoop的FileSystem类来删除一些HDFS文件。现在的问题是，客户端在太长的持续时间后出现连接超时，我需要缩短等待时间，直到

hadoop timeout hdfs timeoutexception socket-timeout-exception

回答 1 投票 0

HDFS 中的数据节点与 Spark 集群中的执行器节点相同吗？

我正在学习 Apache Spark 和 HDFS。尽管我对一件事感到困惑，但我大部分都理解它们。我的问题是：HDFS中的数据节点和执行器是一样的吗

apache-spark hadoop mapreduce hdfs

回答 4 投票 0

如何指定hdfs命令行的日志级别？

我希望在启动 hdfs 命令时有更多日志。但是，我不知道如何指定日志级别，或者即使可以。我测试了几种解决方案： Hadoop 2.7.0 文档 --log...

hadoop hdfs

回答 1 投票 0

使用 apache hadoop 安装/配置 apache ambari 有问题吗？

我已经安装并配置了一个4节点的hadoop集群。现在我想用hadoop集群配置apache ambari，原因很明显，让hadoop管理更简单、更直观。我是...

apache hadoop mapreduce hdfs ambari

回答 0 投票 0

在 Hadoop HDFS 中，删除几个早于 x 天且名称中有空格的文件（不像 UNIX）

我在一个hadoop目录下有几十万个文件，我需要调试它们。我想删除超过 3 个月的文件，我正在尝试批量删除一千个文件...

hadoop awk hdfs cloudera

回答 1 投票 0

如何使用 pyspark 编写 hive 分区表，并跳过相等的数据列？

在我的项目中，我使用带有pyspark的hadoop-hive。我的表由此查询创建。创建表 target_db.target_table( 标识字符串）分区方式（用户名字符串，类别 st...

python dataframe pyspark hive hdfs

回答 1 投票 0

在 scala 的 hdfs 文件中以逗号分隔格式存储数据帧的特定列值

我有一个数据框，其中只有一列包含 json 数据字符串。这个数据框的大小是 50M。我想将这个 json 字符串以逗号分隔的数组格式存储在指定的数字中......

dataframe list scala apache-spark hdfs

回答 0 投票 0

是否可以更新已经写入S3的数据？

我正在考虑用S3替换当前使用的Hadoop，但在此之前，我想知道是否可以更新已经写入S3的数据。 Hadoop as HDFS，你只写一次，读很多......

hadoop amazon-s3 hdfs rdbms amazon-athena

回答 3 投票 0

如何将Hadoop HDFS文件夹直接导出到远程服务器

我正在寻找将 HDFS 目录导出到远程服务器（到普通文件系统）的解决方案。我对两台服务器（本地和远程）都有 sudo/root 访问权限。要导出的文件大小约为 3TB ...

hadoop copy hdfs remote-server

回答 0 投票 0

HDFS 上带有 Parquet 数据的 AutoFaiss - OSError：仅对可搜索文件有效

我正在尝试使用 autoafaiss 从以 Parquet 格式存储在 HDFS 中的数据集中生成 ANN 索引。运行 build_index 函数时，我遇到一个错误，指出“OSError:...

python hadoop hdfs parquet pyarrow

回答 0 投票 0

如何计算集群上的文件数量和大小？

如果文件是由不同用户创建的，如何统计一个公共集群上的文件数量和文件大小？即一个用户创建了10个文件，另一个用户创建了20个，第一个的大小是2GB，

python bash airflow hdfs

回答 0 投票 0

如何计算 Impala 查询中的 NaN 项？

我有一张表，在一个双精度字段中有“NaN”。我只是想计算有多少项目是“NaN”：从表中选择计数（*）其中 col = 'NaN' AnalysisException：DOUBL 类型的操作数...

hdfs nan cloudera impala

回答 3 投票 0

Parquet/Avro/CSV 用例

我们有一些 csv 格式如下 hash_id c1 c2 c3 其中 hash_id 是一个字符串，c1 c2 和 c3 是整数列表，0 或 1。理想情况下，我们希望将其编码为一个 numpy 数组，...

python hdfs parquet avro

回答 0 投票 0

更改 hdfs 中的节点

我们有将配置文件上传到 HDFS 的代码：从 hdfs 导入 InsecureClient def upload_file_to_hdfs（local_path，remote_path）： client = InsecureClient(url='http://hdfs_server:50070', user='...

python hadoop hdfs

回答 0 投票 0

hdfs 相关问题

最新问题