hdfs 相关问题

Hadoop分布式文件系统（HDFS）是Apache Hadoop使用的默认文件存储系统。 HDFS创建多个数据块副本，并将它们分布在整个集群中的数据节点上，以实现可靠的计算，并计算商用硬件上的大量数据。

请求下载时，请求的url是主机名，所以出现了400 bad request。我的服务器是 5 个，hadoop 是 1 个名称节点、1 个辅助节点和数据节点、3 个数据节点总共 1namenode 1secondarynamenode 4data...

hadoop hdfs

回答 1 投票 0

使用 WriteSupport 实现 Spark 数据源

我正在尝试使我的自定义 Spark 数据源将我的数据集写入文件中，其中我有第一行元数据（例如文件创建的时间戳），然后是我的行和带有

java apache-spark apache-spark-sql hdfs

回答 1 投票 0

hadoop-streaming 如何删除尾随制表符符号

如何去掉制表符 hadoop 罐子\ /usr/hdp/3.1.0.0-78/hadoop-mapreduce/hadoop-streaming.jar \ -Dmapred.reduce.tasks=1 \ -Dmapred.job.queue.name=默认\ -输入

hadoop hdfs

回答 1 投票 0

如何恢复误删除的Hive管理表？

我使用以下sql创建了一个托管表并向其中添加了数据创建表 test.internal_table ( id 整数，名称 STRING ）；插入表 test.internal_table 值（1，“约翰”），（...

hive hdfs

回答 1 投票 0

在 Hive 外部表上执行 INSERT INTO 是否也会将行插入底层 HDFS 数据集？

我有一个 Hive 外部表“customer_main”映射到基于 .orc 的 HDFS 数据集，该数据集的路径为“/dev/customer/customer_main/”。如果我运行 INSERT INTO customer_main VALUES() 来插入一行...

hadoop hive hdfs

回答 1 投票 0

在spark中如何获取镶木地板文件创建的时间戳作为列

在spark中，在从 hdfs 读取文件时，对于每条记录，我想向 df 添加一列，其中包含读取记录的文件的文件创建时间戳。例如 hdfs具有以下结构 /

apache-spark hdfs parquet

回答 1 投票 0

以优化的局部性访问 HDFS 数据

我想知道，如何确保HDFS数据访问充分利用本地复制，尽量减少网络传输的使用。我在 3 台机器上托管 HDFS，并且复制设置为 3...

python hadoop hdfs fsspec

回答 1 投票 0

Hadoop localhost:9870 浏览器界面无法正常工作

我需要使用Hadoop进行数据分析。因此我安装了 Hadoop 并配置如下。但 localhost:9870 不起作用。即使我每次使用它时都会格式化名称节点。一些

hadoop hdfs namenode

回答 1 投票 0

Apache IoTDB 和 HDFS 是否需要集成来存储时序数据？

我现在正在研究Apache IoTDB与其他数据软件的集成。不知道IoTDB是否可以使用HDFS作为底层存储结构？或者建议将这两个软件结合起来

hdfs apache-iotdb iotdb

回答 1 投票 0

通过 HDFS/Haddop 解压 bz2 文件的内容

如何在 HDFS 中解压 bz2 文件系统想要将此.csv 文件上传到我在 hive 中创建的表中 2003.csv.bz2 我有这个文件 zcat 2003.csv.bz2 | hdfs dfs -put - /user/$USER/workspace 这我

hadoop hive hdfs

回答 1 投票 0

如何读取存储为一维数组的 hdf5 文件。并以图像形式查看它们？

我有一个以.hdf5格式存储的大型图像分类数据集。数据集的标签和图像存储在 .hdf5 文件中。我无法查看图像，因为它们以表单存储......

python deep-learning pytorch hdfs hdf5

回答 1 投票 0

JAR 不存在或不是普通文件

在 Hadoop 中运行 wordcount 示例时，我遇到以下错误。说“JAR 不存在或不是普通文件： /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduceexamp...

java hadoop jar hdfs

回答 6 投票 0

启动 HDFS 时出现接收操作不允许错误

这是我第一次搭建Hadoop伪分布式模式。我能够按照我的课程说明进行安装，没有任何问题，直到最后一步使用此 com 启动节点...

hadoop hdfs

回答 2 投票 0

用Sqoop从MongoDB中提取数据写入HDFS？

我担心从 MongoDB 中提取数据，我的应用程序处理 MongoDB 中的大部分数据。我曾使用 sqoop 来提取数据，并发现 RDBMS 通过 sqoop 与 HDFS 结合在一起。

mongodb hadoop hdfs sqoop nosql

回答 2 投票 0

运行 MapReduce 作业显示错误 - Mkdirs 无法创建 /var/folders/

当我在 Mac 终端中运行 MapReduce 作业时： PawandeepSingh1$ hadoop jar MaximumTemperature.jar 线程“main”中出现异常 java.io.IOException：Mkdirs 无法创建 /var/folders/v1/

hadoop hdfs ioexception

回答 4 投票 0

我使用hadoop时无法打开localhost:8088

在hadoop中配置完所有*.xmls文件后。我使用命令： ./sbin/start-all.sh 一切顺利我使用 jps 检查进程，所有进程都在运行。但是当我访问 localhost:80...

hadoop hdfs hadoop-yarn

回答 2 投票 0

HiveAccessControlException 权限被拒绝：用户没有 [ALL] 权限

我对 hive 和 hadoop 生态系统非常陌生。我正在尝试在配置单元中创建一个新表，但遇到此错误：根据一些建议，我必须设置 Ranger 策略，但基于

hive hdfs apache-ranger

回答 2 投票 0

hadoop distcp通过java导致NoClassDefFoundError：无法初始化类com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem

我正在尝试使用 Hadoop Java 库在我的 hadoop 集群上运行 distcp 命令，将内容从 HDFS 移动到 Google Cloud Bucket。我收到错误 NoClassDefFoundError: Could not

java hadoop hdfs

回答 2 投票 0

通过控制 HDFS 中的物理文件/块位置来减少 Spark Shuffle 读/写

设置：我们每小时在 hdfs 中接收 gzip 压缩的 csv 文件（例如每 24 小时 1k+ 个文件）。这些文件组织在文件夹结构 /data//// 中设置：我们每小时在 hdfs 中接收 gzip 压缩的 csv 文件（例如每 24 小时 1k+ 个文件）。这些文件组织在文件夹结构中 /data/<year>/<month>/<day>/<hour>/<unique_id>.csv.gz. 我们的 etl 流程（spark 应用程序每天运行一次。在该管道中，我们阅读当天的所有文件，应用一些变换，按小时重新分区整个数据集并将结果写回 hdfs（每天产生 24 个 avro 文件）。观察：在监视 Spark 作业时，我可以看到很多 shuffle 操作（还涉及通过网络传输大量数据，尤其是在步骤 2 和 3 之间）。在步骤 1/2 中，为每个文件创建一个任务，该任务安排在提供最佳局部性级别 (PROCESS_LOCAL) 的执行器节点上。在步骤 3 中，我们每小时执行一个任务（总共 24 个任务），每个任务将一个 avro 文件写回 hdfs。这些大型 shuffle 操作的原因是特定小时的输入 csv 文件物理上位于 hdfs 中的多个不同集群节点。读取/转换操作后，特定小时的所有记录都需要发送到单个执行器，该执行器在步骤 3 中运行该小时的写入任务。优化思路：为了优化这个过程，我们的想法是以某种方式物理定位同一节点同一小时内的所有原始 csv 文件/块。我们不会摆脱洗牌操作，但这主要需要执行器节点上的本地洗牌读/写，并最大限度地减少网络流量。在这一点上，还值得一提的是，网络带宽在我们的集群中是非常有限的资源。因此，Spark 应用程序大部分时间都在整理数据。是否有可能在上传过程中或者通过按 cron 计划运行的单独脚本来影响/控制 hdfs 中文件的物理位置？还有其他选项可以优化/简化此流程吗？作为一种可能的解决方案，不要将多个 .gz 文件写入一个小时，而是尝试将数据附加到 hdfs 文件。这可能更容易实现

apache-spark hadoop hdfs hadoop-partitioning

回答 1 投票 0

无法使用docker让hadoop HDFS数据持久化

我有一个使用此 docker-compos.yaml 文件创建的名称节点和数据节点版本：“3” 服务：名称节点：图片：apache/hadoop:3 主机名：192.168.105.139

docker hadoop docker-compose hdfs namenode

回答 1 投票 0

hdfs 相关问题

最新问题