Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。
尝试从 HDFS 读取文件时由于连接超时,无法连接到位于 192.168.99.100:50070 的 Hadoop NameNode
尝试从 Python 脚本连接到在 Docker 容器内运行的 Hadoop HDFS 实例时遇到 ConnectTimeout 错误。该脚本应该使用
如何在 HIVE 中将日期 2017-sep-12 转换为 2017-09-12
我在转换配置单元中的日期时遇到一个问题。我需要将 2017-sep-12 转换为 2017-09-12 。我怎样才能在 HIVE 中实现这一目标
AnalysisException:重复的内联视图列别名:内联视图“q2”中的“account_id”
选择* 从 ( 选择 * 来自 prod_ard119_master.ead_basel_exp_id_mdp 作为 crmd_ead 内部联接 prod_account_app.account_customer 作为 crmd_acc 在 crmd_ead.account_id = crmd_acc 上。
pySpark Hadoop AWS s3 requester-pays.enabled 配置不起作用
我正在尝试使用 pyspark 读取 AWS S3 存储桶。该桶需要请求者付费才能读取。 然而,尽管 aws-cli 上的类似凭证有效并且我
HBase Shell - org.apache.hadoop.hbase.ipc.ServerNotRunningYetException:服务器尚未运行
我正在尝试在3个节点上设置分布式HBase。我已经设置了 hadoop、YARN ZooKeeper,现在还设置了 HBase,但是当我启动 hbase shell 并运行最简单的命令(例如状态或列表)时...
我想知道哪个版本的 hive 和 derby 与 windows 10 上的 Hadoop 3.3.6 兼容 我已经安装了 3.3.6 并且它可以正常工作,但是当谈到 hive 时哪个版本是兼容的......
在 Windows 上使用 Staging S3A Committer 写入 S3 时出现 UnsatisfiedLinkError
我正在尝试使用 Apache Spark 将 Parquet 数据写入 AWS S3 目录。我在 Windows 10 上使用本地计算机,没有安装 Spark 和 Hadoop,而是将它们添加为 SBT 依赖项(Hado...
Hadoop Namenode 故障转移过程如何工作? [已关闭]
Hadoop 权威指南说 - 每个Namenode运行一个轻量级故障转移控制器进程,其 它的工作是监视其 Namenode 是否出现故障(使用简单的 心跳机制)和触发...
我正在尝试将 MS Access 表宏循环转换为适用于 Hive 表。名为 trip_details 的表包含有关卡车特定行程的详细信息。卡车可以停多个
我需要为 run_job_flow 创建一个 hdfs 文件夹才能工作。目前我正在使用这个 sh 脚本命令 sudo -u hdfs hdfs dfs -mkdir -p /apps/hudi/lib 但由于某种原因我收到此错误:...
java.lang.ClassCastException:无法转换为 com.google.protobuf.Message
我想使用hadoop-3.0.1运行以下程序。我已经导入了 hadoop-client-api-3.0.1.jar,hadoop-client-runtime-3.0.1.jar 和 hadoop-client-minicluster-3.0.1.jar : 导入 org.apa...
我正在使用Jupyter Notebook,这是我使用过的路径之一: my_df = sqlContext.read.parquet('hdfs://myPath/user/hive/warehouse/myDB.db/myTable/**') 因为我想检查一下发生了什么...
我正在使用 Hadoop、Hive 和 Spark 进行一些工作,其中我需要查询在 Hive 中创建的表。我正在尝试使用 pyspark 库从 jupiter 笔记本连接到 Hive,如下所示: ...
我有table_A: id var1 var2 1 乙 2 cd 表_B: id var1 var2 3 埃夫 4克·小时 我想要的只是表格,组合: id var1 var2 1 乙 2 cd 3 e f 4克·小时 这……
我刚刚在我的 Ubuntu 机器(14.04)上安装了 Hive。当我在终端中运行 hive 时,它会显示使用 jar:file:/home/nkhl/Documents/apachehive/lib/hive-
Configuration.set可以在Mapper中使用吗?
我正在尝试将一些数据从映射器保存到作业/主要,以便我可以在其他作业中使用它。 我尝试在我的主类(包含主函数)中使用静态变量,但是当...
我一直在使用Cloudera的hadoop(0.20.2)。 在这个版本中,如果我将一个文件放入文件系统,但目录结构不存在,它会自动创建父目录: ...
我正在尝试在 EKS 集群上运行 Spark 作业。当我在集群模式下运行它时,我收到以下信息 警告 NativeCodeLoader:无法为您的平台加载本机 hadoop 库...使用构建...
错误:在 Jakarta EE 中使用 Kerberos 连接到 HDFS 时,`callbackHandler` 可能不为空
我正在尝试在 JakartaEE 应用程序中使用 Kerberos 身份验证连接到 HDFS。连接代码似乎设置正确,但我在尝试时遇到以下错误...
我有11个节点,每个节点有2G内存和16个核心,我尝试使用这个提交我的spark应用程序 ./bin/spark-submit --class myapp.Main --master Spark://名称:7077 --conf Spark.shuffle.