hadoop 相关问题

Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。

如何逐行迭代 Hive 表并在满足特定条件时计算指标?

我正在尝试将 MS Access 表宏循环转换为适用于 Hive 表。名为 trip_details 的表包含有关卡车特定行程的详细信息。卡车可以停多个

回答 1 投票 0

BootstrapActions 创建hdfs目录失败

我需要为 run_job_flow 创建一个 hdfs 文件夹才能工作。目前我正在使用这个 sh 脚本命令 sudo -u hdfs hdfs dfs -mkdir -p /apps/hudi/lib 但由于某种原因我收到此错误:...

回答 1 投票 0

java.lang.ClassCastException:无法转换为 com.google.protobuf.Message

我想使用hadoop-3.0.1运行以下程序。我已经导入了 hadoop-client-api-3.0.1.jar,hadoop-client-runtime-3.0.1.jar 和 hadoop-client-minicluster-3.0.1.jar : 导入 org.apa...

回答 1 投票 0

Jupyter Notebook:检查hdfs目录内容

我正在使用Jupyter Notebook,这是我使用过的路径之一: my_df = sqlContext.read.parquet('hdfs://myPath/user/hive/warehouse/myDB.db/myTable/**') 因为我想检查一下发生了什么...

回答 1 投票 0

pyspark 与 Hive 集成

我正在使用 Hadoop、Hive 和 Spark 进行一些工作,其中我需要查询在 Hive 中创建的表。我正在尝试使用 pyspark 库从 jupiter 笔记本连接到 Hive,如下所示: ...

回答 1 投票 0

HiveQL 联合所有

我有table_A: id var1 var2 1 乙 2 cd 表_B: id var1 var2 3 埃夫 4克·小时 我想要的只是表格,组合: id var1 var2 1 乙 2 cd 3 e f 4克·小时 这……

回答 3 投票 0

无法退出Hive

我刚刚在我的 Ubuntu 机器(14.04)上安装了 Hive。当我在终端中运行 hive 时,它会显示使用 jar:file:/home/nkhl/Documents/apachehive/lib/hive-

回答 8 投票 0

Configuration.set可以在Mapper中使用吗?

我正在尝试将一些数据从映射器保存到作业/主要,以便我可以在其他作业中使用它。 我尝试在我的主类(包含主函数)中使用静态变量,但是当...

回答 2 投票 0

如何让hadoop put创建不存在的目录

我一直在使用Cloudera的hadoop(0.20.2)。 在这个版本中,如果我将一个文件放入文件系统,但目录结构不存在,它会自动创建父目录: ...

回答 5 投票 0

AWS EKS 上的 Spark java.lang.ClassNotFoundException:在集群模式下运行时找不到类 org.apache.hadoop.fs.s3a.S3AFileSystem

我正在尝试在 EKS 集群上运行 Spark 作业。当我在集群模式下运行它时,我收到以下信息 警告 NativeCodeLoader:无法为您的平台加载本机 hadoop 库...使用构建...

回答 1 投票 0

错误:在 Jakarta EE 中使用 Kerberos 连接到 HDFS 时,`callbackHandler` 可能不为空

我正在尝试在 JakartaEE 应用程序中使用 Kerberos 身份验证连接到 HDFS。连接代码似乎设置正确,但我在尝试时遇到以下错误...

回答 1 投票 0

如何调出内存异常spark

我有11个节点,每个节点有2G内存和16个核心,我尝试使用这个提交我的spark应用程序 ./bin/spark-submit --class myapp.Main --master Spark://名称:7077 --conf Spark.shuffle.

回答 1 投票 0

Spark 由于多个 ExecutorLostFailure 而在 dropDuplicates() 处失败

我在 HDFS 上存储了 479 个 parquet 文件(每个文件约 120 MB,总共略多于 20 亿条记录),我试图确定此数据集的最佳 Spark 配置,但我无法

回答 1 投票 0

无法从 Spark 连接到 S3 - AmazonS3Exception 状态代码:400

我正在尝试从 Spark(在我的 PC 上运行)连接到我的 S3 存储桶: val Spark = SparkSession .builder .appName("S3Client") .config("spark.master", "本地") .getOrCreate(...

回答 5 投票 0

Flink-SQL 依赖项:如何在 Marven Repo 中查找

我是apache平台和flink的初学者。我正在尝试查询下面的 Flint-SQL 代码。我有 2 个问题 1 - 我需要找到连接器“文件系统”(在 Maven 存储库或其他地方......

回答 1 投票 0

可用于创建数据管道的不同工具

我需要在hadoop中创建数据管道。我有数据导入、导出、清理数据设置的脚本,现在需要在管道中进行设置。 我一直在使用Oozie进行数据导入和导出方案...

回答 2 投票 0

Pyspark、Hadoop 和 S3:java.lang.NoSuchMethodError:org.apache.hadoop.fs.s3a.Listing$FileStatusListingIterator

我一直面临着与让 delta-spark 直接与 S3 一起工作相关的兼容性问题,并希望获得一些建议。我已经尝试过 Spa 之间的数十种版本组合...

回答 1 投票 0

无法在 Spark 3.5.1 中配置 Hive Metastore 客户端 jar

我需要配置我的 Spark 3.5.1 应用程序,以便它使用特定版本的 Hive Metastore 客户端。 我在可以使用的文档中读到: Spark.sql.hive.metastore.jars Spark.sql.hive.metastore.

回答 1 投票 0

shuffle阶段和combiner阶段有什么区别?

我对 MapReduce 框架很困惑。我从不同的来源读到了这方面的内容,感到很困惑。顺便说一句,这是我对 MapReduce 作业的想法 Map()-->发出

回答 3 投票 0

Google 的 Dremel 是什么?它与 Mapreduce 有什么不同?

Google 的 Dremel 在此进行介绍。 Dremel 和 Mapreduce 有什么区别?

回答 3 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.