hadoop 相关问题

Hadoop是一个Apache开源项目，为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统（HDFS）和资源管理器（YARN）组成。各种其他开源项目，例如Apache Hive，使用Apache Hadoop作为持久层。

如何逐行迭代 Hive 表并在满足特定条件时计算指标？

我正在尝试将 MS Access 表宏循环转换为适用于 Hive 表。名为 trip_details 的表包含有关卡车特定行程的详细信息。卡车可以停多个

hadoop hive

回答 1 投票 0

BootstrapActions 创建hdfs目录失败

我需要为 run_job_flow 创建一个 hdfs 文件夹才能工作。目前我正在使用这个 sh 脚本命令 sudo -u hdfs hdfs dfs -mkdir -p /apps/hudi/lib 但由于某种原因我收到此错误：...

apache-spark hadoop amazon-ec2 amazon-emr

回答 1 投票 0

java.lang.ClassCastException：无法转换为 com.google.protobuf.Message

我想使用hadoop-3.0.1运行以下程序。我已经导入了 hadoop-client-api-3.0.1.jar,hadoop-client-runtime-3.0.1.jar 和 hadoop-client-minicluster-3.0.1.jar : 导入 org.apa...

java hadoop

回答 1 投票 0

Jupyter Notebook：检查hdfs目录内容

我正在使用Jupyter Notebook，这是我使用过的路径之一： my_df = sqlContext.read.parquet('hdfs://myPath/user/hive/warehouse/myDB.db/myTable/**') 因为我想检查一下发生了什么...

python hadoop hdfs

回答 1 投票 0

pyspark 与 Hive 集成

我正在使用 Hadoop、Hive 和 Spark 进行一些工作，其中我需要查询在 Hive 中创建的表。我正在尝试使用 pyspark 库从 jupiter 笔记本连接到 Hive，如下所示： ...

python apache-spark hadoop pyspark hive

回答 1 投票 0

HiveQL 联合所有

我有table_A： id var1 var2 1 乙 2 cd 表_B： id var1 var2 3 埃夫 4克·小时我想要的只是表格，组合： id var1 var2 1 乙 2 cd 3 e f 4克·小时这……

hadoop union hive hiveql

回答 3 投票 0

无法退出Hive

我刚刚在我的 Ubuntu 机器（14.04）上安装了 Hive。当我在终端中运行 hive 时，它会显示使用 jar:file:/home/nkhl/Documents/apachehive/lib/hive-

hadoop hive ubuntu-14.04

回答 8 投票 0

Configuration.set可以在Mapper中使用吗？

我正在尝试将一些数据从映射器保存到作业/主要，以便我可以在其他作业中使用它。我尝试在我的主类（包含主函数）中使用静态变量，但是当...

java hadoop hadoop2

回答 2 投票 0

如何让hadoop put创建不存在的目录

我一直在使用Cloudera的hadoop（0.20.2）。在这个版本中，如果我将一个文件放入文件系统，但目录结构不存在，它会自动创建父目录： ...

hadoop hdfs cloudera put biginsights

回答 5 投票 0

AWS EKS 上的 Spark java.lang.ClassNotFoundException：在集群模式下运行时找不到类 org.apache.hadoop.fs.s3a.S3AFileSystem

我正在尝试在 EKS 集群上运行 Spark 作业。当我在集群模式下运行它时，我收到以下信息警告 NativeCodeLoader：无法为您的平台加载本机 hadoop 库...使用构建...

apache-spark hadoop amazon-eks spark-submit s3a-committers

回答 1 投票 0

错误：在 Jakarta EE 中使用 Kerberos 连接到 HDFS 时，`callbackHandler` 可能不为空

我正在尝试在 JakartaEE 应用程序中使用 Kerberos 身份验证连接到 HDFS。连接代码似乎设置正确，但我在尝试时遇到以下错误...

java hadoop jakarta-ee hdfs kerberos

回答 1 投票 0

如何调出内存异常spark

我有11个节点，每个节点有2G内存和16个核心，我尝试使用这个提交我的spark应用程序 ./bin/spark-submit --class myapp.Main --master Spark://名称:7077 --conf Spark.shuffle.

performance hadoop apache-spark cluster-computing

回答 1 投票 0

Spark 由于多个 ExecutorLostFailure 而在 dropDuplicates() 处失败

我在 HDFS 上存储了 479 个 parquet 文件（每个文件约 120 MB，总共略多于 20 亿条记录），我试图确定此数据集的最佳 Spark 配置，但我无法

apache-spark hadoop pyspark hdfs

回答 1 投票 0

无法从 Spark 连接到 S3 - AmazonS3Exception 状态代码：400

我正在尝试从 Spark（在我的 PC 上运行）连接到我的 S3 存储桶： val Spark = SparkSession .builder .appName("S3Client") .config("spark.master", "本地") .getOrCreate(...

scala amazon-web-services apache-spark hadoop amazon-s3

回答 5 投票 0

Flink-SQL 依赖项：如何在 Marven Repo 中查找

我是apache平台和flink的初学者。我正在尝试查询下面的 Flint-SQL 代码。我有 2 个问题 1 - 我需要找到连接器“文件系统”（在 Maven 存储库或其他地方......

apache hadoop apache-flink connector

回答 1 投票 0

可用于创建数据管道的不同工具

我需要在hadoop中创建数据管道。我有数据导入、导出、清理数据设置的脚本，现在需要在管道中进行设置。我一直在使用Oozie进行数据导入和导出方案...

hadoop cloudera data-pipeline

回答 2 投票 0

Pyspark、Hadoop 和 S3：java.lang.NoSuchMethodError：org.apache.hadoop.fs.s3a.Listing$FileStatusListingIterator

我一直面临着与让 delta-spark 直接与 S3 一起工作相关的兼容性问题，并希望获得一些建议。我已经尝试过 Spa 之间的数十种版本组合...

python apache-spark amazon-s3 hadoop pyspark

回答 1 投票 0

无法在 Spark 3.5.1 中配置 Hive Metastore 客户端 jar

我需要配置我的 Spark 3.5.1 应用程序，以便它使用特定版本的 Hive Metastore 客户端。我在可以使用的文档中读到： Spark.sql.hive.metastore.jars Spark.sql.hive.metastore.

apache-spark hadoop hive-metastore

回答 1 投票 0

shuffle阶段和combiner阶段有什么区别？

我对 MapReduce 框架很困惑。我从不同的来源读到了这方面的内容，感到很困惑。顺便说一句，这是我对 MapReduce 作业的想法 Map()-->发出

hadoop mapreduce combiners partitioner

回答 3 投票 0

Google 的 Dremel 是什么？它与 Mapreduce 有什么不同？

Google 的 Dremel 在此进行介绍。 Dremel 和 Mapreduce 有什么区别？

hadoop mapreduce google-bigquery abstraction

回答 3 投票 0

hadoop 相关问题

最新问题