Hadoop是一个Apache开源项目,为可靠和可扩展的分布式计算提供软件。核心由分布式文件系统(HDFS)和资源管理器(YARN)组成。各种其他开源项目,例如Apache Hive,使用Apache Hadoop作为持久层。
我正在尝试将 MS Access 表宏循环转换为适用于 Hive 表。名为 trip_details 的表包含有关卡车特定行程的详细信息。卡车可以停多个
我需要为 run_job_flow 创建一个 hdfs 文件夹才能工作。目前我正在使用这个 sh 脚本命令 sudo -u hdfs hdfs dfs -mkdir -p /apps/hudi/lib 但由于某种原因我收到此错误:...
java.lang.ClassCastException:无法转换为 com.google.protobuf.Message
我想使用hadoop-3.0.1运行以下程序。我已经导入了 hadoop-client-api-3.0.1.jar,hadoop-client-runtime-3.0.1.jar 和 hadoop-client-minicluster-3.0.1.jar : 导入 org.apa...
我正在使用Jupyter Notebook,这是我使用过的路径之一: my_df = sqlContext.read.parquet('hdfs://myPath/user/hive/warehouse/myDB.db/myTable/**') 因为我想检查一下发生了什么...
我正在使用 Hadoop、Hive 和 Spark 进行一些工作,其中我需要查询在 Hive 中创建的表。我正在尝试使用 pyspark 库从 jupiter 笔记本连接到 Hive,如下所示: ...
我有table_A: id var1 var2 1 乙 2 cd 表_B: id var1 var2 3 埃夫 4克·小时 我想要的只是表格,组合: id var1 var2 1 乙 2 cd 3 e f 4克·小时 这……
我刚刚在我的 Ubuntu 机器(14.04)上安装了 Hive。当我在终端中运行 hive 时,它会显示使用 jar:file:/home/nkhl/Documents/apachehive/lib/hive-
Configuration.set可以在Mapper中使用吗?
我正在尝试将一些数据从映射器保存到作业/主要,以便我可以在其他作业中使用它。 我尝试在我的主类(包含主函数)中使用静态变量,但是当...
我一直在使用Cloudera的hadoop(0.20.2)。 在这个版本中,如果我将一个文件放入文件系统,但目录结构不存在,它会自动创建父目录: ...
我正在尝试在 EKS 集群上运行 Spark 作业。当我在集群模式下运行它时,我收到以下信息 警告 NativeCodeLoader:无法为您的平台加载本机 hadoop 库...使用构建...
错误:在 Jakarta EE 中使用 Kerberos 连接到 HDFS 时,`callbackHandler` 可能不为空
我正在尝试在 JakartaEE 应用程序中使用 Kerberos 身份验证连接到 HDFS。连接代码似乎设置正确,但我在尝试时遇到以下错误...
我有11个节点,每个节点有2G内存和16个核心,我尝试使用这个提交我的spark应用程序 ./bin/spark-submit --class myapp.Main --master Spark://名称:7077 --conf Spark.shuffle.
Spark 由于多个 ExecutorLostFailure 而在 dropDuplicates() 处失败
我在 HDFS 上存储了 479 个 parquet 文件(每个文件约 120 MB,总共略多于 20 亿条记录),我试图确定此数据集的最佳 Spark 配置,但我无法
无法从 Spark 连接到 S3 - AmazonS3Exception 状态代码:400
我正在尝试从 Spark(在我的 PC 上运行)连接到我的 S3 存储桶: val Spark = SparkSession .builder .appName("S3Client") .config("spark.master", "本地") .getOrCreate(...
Flink-SQL 依赖项:如何在 Marven Repo 中查找
我是apache平台和flink的初学者。我正在尝试查询下面的 Flint-SQL 代码。我有 2 个问题 1 - 我需要找到连接器“文件系统”(在 Maven 存储库或其他地方......
我需要在hadoop中创建数据管道。我有数据导入、导出、清理数据设置的脚本,现在需要在管道中进行设置。 我一直在使用Oozie进行数据导入和导出方案...
我一直面临着与让 delta-spark 直接与 S3 一起工作相关的兼容性问题,并希望获得一些建议。我已经尝试过 Spa 之间的数十种版本组合...
无法在 Spark 3.5.1 中配置 Hive Metastore 客户端 jar
我需要配置我的 Spark 3.5.1 应用程序,以便它使用特定版本的 Hive Metastore 客户端。 我在可以使用的文档中读到: Spark.sql.hive.metastore.jars Spark.sql.hive.metastore.
我对 MapReduce 框架很困惑。我从不同的来源读到了这方面的内容,感到很困惑。顺便说一句,这是我对 MapReduce 作业的想法 Map()-->发出
Google 的 Dremel 是什么?它与 Mapreduce 有什么不同?
Google 的 Dremel 在此进行介绍。 Dremel 和 Mapreduce 有什么区别?