hive 相关问题

Hive是Hadoop的数据仓库系统,可以简化数据汇总,即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。

Spark-Hive 应用程序:集群上的 SASL 与 Kerberos 协商失败

我在 Kerberos 集群上运行的 Spark-Hive 应用程序遇到问题。我收到 javax.security.sasl.SaslException:GSS 启动失败错误,这似乎是由于未找到 ...

回答 1 投票 0

LAG 函数通过丢弃空值返回先前的行

我正在尝试从网络表中查找某人访问过的先前页面。我使用滞后函数来查找该人访问过的先前页面(仅当访问了下一页时)。 网络表格...

回答 1 投票 0

错误:java.net.NoRouteToHostException没有到主机的路由

我在配置单元中从客户中运行 select * 并得到结果。 现在,当我运行 select count(*)customers 时,作业状态失败。在 JobHistory 中我发现了 4 个失败的地图。 在地图日志文件中我有...

回答 3 投票 0

使用sql将字符串转为时间戳

有一列名称为request_time,其数据类型为字符串。数据类似于 01-03-2024 16:58:44。我想将其转换为配置单元中的时间戳。我已经尝试过一些事情,例如: 选择

回答 1 投票 0

Apache hive:如何获取表达式的数据类型?是否有一些 Spark typeof 或 PostgresSQL pg_typeof 函数的类似函数?

Apache Spark 中的 typeof 和 PostgreSQL 中的 pg_typeof 函数可以获取任何值或表达式的数据类型,例如 选择类型(1=1) ╭────────────────────╮ │ typeof((1 = 1)) │ ├────────────……

回答 1 投票 0

hive 中的 date_trunc 工作不正确

我正在运行以下查询: 选择a.event_date, date_format(date_trunc('month', a.event_date), '%m/%d/%Y') 作为日期 来自monthly_test_table a 按 1 排序; 输出: 2017-09-15 | 2017年9月1日 2017...

回答 3 投票 0

将 presto 连接到 hive-hadoop3 时出现问题

我的集群上有 hadoop 3.1.2 和 hive 3.1.2,我想使用 presto-server-0.265.1 连接到 hive。 我在 /opt/presto/etc/catalog 中只有一个目录文件,这里的 hive.properties 是: 连接器。

回答 1 投票 0

SQL 语句错误: AnalysisException: 未找到表或视图:

我刚刚开始使用 Hive。我正在 Databricks 社区工作。我用 python 编写,但想用 SQL 编写一些东西,但有一个我无法理解的错误。我看不出我有什么问题...

回答 1 投票 0

使用 Athena 的多个 S3 存储桶的库存列表

我正在尝试使用 Athena 查询 AWS S3 库存列表。如果我只有一个源存储桶,我就可以执行此操作。我不确定如何配置它以与多个源存储桶一起使用。 我们正在使用所有

回答 1 投票 0

数据重述

我有一个名为“old_table”的表,它是一个外部表,它有8列,分别是姓名、地点、出生日期、爱好、学校、性别、班级、详细信息。这里的详细信息列是一个结构体数组类型,例如...

回答 1 投票 0

如何为apache Iceberg表选择分区键

我有多个蜂巢仓库。数据驻留在 Amazon S3 中的 parquet 文件中。有些表包含 TB 的数据。目前,在 hive 中,大多数表都是按月份和...

回答 1 投票 0

如何快速遍历Iceberg中一张非常大的表

我有一个关于查询大表的问题。 我们有一个 Hive 表,总共有 360 万条记录,每条记录有 120 个字段。我们想将该表中的所有记录传输到其他数据库...

回答 1 投票 0

从 pyspark 将表描述添加到 Iceberg 表

我能够使用 trino 将表注释添加到 Iceberg 表中,使用以下 trino 命令: 表iceberg.table_schema.table_name 上的评论是“我的评论” 也可以从 p...

回答 1 投票 0

如果元素包含hive/SparkSQL中指定的字符串,则过滤掉数组元素

我有如下所示的示例数据,我想提取仅具有名称及其完整键而不是 dep_names 及其完整键的元素。 我正在尝试像下面这样的东西, 与数据集AS ( S...

回答 1 投票 0

HIVE SQL - 根据查询中的日期提取最大或最后一条记录

在此处输入图像描述我有一个应用程序表,我可以查询一些结果。在该表中,根据开始日期和结束日期,每个应用程序都有多个记录。 我需要重新启动...

回答 1 投票 0

如何在本地使用 Hive Metastore 运行 Apache Flink 来测试 Apache Iceberg

我想摆弄一下 Apache Flink 和 Apache Iceberg,并在本地计算机上进行测试。我通读了文档,但我仍然不确定必须在本地设置什么...

回答 1 投票 0

Spark SQL 中的 JSON 爆炸(将所有键转换为列)

我有如下数据。我希望所有键都转换为列(表结构由与 json 键相同的列组成)。我希望所有值都反映在行中。 使用数据集 AS ( 选择...

回答 1 投票 0

Airflow HiveOperator 结果集

我是 Airflow 和 Python 的新手,我正在尝试配置计划报告。该报告需要从 Hive 中提取数据并通过电子邮件发送结果。 到目前为止我的代码: 从日期时间导入日期时间,

回答 1 投票 0

org.apache.spark.sql.catalyst.parser.ParseException:不匹配的输入“来自”期望<EOF>

我在 pyspark sql 中遇到以下错误。 org.apache.spark.sql.catalyst.parser.ParseException: 输入“来自”期望不匹配(第 9 行,位置 4) 选择a.appl_sta, a.appl_pcnvendorcode, a.

回答 1 投票 0

kubernetes 气流 hive 操作员错误:[Errno 13] 权限被拒绝:'hive';

我在尝试使用 Kubernetes Executor 在 Apache Airflow 中运行 HiveOperator 任务时遇到问题。 我有一个 Dockerfile,在其中安装了必要的依赖项,包括 apache-

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.