hive 相关问题

Hive是Hadoop的数据仓库系统,可以简化数据汇总,即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。

如何使用 JDBC 和 SSL 连接远程 Hive 服务器?

我有以下 Hive 的 JDBC URL,我可以从 Beeline 连接。我想知道如何使用 Python 连接到同一 Hive 服务器。 下面是我从 Beeline 使用的命令来连接到...

回答 1 投票 0

分解列中包含空数组的 hive 表

我有一个下表,有 5 列。 CLASS 列包含带有空数组的数据。 钥匙 到达 载体 班级 离开 50B1AE7A0C1BF0001521CEE [“2024-02-15T11:35:00.000+08:00”,&quo...

回答 1 投票 0

蜂巢中按组划分的基尼系数

我有一个包含三列组、人、分数的表格,我想计算每组分数的基尼系数。这样我就可以根据分数来衡量人的不平等是什么...

回答 1 投票 0

在长时间运行的 Hive 插入查询期间“TSocket 读取 0 个字节”

我正在使用 PyHive 0.6.1 在 Hive 中运行一个较长的插入查询,但它因 thrift.transport.TTransport.TTransportException 失败:运行大约 5 分钟后,TSocket 读取了 0 个字节。在服务器上...

回答 2 投票 0

如何在 hive 中的 csv 文件名中包含 shell 变量

我正在运行一个脚本,该脚本将自动每季度运行一次,因此我想在此脚本末尾的 csv 输出名称中包含动态日期变量。这是相关的...

回答 1 投票 0

SQL 特殊情况下的排名

编写 Hive SQL 查询以从如下所示的输入中获取输出。 我正在尝试添加按 event_ts 排序的排名列。但如果任何连续行都有相同的 item_id,它们应该...

回答 1 投票 0

如何从 AWS Kinesis Firehose 写入具有 int64 时间戳(而不是 int96)的 Parquet 文件?

为什么 int96 时间戳对我不起作用? 我想使用 S3 Select 读取 Parquet 文件。根据文档,S3 Select 不支持保存为 int96 的时间戳。另外,存储时间戳...

回答 2 投票 0

Hive 安装问题:Hive Metastore 数据库未初始化

我尝试在树莓派2上安装hive。我通过解压缩压缩的Hive包来安装Hive,并在我创建的hduser用户组下手动配置$HADOOP_HOME和$HIVE_HOME。跑步时嗨...

回答 6 投票 0

更改 hive 表添加或删除列

我在配置单元中有 orc 表,我想从此表中删除列 ALTER TABLE 表名 drop col_name; 但我收到以下异常 执行配置单元查询时发生错误:确定失败:

回答 9 投票 0

Apache Tez 任务在 Application Master 上暂停

我有一个tez问题,当同时运行大约14个查询时,其中一些查询的延迟超过5分钟,但集群利用率仅为14%。 这就是我要传达的信息...

回答 1 投票 0

Hive 托管表问题,从 CDP 中的 hdfs 位置创建 Hive 表

我有一个 CDP 7.3.1,使用 sqoop ,我已将 Postgres 数据库表中的数据加载到 HDFS 位置 /ts/gp/node 中。现在我正在尝试为此创建一个配置单元表。我收到以下错误。请...

回答 1 投票 0

Hive - 创建表 - 在 ')' 附近的 'SORT' 处缺少 EOF

当我尝试执行下面的查询(CREATE)时出现此错误。 有什么建议吗? 错误: - - - - - - - - - - - - - - - - - - - - - - - - ------------------------ [sshexec] 2022-08-22 11:48:36: >>

回答 1 投票 0

如何远程连接HIVE DB

我尝试从服务器 A 连接到服务器 B (HIVE),尝试了 JDBC,但最终出现错误 JDBC Hive2 Kerbros 无效状态 21 错误 检查时发现beeline可以用来连接HIVE...

回答 1 投票 0

升级impyla到0.12.0后出错

我曾经使用 impyla 0.9.0 连接到 impala。但是当我将 impyla 升级到 0.12.0 后,我被告知不再需要指定协议参数,因为 impyla 只支持 HiveServer...

回答 1 投票 0

无法让极坐标从 S3 404 未找到读取配置单元布局镶木地板文件

我正在努力通过极坐标从 S3 读取数据,但一直得到无用的信息 客户端错误,状态为 404 Not Found 数据分布在 S3 中,我认为是 Hive 分区(al...

回答 1 投票 0

带有溢出和 Alluxio 缓存的 Trino 向对象存储发出大量请求

我有 Trino、Hive Metastore 和 Minio 存储的本地设置。我已经在 Trino 上启用并配置了 Alluxio 缓存和磁盘溢出。对对象存储的请求数量更高

回答 1 投票 0

如何将 SparkDFDataset 添加到我的远大前程验证器中?

感谢您对以下问题的建议。 我正在测试远大前程是否可以在我的蜂巢表上使用。理想情况下,我想打开一个 html 文件,显示我对用户朋友的期望......

回答 1 投票 0

Apache Ranger 中基于标签的策略不起作用

我是 Apache Ranger 和大数据领域的新手。我正在研究本地大数据管道。我已经使用 ranger hive pl 在 Apache Ranger(版本 2.2.0)中配置了基于资源的策略...

回答 2 投票 0

Trino 负载测试返回 SERVICE_UNAVAILABLE

我正在 Trino 上运行一个简单的并发查询负载测试,大多数请求都成功。但是,失败的日志条目与以下日志条目相关: 2024-05-03 07:13:08 2024...

回答 1 投票 0

如何使用 Spark 数据框架的架构创建 Hive 表?

我想使用 Spark 数据帧的架构创建一个配置单元表。我怎样才能做到这一点? 对于固定列,我可以使用: val CreateTable_query = "创建表我的表(a string, b string, c double)"

回答 6 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.