Hive是Hadoop的数据仓库系统,可以简化数据汇总,即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。
如何使用 JDBC 和 SSL 连接远程 Hive 服务器?
我有以下 Hive 的 JDBC URL,我可以从 Beeline 连接。我想知道如何使用 Python 连接到同一 Hive 服务器。 下面是我从 Beeline 使用的命令来连接到...
我有一个下表,有 5 列。 CLASS 列包含带有空数组的数据。 钥匙 到达 载体 班级 离开 50B1AE7A0C1BF0001521CEE [“2024-02-15T11:35:00.000+08:00”,&quo...
在长时间运行的 Hive 插入查询期间“TSocket 读取 0 个字节”
我正在使用 PyHive 0.6.1 在 Hive 中运行一个较长的插入查询,但它因 thrift.transport.TTransport.TTransportException 失败:运行大约 5 分钟后,TSocket 读取了 0 个字节。在服务器上...
如何在 hive 中的 csv 文件名中包含 shell 变量
我正在运行一个脚本,该脚本将自动每季度运行一次,因此我想在此脚本末尾的 csv 输出名称中包含动态日期变量。这是相关的...
编写 Hive SQL 查询以从如下所示的输入中获取输出。 我正在尝试添加按 event_ts 排序的排名列。但如果任何连续行都有相同的 item_id,它们应该...
如何从 AWS Kinesis Firehose 写入具有 int64 时间戳(而不是 int96)的 Parquet 文件?
为什么 int96 时间戳对我不起作用? 我想使用 S3 Select 读取 Parquet 文件。根据文档,S3 Select 不支持保存为 int96 的时间戳。另外,存储时间戳...
Hive 安装问题:Hive Metastore 数据库未初始化
我尝试在树莓派2上安装hive。我通过解压缩压缩的Hive包来安装Hive,并在我创建的hduser用户组下手动配置$HADOOP_HOME和$HIVE_HOME。跑步时嗨...
我在配置单元中有 orc 表,我想从此表中删除列 ALTER TABLE 表名 drop col_name; 但我收到以下异常 执行配置单元查询时发生错误:确定失败:
Apache Tez 任务在 Application Master 上暂停
我有一个tez问题,当同时运行大约14个查询时,其中一些查询的延迟超过5分钟,但集群利用率仅为14%。 这就是我要传达的信息...
Hive 托管表问题,从 CDP 中的 hdfs 位置创建 Hive 表
我有一个 CDP 7.3.1,使用 sqoop ,我已将 Postgres 数据库表中的数据加载到 HDFS 位置 /ts/gp/node 中。现在我正在尝试为此创建一个配置单元表。我收到以下错误。请...
Hive - 创建表 - 在 ')' 附近的 'SORT' 处缺少 EOF
当我尝试执行下面的查询(CREATE)时出现此错误。 有什么建议吗? 错误: - - - - - - - - - - - - - - - - - - - - - - - - ------------------------ [sshexec] 2022-08-22 11:48:36: >>
我尝试从服务器 A 连接到服务器 B (HIVE),尝试了 JDBC,但最终出现错误 JDBC Hive2 Kerbros 无效状态 21 错误 检查时发现beeline可以用来连接HIVE...
我曾经使用 impyla 0.9.0 连接到 impala。但是当我将 impyla 升级到 0.12.0 后,我被告知不再需要指定协议参数,因为 impyla 只支持 HiveServer...
无法让极坐标从 S3 404 未找到读取配置单元布局镶木地板文件
我正在努力通过极坐标从 S3 读取数据,但一直得到无用的信息 客户端错误,状态为 404 Not Found 数据分布在 S3 中,我认为是 Hive 分区(al...
带有溢出和 Alluxio 缓存的 Trino 向对象存储发出大量请求
我有 Trino、Hive Metastore 和 Minio 存储的本地设置。我已经在 Trino 上启用并配置了 Alluxio 缓存和磁盘溢出。对对象存储的请求数量更高
如何将 SparkDFDataset 添加到我的远大前程验证器中?
感谢您对以下问题的建议。 我正在测试远大前程是否可以在我的蜂巢表上使用。理想情况下,我想打开一个 html 文件,显示我对用户朋友的期望......
我是 Apache Ranger 和大数据领域的新手。我正在研究本地大数据管道。我已经使用 ranger hive pl 在 Apache Ranger(版本 2.2.0)中配置了基于资源的策略...
Trino 负载测试返回 SERVICE_UNAVAILABLE
我正在 Trino 上运行一个简单的并发查询负载测试,大多数请求都成功。但是,失败的日志条目与以下日志条目相关: 2024-05-03 07:13:08 2024...
我想使用 Spark 数据帧的架构创建一个配置单元表。我怎样才能做到这一点? 对于固定列,我可以使用: val CreateTable_query = "创建表我的表(a string, b string, c double)"