Apache Hive数据仓库基础结构中使用的SQL变体。将此标记用于与Hive查询语言相关的问题,包括HiveQL语法和HiveQL特定的函数。
Spark SQL、Hive 和 Presto SQL 在 Parquet 文件之上进行分析
我以 Parquet 格式存储了数 TB 的数据,用于分析用例。有多个大表也需要联接,并且查询量很大。该系统预计将高度自动化...
我有一个HIVE表如下: 按 id 从测试订单中选择 id、id_2、val; 234 974 0.5 234 457 0.7 234 236 0.5 234 859 0.6 123 859 0.7 123 236 0.6 123 974 0.5 123 457 0.5 我正在努力收集...
任何人都可以指导我如何使用 Python 运行 .hql 查询。尝试了 Hiveutils lib,但它不存在于开发环境中。还有其他方法来执行查询吗?
Hive 表是从 Spark 创建的,但在 hive 中不可见
来自 Spark 使用: DataFrame.write().mode(SaveMode.Ignore).format("orc").saveAsTable("myTableName") 表正在保存,我可以使用下面命令的 hadoop fs -ls /apps/hive/warehouse est 看到......
我有一个数组类型的列(例如值[1,2,3,4]),我想将其转换为字符串(例如“1,2,3,4”),我该如何这样做吗? 我尝试了 concat_ws(',' arr),但它抱怨 争论...
我一直在尝试使用 EMR 上的 Glue Data Catalog 和 Presto/Trino 查询一些非常简单的 Hive 视图,但没有成功。 错误是“未找到视图”或“不支持 Hive 视图”。我有...
我正在尝试从配置单元表导出数据,如下所示,但它正在生成以制表符作为分隔符的文件。导出时是否可以将分隔符指定为逗号或制表符? 蜂巢-e“ 使用...
我有一个字符串值,其中可能有前导零,所以我想删除所有前导零。 例如: accNumber =“000340”--->“340” Hive 中有可用的 UDF 吗?我们可以使用
我在Hive 1.1.0中有一个视图,根据条件,它应该返回一个空数组或一个struct数组 这是我的代码: 选择 当 ...
我想将新列添加到配置单元表中的特定位置。当我添加新列时,它会转到最后一个位置。
何时选择rank()而不是dense_rank()或row_number()
既然我们可以使用 row_number() 获取分配的行号,并且如果我们想使用 dendense_rank() 找到每一行的排名而不跳过分区内的任何数字,为什么我们需要 ra...
我分享在分区 Hive 表上添加列的经验。 正如您所看到的,尽管有 CASCADE 功能,但 ALTER 会破坏我的表:( 在分区表上添加列 表格描述...
有什么方法可以在 google colab 中编写配置单元查询和猪拉丁脚本吗?
我有以下表格结构: 表名:测试 表结构:这里的col1和col2是字符串。 第 1 列 列2 “abc” “2016 年 4 月 15 日” “定义” “2016 年 5 月 31 日” 什...
我有两个疑问: 从 t1 中选择 count(*) over (按 col1 分区) 和 选择当 count(*) over (partition by col1) >1 then 1 else 0 t1 结束时的情况 第一个工作正常。第二个
首先,我对 hive 和 druid 还比较陌生。 我已经设置了一个连接到 Druid 数据源的 Hive 外部表。我可以像查询简单的 SELECTS 一样。例子: 选择我...
我想将地址分成两列,即街道编号和街道名称,例如 从客户处选择地址1 前任的地址看起来像 第2719章 并将它们存储到街道号 2...
我无法使用 pyspark 读取 Hive 表及其元数据 我认为我正在准确地创建配置单元表 设置: 从 pyspark.sql 导入 SparkSession 从 pyspark.sql 导入函数...
编译语句时出错:FAILED:SemanticException [错误10036]:重复的列名称:p_id
什么时候 从 Hospital_basic 中选择 * LEFT JOIN Hospital_clinical on Hospital_basic.p_id=hospital_clinical.p_id; 它工作正常,但在创建视图时出现错误 创建视图医院_v...