Hive是Hadoop的数据仓库系统,可以简化数据汇总,即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。
我有一个关于查询大表的问题。 我们有一个 Hive 表,总共有 360 万条记录,每条记录有 120 个字段。我们想将该表中的所有记录传输到其他数据库...
我能够使用 trino 将表注释添加到 Iceberg 表中,使用以下 trino 命令: 表iceberg.table_schema.table_name 上的评论是“我的评论” 也可以从 p...
如果元素包含hive/SparkSQL中指定的字符串,则过滤掉数组元素
我有如下所示的示例数据,我想提取仅具有名称及其完整键而不是 dep_names 及其完整键的元素。 我正在尝试像下面这样的东西, 与数据集AS ( S...
HIVE SQL - 根据查询中的日期提取最大或最后一条记录
在此处输入图像描述我有一个应用程序表,我可以查询一些结果。在该表中,根据开始日期和结束日期,每个应用程序都有多个记录。 我需要重新启动...
如何在本地使用 Hive Metastore 运行 Apache Flink 来测试 Apache Iceberg
我想摆弄一下 Apache Flink 和 Apache Iceberg,并在本地计算机上进行测试。我通读了文档,但我仍然不确定必须在本地设置什么...
Spark SQL 中的 JSON 爆炸(将所有键转换为列)
我有如下数据。我希望所有键都转换为列(表结构由与 json 键相同的列组成)。我希望所有值都反映在行中。 使用数据集 AS ( 选择...
我是 Airflow 和 Python 的新手,我正在尝试配置计划报告。该报告需要从 Hive 中提取数据并通过电子邮件发送结果。 到目前为止我的代码: 从日期时间导入日期时间,
org.apache.spark.sql.catalyst.parser.ParseException:不匹配的输入“来自”期望<EOF>
我在 pyspark sql 中遇到以下错误。 org.apache.spark.sql.catalyst.parser.ParseException: 输入“来自”期望不匹配(第 9 行,位置 4) 选择a.appl_sta, a.appl_pcnvendorcode, a.
kubernetes 气流 hive 操作员错误:[Errno 13] 权限被拒绝:'hive';
我在尝试使用 Kubernetes Executor 在 Apache Airflow 中运行 HiveOperator 任务时遇到问题。 我有一个 Dockerfile,在其中安装了必要的依赖项,包括 apache-
我在合并到databricks笔记本中的大量数据集时遇到问题。 如何将合并转换为脚本来更新/插入? 目标表 = f""" 合并到 {
我将 json 数组存储在表(jt)中,如下所示: [{"col": 1, "row": 1, "code": "INVESTMENT_PERIOD", "name": "Thời gian đầu tư&...
无法使用 Airflow 2.1.2 DAG 中的 HiveOperator 连接到 Hive
我一直在努力从 HiveOperator 任务运行 Hive 查询。 Hive 和 Airflow 安装在 docker 容器中,我可以从 Airflow 容器中的 python 代码查询 Hive 表...
我是新人,我正在学习教程,所以我可能会提供一些不必要的信息。我使用 beeline 连接到 hive。然后我使用以下命令创建了一个名为“adv_sales_gt_20”的表...
我有下表 日期 姓名 2024-02-01 卢克 2024-02-01 爱丽丝 2024-02-01 约翰 2024-02-01 约翰 2024-02-02 标记 2024-02-02 爱丽丝 2024-02-02 标记 2024-02-03 约翰 2024-02-03 约翰 2024-...
创建外部表可降级( 第 1 列字符串, 第 2 列字符串, 第 3 列字符串) 行格式分隔字段以“|”结尾 位置“/数据/可降级”; 我创建外部表“可降级”并且...
我有一个文件a.csv.zst并且我创建了文本文件表。 当我在 hive 上选择时,我看到前 100 行没有错误,但是当我选择 count(*) 时,它给出错误未知帧描述符 我可以装饰...
使用 hive 操作符并传递 hql 文件在气流中运行 hql 文件 hive_task = HiveOperator( task_id='run_hql', hql='/path/to/your_query.hql', hive_conn_id='your_hive_connection_id',
覆盖 sprint hive jdbc 中的 hive 属性
我想覆盖我的一些配置单元属性值。我正在使用 spring 上下文连接到配置单元。基本上我想执行语句 SET hive.auto.convert.join=false;模板.执行(splitQuery)...
失败:访问 Hive 视图时执行错误,从 org.apache.hadoop.hive.ql.exec.mr.MapRedTask 异常返回代码 2
我正在尝试访问 Hive 中的视图,出现以下异常: 获取日志线程被中断,因为查询已完成! 错误:处理语句时出错:FAILED:执行错误,返回
如何检查sql hive中某一列的值是否存在于另一列的列表值中
我有表A如下: ID 十一月_产品 十二月产品 123 A 甲、丙、丁 123 乙 甲、丙、丁 第456章 C E、F、G December_product 是列表值,每个值以逗号分隔。我想检查是否值...