Hive是Hadoop的数据仓库系统,可以简化数据汇总,即席查询以及分析存储在Hadoop兼容的分布式文件系统中的大型数据集。 Hive提供了一种机制,用于将结构投影到此数据上,并使用类似SQL的语言HiveQL查询数据。
我试图将 Hive 查询的输出保存在 HDFS 上,但数据发生了更改。任何想法? 请参阅下面的数据和更改后的数据。 删除文件名前的空格:) 正确的: 乱七八糟:
将数据推送到 Impala 时,错误包含不支持写入的分区格式:“ORC”
所以我想通过以下方式将我的 pandas dataframe 格式化表推送到 Impala 数据库: IMPALA_HOST = os.getenv('172.16.16.10') conn = 连接(主机=host_impala,端口=21050) 光标 = conn.cursor() def Push_h...
我们可以使用多个sparksessions来访问两个不同的Hive服务器吗
我有一个场景来比较来自两个单独的远程配置单元服务器的两个不同的表源和目标,我们是否可以使用两个 SparkSession,就像我在下面尝试的那样:- 瓦尔火花 =
我已经设置了三个联网的容器,因为我想将 Hadoop 和 Hive 与 PostgreSQL 一起使用。您可以通过 https://github.com/jcool12/hadoop-docker/tree/main/hi... 访问 Docker 设置
我有一个与 HDFS 路径关联的配置单元表。该表被定期作业覆盖,并且有一些下游消费者。该表在被覆盖时会被删除,并且如果出现
如何修改与 Spark 表关联的注释,例如: ALTER TABLE 表 CHANGE 列 1 列 1 VARCHAR COMMENT“一些注释” 但对于评论表的描述。 谢谢!
Docker Hive - /entrypoint.sh:第 4 行:pg_isready:找不到命令
我已经设置了三个联网的容器,因为我想将 Hadoop 和 Hive 与 PostgreSQL 一起使用。您可以通过 https://github.com/jcool12/hadoop-docker/tree/main/hi 访问设置的 docker...
我正在尝试使用 Athena 创建外部表。正在读取的数据格式为镶木地板,我的外部表脚本是: 如果不存在则创建外部表 my_table ( 一个字符串, ...
Spark-ThriftServer 阻止 Spark SQL 运行
问题发生在我的本地环境中,我使用 docker compose 来编排 hadoop、hive、spark 和 airflow 在不同的服务/容器中运行。我已经简化了这里的设置所以...
如何使用 JDBC 和 SSL 连接远程 Hive 服务器?
我有以下 Hive 的 JDBC URL,我可以从 Beeline 连接。我想知道如何使用 Python 连接到同一 Hive 服务器。 下面是我从 Beeline 使用的命令来连接到...
我有一个下表,有 5 列。 CLASS 列包含带有空数组的数据。 钥匙 到达 载体 班级 离开 50B1AE7A0C1BF0001521CEE [“2024-02-15T11:35:00.000+08:00”,&quo...
在长时间运行的 Hive 插入查询期间“TSocket 读取 0 个字节”
我正在使用 PyHive 0.6.1 在 Hive 中运行一个较长的插入查询,但它因 thrift.transport.TTransport.TTransportException 失败:运行大约 5 分钟后,TSocket 读取了 0 个字节。在服务器上...
如何在 hive 中的 csv 文件名中包含 shell 变量
我正在运行一个脚本,该脚本将自动每季度运行一次,因此我想在此脚本末尾的 csv 输出名称中包含动态日期变量。这是相关的...
编写 Hive SQL 查询以从如下所示的输入中获取输出。 我正在尝试添加按 event_ts 排序的排名列。但如果任何连续行都有相同的 item_id,它们应该...
如何从 AWS Kinesis Firehose 写入具有 int64 时间戳(而不是 int96)的 Parquet 文件?
为什么 int96 时间戳对我不起作用? 我想使用 S3 Select 读取 Parquet 文件。根据文档,S3 Select 不支持保存为 int96 的时间戳。另外,存储时间戳...
Hive 安装问题:Hive Metastore 数据库未初始化
我尝试在树莓派2上安装hive。我通过解压缩压缩的Hive包来安装Hive,并在我创建的hduser用户组下手动配置$HADOOP_HOME和$HIVE_HOME。跑步时嗨...
我在配置单元中有 orc 表,我想从此表中删除列 ALTER TABLE 表名 drop col_name; 但我收到以下异常 执行配置单元查询时发生错误:确定失败:
Apache Tez 任务在 Application Master 上暂停
我有一个tez问题,当同时运行大约14个查询时,其中一些查询的延迟超过5分钟,但集群利用率仅为14%。 这就是我要传达的信息...
Hive 托管表问题,从 CDP 中的 hdfs 位置创建 Hive 表
我有一个 CDP 7.3.1,使用 sqoop ,我已将 Postgres 数据库表中的数据加载到 HDFS 位置 /ts/gp/node 中。现在我正在尝试为此创建一个配置单元表。我收到以下错误。请...