apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

Spark 分桶蜂巢 Metasore

我有两个分桶表,它们分桶在同一列名称上。 Spark 执行器如何将具有相同 id 分布的文件挑选到同一台机器中?Metastore 有什么帮助?

回答 1 投票 0

如何比较两个共享相同内容的StructType?

看起来 StructType 保留了顺序,因此两个包含相同 StructField 的 StructType 不被认为是等效的。 例如: val st1 = 结构类型( StructField("ii",StringType,true) ::

回答 3 投票 0

如何从 Spark Dataframe 插入、更新数据库中的行

我在Spark中制作了Dataframe。 数据框具有新行以及数据库表具有的关键列的相同行。 我需要插入新行并更新现有行。 例如: 数据框: 钥匙1 按键2

回答 3 投票 0

如何在 Spark 中使用基于日期的滑动窗口连接两个表?

我有两个 Spark 数据框。 一个是唯一的 ID,其输入日期数据框称为entry_table ID 条目日期 A1 2022-02-14 A2 2022-02-14 A5 2022-02-15 B1 2022-02-15 C1 2022-02-16 B5 202...

回答 1 投票 0

将每个键值对转换为pyspark中的dataframe的列

我有以下地图数组,我想将其转换为结构数组,以将所有键值对转换为数据帧的列 -- DurationPeriod: 数组 (nullable = true) | |-- 元素:m...

回答 1 投票 0

Pyspark 中的项目列表中的自定义熔化

我希望以定制的方式融化我的 pyspark 数据框。 我的数据框如下所示 从 pyspark.sql 导入 SparkSession 从 pyspark.sql.functions 导入 col, expr # 创建一个 SparkSess...

回答 1 投票 0

将 zip 文件读入 Apache Spark 数据帧

使用 Apache Spark(或 pyspark),我可以将文本文件读取/加载到 Spark 数据帧中,并将该数据帧加载到 sql 数据库中,如下所示: df = Spark.read.csv("MyFilePath/MyDataFile.txt", sep=...

回答 2 投票 0

如何在 Pyspark 中使用复杂数据类型

当我有一个数据框并且它有一个列名称是属性并且属性类型是时,我遇到以下问题 |-- 属性:字符串(可空 = true) 在那一栏中我有这样的价值观...

回答 1 投票 0

如何从 SparkSQL 中的列值中获取 MAX

我有一个用例,我需要从 SparkSQL 中的表的不同列中获取最大值。 下面是一个示例表 - 我想在不使用

回答 2 投票 0

如何在 Spark 中从文本文件创建 DataFrame

我在 HDFS 上有一个文本文件,我想将其转换为 Spark 中的数据帧。 我正在使用 Spark 上下文加载文件,然后尝试从该文件生成各个列。 val myFile...

回答 9 投票 0

在 columnSimilarties() Spark scala 之后获取列名称

我正在尝试使用spark中的columnSimilarities()构建基于项目的协同过滤模型。使用 columnsSimilarities() 后,我想将原始列名称分配回结果......

回答 1 投票 0

如何在 Spark SQL 中聚合

我有一个像这样的数据集 用户 ID |价值 第1111章 1111 活跃 2222 活跃 我想分组并获取每个用户的第一个可用值,所以我这样做 选择 用户身份,

回答 1 投票 0

未找到键:{columnName}#{randomNumber}

我在databricks中的Spark中有以下查询- 选择 bu.tenant_id、bu.service_location_id、bu.account_id、bu.commodity_type、bu.commodity_usage、bu.commodity_units、bu.charges、bu.billed_usage_start、bu。

回答 1 投票 0

如何获取每个ID的行之间的时间差和SQL中状态的变化

我正在尝试使用以下数据获取每个 id 和状态更改的时间差: 创建表Table1(idversion文本,id文本,状态文本,dt日期时间); 插入表1值 (“...

回答 1 投票 0

表在 YARN 中广播,但不在 K8s 中

我在 YARN 上的 Spark 和 K8s 上的 Spark 中运行相同的查询。 K8s 和 YARN 都引用相同的 hive 元存储和 hdfs 路径。当我在 YRAN 中运行作业时,某些表正在被广播(在...

回答 1 投票 0

当语句间条件不满足时默认为最新记录?

我有2张桌子。销售和产品价格。 销售情况如下: ID 代理门密钥 交易日期 1 第343章 2020-09-01T00:00:00 2 3 2020-08-01T00:00:00 3 3 2020-10-01T00:00:00 4 96 2020-09-01T00:00:00 ...

回答 1 投票 0

如何在顶部 csv 文件上创建临时视图

如何在顶部 csv 文件上创建临时视图。我正在 Azure Data bricks 中执行此视图创建。帮助我如何创建视图和读取数据。 我的数据如下所示: 德利米特:~ “1”~&quo...

回答 1 投票 0

如何将 SparkDFDataset 添加到我的远大前程验证器中?

感谢您对以下问题的建议。 我正在测试远大前程是否可以在我的蜂巢表上使用。理想情况下,我想打开一个 html 文件,显示我对用户朋友的期望......

回答 1 投票 0

非法模式字符:读取yaml时n

我有一个具有以下定义的yaml,但是在读取文件时我收到错误#错误:运行读取报告配置时失败。 非法模式字符:n - 来源:内部

回答 1 投票 0

如何在 Spark SQL 中向时间戳添加分钟?

我有一个 SQL Server 代码片段,其中存储过程。使用 DATEADD 函数将分钟添加到时间戳。这是代码: DATEADD(分钟,要添加的分钟数,时间戳列)AS new_time...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.