apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

如何在pyspark数据框中分解字符串类型列并在表中创建单独的列

我从 pyspark 中的表加载的数据帧中获取以下值作为字符串。它是嵌套字典列表。我想使用 pyspark 进行爆炸并将它们作为表中的单独列。 数据框...

回答 1 投票 0

使用 Spark 将 DataFrame 写入 Cassandra 时出错:java.lang.NoClassDefFoundError: com/datastax/spark/connector/util/Logging

我在尝试将 DataFrame 从 Apache Spark 写入 Cassandra 时遇到问题。这是设置: 我正在本地计算机上以独立模式运行 Apache Spark 版本 3.3.3(bigdatapc...

回答 1 投票 0

ClassNotFoundException。不同 Scala 版本有问题吗?

当我尝试运行这个.py时: 导入日志记录 从 cassandra.cluster 导入集群 从 pyspark.sql 导入 SparkSession 从 pyspark.sql.functions 导入 from_json, col 从 pyspark.sql.types 导入

回答 1 投票 0

在 columnSimilarties() Spark scala 之后获取列名称

我正在尝试使用spark中的columnSimilarities()构建基于项目的协同过滤模型。使用 columnsSimilarities() 后,我想将原始列名称分配回结果......

回答 1 投票 0

从 databricks jdbc 连接读取数据到 redshift 时出错

我们使用 databricks 集群,在 30 分钟不活动后关闭(13.3 LTS(包括 Apache Spark 3.4.1、Scala 2.12))。 我的目标是读取红移表并将其写入雪花,我是

回答 1 投票 0

异常:在 Python 中创建 Spark 会话时,Java 网关进程在向驱动程序发送其端口号之前退出

所以,我尝试使用以下命令在 Python 2.7 中创建 Spark 会话: #初始化SparkSession和SparkContext 从 pyspark.sql 导入 SparkSession 从 pyspark 导入 SparkContext #Cre...

回答 6 投票 0

Spark 熔化/将列转置为值

我正在尝试将表的列转置为行 我有一个看起来像这样的表: +-----+-----+-----+-----+ |日期 |col_1|col_2|col_...| +----------------+--------------------+ | 1 | 0.0| 0.6| ...

回答 1 投票 0

如何在 Spark SQL 中聚合

我有一个像这样的数据集 用户 ID |价值 第1111章 1111 活跃 2222 活跃 我想分组并获取每个用户的第一个可用值,所以我这样做 选择 用户身份,

回答 1 投票 0

在 Spark 中读取 .csv 文件时如何将第二行视为标题

我想跳过第一行并从第二行开始考虑,我使用标题起始位置为2,跳过行为1,但它不起作用,因为它也将第二行作为数据加载。有人可以请...

回答 1 投票 0

使用 Apache Ivy / Spark 从 GitLab 包注册表获取工件时未经授权

我已将一个 jar 部署到 GitLab 包注册表,我正在尝试将其添加到我的 Spark 应用程序中。但是,它无法获得受密码保护的注册表的授权。 我试过设置火花...

回答 1 投票 0

无法读取 Spark 中的嵌套元素?

我正在尝试读取使用嵌套 jSON 创建的数据帧。不知何故,我无法读取嵌套键之一并出现错误。 val df=spark.read.json(Seq(""" [{ ”

回答 1 投票 0

使用已安装的spark和maven将Spark Scala程序编译成jar文件

仍在尝试熟悉maven并将我的源代码编译成jar文件以进行spark-submit。我知道如何使用 IntelliJ 来实现此目的,但想了解它实际上是如何工作的。我有...

回答 3 投票 0

如何确保分区小于maxSize?

假设我使用 SparkSession 将大型 CSV 文件(800K 行)转换为 DataFrame,如下所示: val 行 = csv.stripMargin.split(' ') val rdd = Spark.sparkContext.parallelize(行) val df = rdd.toDF

回答 1 投票 0

未找到键:{columnName}#{randomNumber}

我在databricks中的Spark中有以下查询- 选择 bu.tenant_id、bu.service_location_id、bu.account_id、bu.commodity_type、bu.commodity_usage、bu.commodity_units、bu.charges、bu.billed_usage_start、bu。

回答 1 投票 0

Spark 2.1 结构化流 - 使用 Kafka 作为 Python 源 (pyspark)

使用 Apache Spark 版本 2.1,我想使用 Kafka (0.10.0.2.5) 作为 pyspark 的结构化流的源: kafka_app.py: 从 pyspark.sql 导入 SparkSession 火花=SparkSession.builder。

回答 1 投票 0

如何获取每个ID的行之间的时间差和SQL中状态的变化

我正在尝试使用以下数据获取每个 id 和状态更改的时间差: 创建表Table1(idversion文本,id文本,状态文本,dt日期时间); 插入表1值 (“...

回答 1 投票 0

即使 Spark 作业完成后,EMR 任务仍保持在 RUNNING 状态

我在 EKS 上的 AWS EMR 上运行 PySpark 作业(使用 Apache Hudi),驱动程序代码如下: 与 (SparkSession.builder .appName(f"应用程序") .config('spark.serializer',...

回答 1 投票 0

表在 YARN 中广播,但不在 K8s 中

我在 YARN 上的 Spark 和 K8s 上的 Spark 中运行相同的查询。 K8s 和 YARN 都引用相同的 hive 元存储和 hdfs 路径。当我在 YRAN 中运行作业时,某些表正在被广播(在...

回答 1 投票 0

尽管已预先排序分桶表,但连接中的 Spark 排序操作

我正在使用 Spark,在连接两个预排序和分桶表期间遇到意外的排序操作。两个表都使用相同数量的存储桶创建,并且排序...

回答 1 投票 0

从增量表中过滤开始日和结束日的数据

我有一个按年、月、日分区的增量表。分区列设置为字符串。 我需要从 Delta 表中读取过去 7 天的数据。例如,如果作业在星期二运行...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.