apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

如何使用spark将json文件转换为dataframe?

我今天的任务之一是读取一个简单的 json 文件,将其转换为数据帧,并对数据帧进行循环并进行一些验证等... 这是我的代码的一部分: Bucket_name = 'julio-s3' json_so...

回答 1 投票 0

从 Databricks 工作区读取 json 文件

我在这里使用 Databricks 官方文档中的第二个示例:使用工作区文件。但我收到以下错误: 问题:导致该错误的原因可能是什么,我们该如何解决? ...

回答 1 投票 0

.gz 文件是不可分割的。但如果我将它们放在 HDFS 中,它们会根据块大小创建多个块

我们都知道.gz是不可分割的,这意味着只有单核可以读取它。这意味着,当我将一个巨大的 .gz 文件放在 HDFS 上时,它实际上应该作为单个块存在。我看到它正在变得 sp...

回答 1 投票 0

将 json 转换为数据框的最佳方法是什么?

我有一个关于将此 JSON 转换为 Dataframe 的最佳方法的问题: Json数据: { “我的模式”:{ “账户”:{ "load_type": "每日&quo...

回答 1 投票 0

pandas.spark 中的系列等效项

我有一个用pandas编写的脚本,我需要将其移植到apche Spark(pyspark)中。我已经完成了所有其他的事情,但我似乎找不到一种方法将 pandas 系列转换为 Spark。例如,

回答 1 投票 0

是否可以将 PySpark ETL 管道的每个步骤分配给 Airflow DAG 的单独任务?

据我所知,我需要使用 SparkSubmitOperator 来提交我的 PySpark 脚本。但是,如果我想将 Spark 作业的提取、转换和加载部分分配给 Ai 中的不同任务该怎么办...

回答 1 投票 0

如何使用 PySpark 处理单列中的多种日期格式?

我正在 PySpark 中使用一个 DataFrame,其中包含一个名为 datdoc 的列,该列具有多种日期格式,如下所示: 数据文档 24 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 24 年 9 月 7 日 2 月 7 日...

回答 1 投票 0

如何使用 pandas 读取存储在 adls gen 2 中的文件?

我正在尝试通过 databricks 笔记本中的 pandas 读取镶木地板文件。集群有访问adls的权限。 将 pandas 导入为 pd pdf = pd.read_parquet("abfss://abc.parquet") 但是

回答 3 投票 0

找不到pyspark测试模块

虽然,在 github 的源代码中我看到 pyspark.testing 模块存在,但是,我的本地环境抛出错误,指出找不到 pyspark.testing 。 https://github.com/apache/spark/blob/

回答 1 投票 0

Airflow GlueJob 操作员创建 Python2 作业

我正在尝试使用以下代码从 Apache Airflow 运行 Glue 作业: 以 TaskGroup(group_id= DAG_NAME + '_group', dag=dag) 作为 tg: 对于 jobs_params 中的工作: 胶水 = GlueJobOperator( ...

回答 1 投票 0

spark SQL中IF和IFF有什么区别?

这两个函数的文档实际上是相同的。 请参阅 IF 和 IFF。 运行时(在 DBR 13.3 中,但这并不重要): 选择 如果(1 = 1,'a','b'),如果(1 = 0,'a','b'), 我...

回答 1 投票 0

如何使用 AWS Glue 和 Spark 创建包含包含空值的对象数组的 JSON?

我正在使用 AWS Glue 和 Apache Spark 开发数据转换管道。我的目标是创建一个包含对象数组的 JSON 输出,其中包含所有字段,即使它们包含...

回答 1 投票 0

Spark 3.5.0 java.lang.NoSuchFieldError:JAVA_11

尝试升级我的项目以使用Spark 3.5.0 Maven 全新安装时遇到问题 我所有涉及 Spark 的测试都失败并出现以下错误 异常或错误导致运行中止:JAVA_...

回答 1 投票 0

如何更新 SparkR 中的 Spark 设置?

我正在尝试使用 SparkR 从数据库中提取一个非常大的数据集到我的 Databricks 集群上,以在其上运行一些 R 函数。 然而,我遇到了一个问题,尽管我的集群定义......

回答 1 投票 0

使用scala Spark通过zstd压缩读取Kafka数据

我们正在尝试使用 zstd 压缩从 Kafka Producer 读取数据。 但出现错误 - java.lang.NoClassDefFoundError: com/github/luben/zstd/ZstdOutputStreamNoFinalizer 我们正在使用 Spark 3.3.2...

回答 1 投票 0

pyspark 中出现 java.io.EOFException 错误,导致内存达到最大

我只是想运行下面的代码来学习 Pyspark 中拆分列的概念,但我遇到了错误 数据= [(“约翰,多伊”,30), (“简,史密斯”,25), ...

回答 1 投票 0

在 pyspark 中左连接两个排序的数据帧

我有两个数据框,它们按某一列排序,这也是连接键。 是否可以合并这两个数据帧,并在 O(n+m) 时间内返回排序后的数据帧?我不在乎它是否没有完成

回答 1 投票 0

单个小文件的Parquet分区策略及读取优化

我有一个 5 到 100Mb 数据的镶木地板文件。 当我尝试在日期列上创建分区时,会创建多个文件,这会降低读取性能,因为有很多...

回答 1 投票 0

Databricks Spark 在收集增量表时卡在 0 运行状态

我正在数据块上执行这个简单的代码: df = Spark.read.table(table_name).sample(fraction=0.1) my_df = df.collect() 我正在访问 Unity 目录上的外部托管 Delta 表,该表...

回答 1 投票 0

org.apache.spark.SparkException ... java.io.IOException:无法连接到/IP_ADDRESS

我想使用apache-zeppelin,但我无法使简单的 RDD.collect() 工作。 问题是这样的: org.apache.spark.SparkException:作业因阶段失败而中止:阶段 0.0 中的任务 2 失败 1 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.