apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

如何使用spark将json文件转换为dataframe？

我今天的任务之一是读取一个简单的 json 文件，将其转换为数据帧，并对数据帧进行循环并进行一些验证等... 这是我的代码的一部分： Bucket_name = 'julio-s3' json_so...

python dataframe apache-spark pyspark aws-glue

回答 1 投票 0

从 Databricks 工作区读取 json 文件

我在这里使用 Databricks 官方文档中的第二个示例：使用工作区文件。但我收到以下错误：问题：导致该错误的原因可能是什么，我们该如何解决？ ...

apache-spark pyspark databricks databricks-sql

回答 1 投票 0

.gz 文件是不可分割的。但如果我将它们放在 HDFS 中，它们会根据块大小创建多个块

我们都知道.gz是不可分割的，这意味着只有单核可以读取它。这意味着，当我将一个巨大的 .gz 文件放在 HDFS 上时，它实际上应该作为单个块存在。我看到它正在变得 sp...

apache-spark hadoop split hdfs

回答 1 投票 0

将 json 转换为数据框的最佳方法是什么？

我有一个关于将此 JSON 转换为 Dataframe 的最佳方法的问题： Json数据： { “我的模式”：{ “账户”：{ "load_type": "每日&quo...

python json dataframe apache-spark pyspark

回答 1 投票 0

pandas.spark 中的系列等效项

我有一个用pandas编写的脚本，我需要将其移植到apche Spark（pyspark）中。我已经完成了所有其他的事情，但我似乎找不到一种方法将 pandas 系列转换为 Spark。例如，

pandas apache-spark pyspark

回答 1 投票 0

是否可以将 PySpark ETL 管道的每个步骤分配给 Airflow DAG 的单独任务？

据我所知，我需要使用 SparkSubmitOperator 来提交我的 PySpark 脚本。但是，如果我想将 Spark 作业的提取、转换和加载部分分配给 Ai 中的不同任务该怎么办...

apache-spark airflow directed-acyclic-graphs spark-submit

回答 1 投票 0

如何使用 PySpark 处理单列中的多种日期格式？

我正在 PySpark 中使用一个 DataFrame，其中包含一个名为 datdoc 的列，该列具有多种日期格式，如下所示：数据文档 24 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 24 年 9 月 7 日 2 月 7 日...

python apache-spark date pyspark apache-spark-sql

回答 1 投票 0

如何使用 pandas 读取存储在 adls gen 2 中的文件？

我正在尝试通过 databricks 笔记本中的 pandas 读取镶木地板文件。集群有访问adls的权限。将 pandas 导入为 pd pdf = pd.read_parquet("abfss://abc.parquet") 但是

python python-3.x pandas apache-spark databricks

回答 3 投票 0

找不到pyspark测试模块

虽然，在 github 的源代码中我看到 pyspark.testing 模块存在，但是，我的本地环境抛出错误，指出找不到 pyspark.testing 。 https://github.com/apache/spark/blob/

apache-spark pyspark

回答 1 投票 0

Airflow GlueJob 操作员创建 Python2 作业

我正在尝试使用以下代码从 Apache Airflow 运行 Glue 作业：以 TaskGroup(group_id= DAG_NAME + '_group', dag=dag) 作为 tg：对于 jobs_params 中的工作：胶水 = GlueJobOperator( ...

amazon-web-services apache-spark pyspark airflow aws-glue

回答 1 投票 0

spark SQL中IF和IFF有什么区别？

这两个函数的文档实际上是相同的。请参阅 IF 和 IFF。运行时（在 DBR 13.3 中，但这并不重要）：选择如果（1 = 1，'a'，'b'），如果（1 = 0，'a'，'b'），我...

apache-spark apache-spark-sql

回答 1 投票 0

如何使用 AWS Glue 和 Spark 创建包含包含空值的对象数组的 JSON？

我正在使用 AWS Glue 和 Apache Spark 开发数据转换管道。我的目标是创建一个包含对象数组的 JSON 输出，其中包含所有字段，即使它们包含...

apache-spark pyspark etl aws-glue

回答 1 投票 0

Spark 3.5.0 java.lang.NoSuchFieldError：JAVA_11

尝试升级我的项目以使用Spark 3.5.0 Maven 全新安装时遇到问题我所有涉及 Spark 的测试都失败并出现以下错误异常或错误导致运行中止：JAVA_...

scala apache-spark

回答 1 投票 0

如何更新 SparkR 中的 Spark 设置？

我正在尝试使用 SparkR 从数据库中提取一个非常大的数据集到我的 Databricks 集群上，以在其上运行一些 R 函数。然而，我遇到了一个问题，尽管我的集群定义......

r apache-spark sparkr

回答 1 投票 0

使用scala Spark通过zstd压缩读取Kafka数据

我们正在尝试使用 zstd 压缩从 Kafka Producer 读取数据。但出现错误 - java.lang.NoClassDefFoundError: com/github/luben/zstd/ZstdOutputStreamNoFinalizer 我们正在使用 Spark 3.3.2...

scala apache-spark apache-kafka zstd

回答 1 投票 0

pyspark 中出现 java.io.EOFException 错误，导致内存达到最大

我只是想运行下面的代码来学习 Pyspark 中拆分列的概念，但我遇到了错误数据= [(“约翰，多伊”，30)，（“简，史密斯”，25）， ...

apache-spark pyspark

回答 1 投票 0

在 pyspark 中左连接两个排序的数据帧

我有两个数据框，它们按某一列排序，这也是连接键。是否可以合并这两个数据帧，并在 O(n+m) 时间内返回排序后的数据帧？我不在乎它是否没有完成

apache-spark pyspark apache-spark-sql

回答 1 投票 0

单个小文件的Parquet分区策略及读取优化

我有一个 5 到 100Mb 数据的镶木地板文件。当我尝试在日期列上创建分区时，会创建多个文件，这会降低读取性能，因为有很多...

java apache-spark apache-spark-sql parquet

回答 1 投票 0

Databricks Spark 在收集增量表时卡在 0 运行状态

我正在数据块上执行这个简单的代码： df = Spark.read.table(table_name).sample(fraction=0.1) my_df = df.collect() 我正在访问 Unity 目录上的外部托管 Delta 表，该表...

apache-spark pyspark databricks delta-lake

回答 1 投票 0

org.apache.spark.SparkException ... java.io.IOException：无法连接到/IP_ADDRESS

我想使用apache-zeppelin，但我无法使简单的 RDD.collect() 工作。问题是这样的： org.apache.spark.SparkException：作业因阶段失败而中止：阶段 0.0 中的任务 2 失败 1 ...

scala apache-spark apache-zeppelin

回答 1 投票 0

apache-spark 相关问题

最新问题