pyspark 相关问题

Spark Python API（PySpark）将apache-spark编程模型暴露给Python。

如何在 Scala Spark 中从 Excel（xls、xlsx）文件构造 Dataframe？

我有一个包含多个工作表的大型 Excel（xlsx 和 xls）文件，我需要将其转换为 RDD 或 Dataframe，以便稍后可以将其连接到其他数据框。我正在考虑使用 Apache POI 并保存...

excel scala apache-spark pyspark spark-excel

回答 5 投票 0

spark中select和filter的顺序有什么偏好吗？

我们有两种方法从 Spark 数据帧 df 中选择和过滤数据。第一的： df = df.filter("过滤器定义").select('col1', 'col2', 'col3') 第二： df = df.select('col...

apache-spark pyspark

回答 2 投票 0

Pyspark 根据条件将两行列合并或展平为单行

我有一个这样的数据集： ID,col_a,col_b,帐户类型詹姆斯·巴特,a1_col_a_data_1,a1_col_b_data_1,1 詹姆斯·巴特,a1_col_a_data_2,a1_col_b_data_2,2 艺术维内雷,a1_col_a_data_3,a1_col_b_data_3,1 莱娜

pyspark merge row flatten

回答 1 投票 0

错误SparkContext：无法添加spark-streaming-kafka-0-10_2.13-3.5.2.jar

错误 SparkContext：无法将 home/areaapache/software/spark-3.5.2-bin-hadoop3/jars/spark-streaming-kafka-0-10_2.13-3.5.2.jar 添加到 Spark 环境导入日志记录从 pyspark.sql 导入

python apache-spark pyspark spark-structured-streaming spark-kafka-integration

回答 1 投票 0

遇到 pyspark.sql.utils.AnalysisException：UDF 类未实现任何 UDF 接口

我正在尝试利用 pyspark 中的 Scala udfs 并遇到“pyspark.sql.utils.AnalysisException：UDF 类未实现任何 UDF 接口”错误我的 scala 代码看起来像这样爸...

scala apache-spark pyspark user-defined-functions

回答 1 投票 0

Pyspark HASH() 能否安全地将 UUID/GUID 转换为 BIGINT 并保持 Databricks 中的唯一性？

背景我正在开发 Databricks Lakehouse 实现，并且我们正在为多个表创建一些代理键，以促进标准化下游连接。我们的数据来自...

python database apache-spark pyspark databricks

回答 1 投票 0

由于spark.rpc.message.maxSize错误，无法通过胶水作业写入csv

我正在尝试通过 pandas 读取 xlsx 文件，转换一些列并将其转换为 Spark 数据帧，然后尝试通过 Glue 作业将其写入 CSV。使用 Spark 背后的原因是......

python amazon-web-services apache-spark pyspark

回答 1 投票 0

使“Total”行成为 pyspark 数据框中的最后一行

我有这个数据框 A栏平衡支付金额 ID 全部的 1000 10000 无效的 1211 0 5000 1 1211 1000 5000 2 我为此尝试过这段代码： df = (df.withColumn("Id", monotonically_increas...

pyspark azure-databricks

回答 1 投票 0

如何使用spark将json文件转换为dataframe？

我今天的任务之一是读取一个简单的 json 文件，将其转换为数据帧，并对数据帧进行循环并进行一些验证等... 这是我的代码的一部分： Bucket_name = 'julio-s3' json_so...

python dataframe apache-spark pyspark aws-glue

回答 1 投票 0

从 Databricks 工作区读取 json 文件

我在这里使用 Databricks 官方文档中的第二个示例：使用工作区文件。但我收到以下错误：问题：导致该错误的原因可能是什么，我们该如何解决？ ...

apache-spark pyspark databricks databricks-sql

回答 1 投票 0

如何在pyspark中用字典替换单行中的多个值？

我有一个专栏叫水果。每行的格式为 ["apple","banana","mango"]。我有一本包含 {oldvalue:newvalue} 的字典。我想更换appl...

azure pyspark apache-spark-sql databricks azure-synapse

回答 1 投票 0

将 json 转换为数据框的最佳方法是什么？

我有一个关于将此 JSON 转换为 Dataframe 的最佳方法的问题： Json数据： { “我的模式”：{ “账户”：{ "load_type": "每日&quo...

python json dataframe apache-spark pyspark

回答 1 投票 0

pandas.spark 中的系列等效项

我有一个用pandas编写的脚本，我需要将其移植到apche Spark（pyspark）中。我已经完成了所有其他的事情，但我似乎找不到一种方法将 pandas 系列转换为 Spark。例如，

pandas apache-spark pyspark

回答 1 投票 0

如何使用 PySpark 处理单列中的多种日期格式？

我正在 PySpark 中使用一个 DataFrame，其中包含一个名为 datdoc 的列，该列具有多种日期格式，如下所示：数据文档 24 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 24 年 9 月 7 日 2 月 7 日...

python apache-spark date pyspark apache-spark-sql

回答 1 投票 0

如何在pyspark中加载databricks包dbutils

我试图在 pyspark 中运行以下代码。 dbutils.widgets.text('配置', '', '配置') 它给我一个错误说回溯（最近一次调用最后一次）：文件“”，第 1 行...

pyspark databricks

回答 6 投票 0

Pyspark：如何获取当前月份的所有月份？

在pyspark中，我有这张表，我想获取过去几个月到当前月份的所有数据='九月' 一月二月行进四月可能六月七月八月九月十月十一月十二月 10 20 30 ...

dataframe pyspark

回答 1 投票 0

检查 Blob 存储中的文件是否为 MMDDYYYY 格式

我有一个来自 blob 存储的文件新文件 = Supervisor_08292024_095618.csv 我想检查日期是否采用 MMDDYYYY 格式。我尝试创建正确的文件名模式的模式：模式 1 = r'

pyspark azure-databricks

回答 1 投票 0

找不到pyspark测试模块

虽然，在 github 的源代码中我看到 pyspark.testing 模块存在，但是，我的本地环境抛出错误，指出找不到 pyspark.testing 。 https://github.com/apache/spark/blob/

apache-spark pyspark

回答 1 投票 0

Airflow GlueJob 操作员创建 Python2 作业

我正在尝试使用以下代码从 Apache Airflow 运行 Glue 作业：以 TaskGroup(group_id= DAG_NAME + '_group', dag=dag) 作为 tg：对于 jobs_params 中的工作：胶水 = GlueJobOperator( ...

amazon-web-services apache-spark pyspark airflow aws-glue

回答 1 投票 0

PySpark 到_timestamp 时区转换

据此，to_timestamp 将其转换为本地计算机的时区。我的机器时区是UTC。运行此命令时：选择 to_timestamp("2024-09-20 19-00-00+0530","yyyy-MM-dd HH...

pyspark timezone to-timestamp

回答 1 投票 0

pyspark 相关问题

最新问题