pyspark 相关问题

在我的代码片段下面。 Spark.read.table('schema.table_1').createOrReplaceTempView('d1') # 4亿条记录 Spark.read.table('schema.table_2').createOrReplaceTempView('d1') $3 亿条记录 ...

apache-spark pyspark aws-databricks

回答 1 投票 0

Spark 可以在 Macbook M4 Pro 上运行吗

我正在尝试在 VsCode 上运行一些 Spark 代码并遇到一些问题我期待它能够工作，但我必须通过虚拟环境运行它，即使这样做之后我仍然在运行......

pyspark

回答 1 投票 0

在 Spark 上的 CreateDataframe 期间提供架构时设置缺失列的默认值

我有一个具有以下格式的数据集：数据= [{“姓名”：“约翰”，“家庭”：“多伊}，{“姓名”：“杰克”}] 以及以下架构：模式=结构...

apache-spark pyspark

回答 1 投票 0

用 pyspark 数据框中的列表解析 json 字符串

我需要解析下面的json字符串，其中包含pyspark数据帧中列中的列表。在此输入图像描述我期望在解析 json 字符串后得到这样的结果...

json dataframe pyspark

回答 1 投票 0

pyspark - select 和 agg 之间的区别

以下两者有什么区别 - df.select(min("工资")).show() 和 df.agg({'工资':'分钟'}).show() 另外，这两者有什么区别—— df.groupBy("离开...

select pyspark group-by aggregate

回答 1 投票 0

Spark 流“initialPosition”与“startingPosition”？

spark Streaming 中的initialPosition 和startingPosition 有什么区别？我已经阅读了 Spark 文档、Delta 表文档、O'Reilly 指南，...他们提到了两者，但没有提到区别...

apache-spark pyspark streaming delta-lake

回答 1 投票 0

Azure Databricks：PySpark：无法使用 XSD 验证 XML 文件

这就是我所做的。创建了一个 XML 文件 xmlPath =“dbfs:/mnt/books.xml” xml字符串 = """ 科雷茨，伊娃 ...

xml pyspark xsd xml-validation

回答 1 投票 0

Azure databricks Pyspark.ml 问题构造函数 public org.apache.spark.ml.feature.OneHotEncoder(java.lang.String) 未列入白名单

我正在使用 pyspark.ml 在 Azure Databricks 上运行 RandomForest。错误信息： Py4JError：调用 None.org.apache.spark.ml.feature.OneHotEncoder 时发生错误。跟踪：py4j.security。

azure pyspark databricks

回答 1 投票 0

如何从 PySpark DataFrame 批量处理项目

我有一个 PySpark 数据框，对于每条（批次）记录，我想调用一个 API。所以基本上说我有 100000k 条记录，我想将项目批量分成 1000 条组并调用 API。怎么...

apache-spark pyspark

回答 3 投票 0

如何将非常大的 Spark 数据帧写入 AWS S3 中的单个 csv 文件？

我有一个非常大的 Spark DataFrame，我需要将其作为单个 CSV 文件写入 AWS S3 存储桶（我使用 pySpark）。我无法使用标准 csv_df.coalesce(1).write.csv() 方法，因为文件是...

apache-spark amazon-s3 pyspark

回答 1 投票 0

Pyspark 错误：“EMR 7.0.0 中未找到类 org.apache.hadoop.fs.s3a.S3AFileSystem”

我使用的是EMR 7.0.0版本，AWS中有python 3.9，spark 3.5.0，Hadoop 3.3.6。我收到错误：文件“/usr/local/lib/python3.9/site-packages/pyspark/python/lib/pyspark.zip/pyspark/sql/

amazon-web-services apache-spark amazon-s3 pyspark amazon-emr

回答 1 投票 0

dataframe withColumn 打印出列名称而不是值

嗨，我有以下带有派生列（withColumn）的数据框使用月份的某一天，如果月份的某一天是 1-9，则在值前添加 0。从 pyspark.sql.functions 导入 concat，to_date，...

python pyspark

回答 1 投票 0

为什么我需要使用数据框来处理数据块中的查询？（pyspark、sparksql）

我正在和一个朋友学习databricks，有一件事我真的不明白。我正在尝试在azure中存储帐户中的json文件中使用pyspark和spark sql进行查询。丝路...

apache-spark pyspark apache-spark-sql databricks

回答 2 投票 0

Pyspark 自加入需要大量时间

我有 pyspark df，我基于 2 列自行加入 cluster_id 具有不同计数的不同簇，unique_id 在每一行中都是唯一的。 df_filtered.repartition('簇...

performance apache-spark join pyspark

回答 1 投票 0

从 SQS 驱动的 Pyspark 结构化流检索路径

我有一个 DMS 生成的 s3 数据湖，并设置 SQS 来跟踪生成的文件。现在我想将其流式传输到我的 EMR 集群中，为此我在此处找到了 Spark Streaming s3 连接器 https://git...

apache-spark pyspark amazon-sqs spark-structured-streaming

回答 1 投票 0

pyspark 相关问题

最新问题