pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

AWS Glue ETL作业缺少对爬网程序可见的字段

我有一个由爬虫创建的表,指向存储在s3中的一些镶木地板文件。从Glue数据目录GUI中我可以看到许多字段(53)。当我打开ETL dev端点并与...连接时

回答 3 投票 1

如何将嵌套的Struct列展开为多列?

我正在尝试将具有嵌套结构类型(见下文)的DataFrame列扩展为多个列。我正在使用的Struct模式看起来像{“foo”:3,“bar”:{“baz”:2}}。理想情况下,我......

回答 2 投票 2

AWS Glue to Redshift:是否可以替换,更新或删除数据?

以下是关于如何设置内容的一些要点:我将CSV文件上传到S3,并使用Glue爬虫设置来创建表和架构。我有一个写入数据的胶水作业设置......

回答 6 投票 18

是否有通用的方法来读取spark中的多线json。更具体的是火花?

我有一个多行json像这样{“_ id”:{“$ oid”:“50b59cd75bed76f46522c34e”},“student_id”:0,“class_id”:2,“得分”:[{“type”:“考试”, “得分”:57.92947112575566},{“type”:“...

回答 1 投票 0

PySpark列表中的项目

以下是我正在尝试实现的操作:types = [“200”,“300”] def Count(ID):cnd = F.when((** F.col(“type”)类型**) ,1).otherwise(F.lit(0))返回F.sum(cnd).alias(“CountTypes”)...

回答 1 投票 1

PySpark中pandas_udf的隐式模式?

这个答案很好地解释了如何使用pyspark的groupby和pandas_udf来进行自定义聚合。但是,我不可能手动声明我的架构,如示例的这一部分所示......

回答 2 投票 2

在pyspark如何广播和巨大的rdd?

当我打印出我的rdd的第一个元素如下:print(“input = {}”。format(input.take(1)[0]))我得到一个结果:(u'motor',[0.001, ...,0.9])[0.001,...,0.9]的类型是一个列表。 ...

回答 1 投票 0

pyspark读取csv文件multiLine选项不适用于具有换行符spark2.3和spark2.2的记录

我正在尝试使用pyspark csv reader读取dat文件,它包含换行符(“\ n”)作为数据的一部分。 Spark无法将此文件作为单列读取,而是将其视为新的...

回答 1 投票 1

使用SparkSession.builder时如何设置profiler_cls?

我有一个python代码库,它使用pyspark的SparkSession.builder来创建SparkSession。我正处于想要分析正在运行的python代码的位置。如果我正在调用SparkContext ...

回答 1 投票 0

从json模式构建spark模式

我正在尝试构建一个想要在创建数据帧时显式提供的spark模式我可以使用下面的pyspark.sql.types生成json模式import StructType #Save schema from ...

回答 3 投票 2

从PyCharm连接到运行Spark-Session

我目前正在尝试设置我的火花环境,并想知道什么是最佳实践。我想在Pycharm中编写我的代码并从那里执行它。我如何连接到本地(在我的Mac上)...

回答 1 投票 0

pyspark用正则表达式替换正则表达式

我试图替换正则表达式(在这种情况下是一个带数字的空格)我有一个包含字符串列的Spark数据帧。我想用逗号替换正则表达式(空格加数字)而不用...

回答 1 投票 0

RDD take()方法如何在内部工作?

我知道take(n)将返回RDD的n个元素,但是Spark如何决定从哪个分区调用这些元素以及应该选择哪些元素?它是否维护索引......

回答 1 投票 0

转发新行填写缺失日期的帐户

我目前有一个数据集,按变量“聚合器”分组为每小时增量。这个小时数据中存在差距,我理想的做法是向前填充前一行的行...

回答 1 投票 1

如何使用PySpark将SparseVector中的前X个单词转换为字符串数组

我目前正在集中一些文本文档。由于PySpark方法,我正在使用K-means并使用TF-IDF继续我的数据。现在我想得到每个集群的前10个单词:当我这样做时:......

回答 1 投票 1

Spark:相当于数据帧中的zipwithindex

假设我有以下数据帧:dummy_data = [('a',1),('b',25),('c',3),('d',8),('e',1) ] df = sc.parallelize(dummy_data).toDF(['letter','number'])我想创建以下内容......

回答 1 投票 5

如何使用具有火花数据流结构的非基于时间的窗口?

我正在尝试使用带有spark和kafka的结构化流媒体窗口。我在非基于时间的数据上使用窗口,因此我收到此错误:'流式DataFrames /不支持非基于时间的窗口...

回答 2 投票 1

如何使用pyspark在jupyter笔记本中显示我的csv数据文件

我正在研究一个大数据csv数据集。我需要使用pyspark在jupyter-notebook上阅读它。我的数据大约是400多万条记录(540000行和7列。)我能做什么,我可以显示我的所有数据集......

回答 1 投票 0

将groupBy聚合为csv文件后保存pyspark数据帧

我正在学习pyspark,我对如何将分组数据帧保存为csv文件感到困惑(假设由于某些原因 - 例如RAM限制 - 我不想先将其转换为Pandas ...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.