pyspark 相关问题

Spark Python API（PySpark）将apache-spark编程模型暴露给Python。

AWS Glue ETL作业缺少对爬网程序可见的字段

我有一个由爬虫创建的表，指向存储在s3中的一些镶木地板文件。从Glue数据目录GUI中我可以看到许多字段（53）。当我打开ETL dev端点并与...连接时

python amazon-web-services pyspark aws-glue

回答 3 投票 1

如何将嵌套的Struct列展开为多列？

我正在尝试将具有嵌套结构类型（见下文）的DataFrame列扩展为多个列。我正在使用的Struct模式看起来像{“foo”：3，“bar”：{“baz”：2}}。理想情况下，我......

python apache-spark dataframe pyspark apache-spark-sql

回答 2 投票 2

AWS Glue to Redshift：是否可以替换，更新或删除数据？

以下是关于如何设置内容的一些要点：我将CSV文件上传到S3，并使用Glue爬虫设置来创建表和架构。我有一个写入数据的胶水作业设置......

amazon-web-services jdbc pyspark aws-glue

回答 6 投票 18

是否有通用的方法来读取spark中的多线json。更具体的是火花？

我有一个多行json像这样{“_ id”：{“$ oid”：“50b59cd75bed76f46522c34e”}，“student_id”：0，“class_id”：2，“得分”：[{“type”：“考试”， “得分”：57.92947112575566}，{“type”：“...

python json apache-spark pyspark

回答 1 投票 0

PySpark列表中的项目

以下是我正在尝试实现的操作：types = [“200”，“300”] def Count（ID）：cnd = F.when（（** F.col（“type”）类型**），1）.otherwise（F.lit（0））返回F.sum（cnd）.alias（“CountTypes”）...

apache-spark pyspark pyspark-sql

回答 1 投票 1

PySpark中pandas_udf的隐式模式？

这个答案很好地解释了如何使用pyspark的groupby和pandas_udf来进行自定义聚合。但是，我不可能手动声明我的架构，如示例的这一部分所示......

python apache-spark pyspark user-defined-functions

回答 2 投票 2

在pyspark如何广播和巨大的rdd？

当我打印出我的rdd的第一个元素如下：print（“input = {}”。format（input.take（1）[0]））我得到一个结果：（u'motor'，[0.001， ...，0.9]）[0.001，...，0.9]的类型是一个列表。 ...

apache-spark pyspark

回答 1 投票 0

pyspark读取csv文件multiLine选项不适用于具有换行符spark2.3和spark2.2的记录

我正在尝试使用pyspark csv reader读取dat文件，它包含换行符（“\ n”）作为数据的一部分。 Spark无法将此文件作为单列读取，而是将其视为新的...

python-3.x apache-spark pyspark spark-dataframe

回答 1 投票 1

使用SparkSession.builder时如何设置profiler_cls？

我有一个python代码库，它使用pyspark的SparkSession.builder来创建SparkSession。我正处于想要分析正在运行的python代码的位置。如果我正在调用SparkContext ...

python apache-spark pyspark profiling

回答 1 投票 0

从json模式构建spark模式

我正在尝试构建一个想要在创建数据帧时显式提供的spark模式我可以使用下面的pyspark.sql.types生成json模式import StructType #Save schema from ...

python apache-spark pyspark

回答 3 投票 2

从PyCharm连接到运行Spark-Session

我目前正在尝试设置我的火花环境，并想知道什么是最佳实践。我想在Pycharm中编写我的代码并从那里执行它。我如何连接到本地（在我的Mac上）...

python apache-spark pyspark pycharm

回答 1 投票 0

pyspark用正则表达式替换正则表达式

我试图替换正则表达式（在这种情况下是一个带数字的空格）我有一个包含字符串列的Spark数据帧。我想用逗号替换正则表达式（空格加数字）而不用...

pyspark

回答 1 投票 0

RDD take（）方法如何在内部工作？

我知道take（n）将返回RDD的n个元素，但是Spark如何决定从哪个分区调用这些元素以及应该选择哪些元素？它是否维护索引......

scala apache-spark pyspark

回答 1 投票 0

转发新行填写缺失日期的帐户

我目前有一个数据集，按变量“聚合器”分组为每小时增量。这个小时数据中存在差距，我理想的做法是向前填充前一行的行...

pyspark pyspark-sql

回答 1 投票 1

如何使用PySpark将SparseVector中的前X个单词转换为字符串数组

我目前正在集中一些文本文档。由于PySpark方法，我正在使用K-means并使用TF-IDF继续我的数据。现在我想得到每个集群的前10个单词：当我这样做时：......

python apache-spark pyspark

回答 1 投票 1

Spark：相当于数据帧中的zipwithindex

假设我有以下数据帧：dummy_data = [（'a'，1），（'b'，25），（'c'，3），（'d'，8），（'e'，1） ] df = sc.parallelize（dummy_data）.toDF（['letter'，'number']）我想创建以下内容......

python apache-spark pyspark spark-dataframe

回答 1 投票 5

如何使用具有火花数据流结构的非基于时间的窗口？

我正在尝试使用带有spark和kafka的结构化流媒体窗口。我在非基于时间的数据上使用窗口，因此我收到此错误：'流式DataFrames /不支持非基于时间的窗口...

pyspark apache-spark-sql spark-streaming

回答 2 投票 1

如何使用pyspark在jupyter笔记本中显示我的csv数据文件

我正在研究一个大数据csv数据集。我需要使用pyspark在jupyter-notebook上阅读它。我的数据大约是400多万条记录（540000行和7列。）我能做什么，我可以显示我的所有数据集......

python pyspark jupyter-notebook

回答 1 投票 0

将groupBy聚合为csv文件后保存pyspark数据帧

我正在学习pyspark，我对如何将分组数据帧保存为csv文件感到困惑（假设由于某些原因 - 例如RAM限制 - 我不想先将其转换为Pandas ...

python pandas pyspark pyspark-sql

回答 2 投票 0

pyspark 相关问题

最新问题