pyspark 相关问题

Spark Python API（PySpark）将apache-spark编程模型暴露给Python。

选择一列的子集，然后与另一列进行比较

我在pyspark有一个csv文件，里面有大量的销售信息 - 单位，商店ID，总销售额，客户忠诚度，产品编号等。我需要比较那些客户的销售数量......

apache-spark pyspark spark-dataframe

回答 1 投票 0

metaclass = ABCmeta语法无效

我使用以下代码。我的PYSPARK_PYTHON在spark-env.sh中设置为python2.7。我在代码中将它更改为python3.5。即使在改变路径后我得到以下错误。 import os os.environ [“...

python python-3.x apache-spark pyspark

回答 1 投票 -2

从key - pyspark访问价值

我有一个具有以下结构的元组，它和RDD：[（'M'，0.016200000000000003），（'H'，0.0165），（'M'，0.0161），（'M'，0.0168），（'H' ，0.0167），（'M'，0.0165），（'M'，0.0165），（'H'，0 ....

python pyspark

回答 1 投票 1

PySpark - 分区中覆盖的数据

我看到一种情况，当一个pyspark数据帧保存到具有多列分区的hive表时，它也会覆盖子分区中的数据。或者 - 可能是我假设它是一个子分区。 ...

pyspark spark-dataframe hive-partitions

回答 1 投票 0

PySpark - 如何获取数据框中距离矩阵的上三角？

我在PySpark数据帧中有一个距离矩阵，我试图获取数据的上（或下）三角形，并将结果放在另一个数据帧中。例如，我正在努力......

python pyspark

回答 1 投票 0

我怎样才能获得倒排索引？

我再次使用Spark。如何使用Spark获取csv文件的反向索引？我有csv文件df.show（）+ -------- + -------------------- + ---------- ---------- + ---------- + | ID |标题| ...

apache-spark pyspark

回答 1 投票 0

从多个分区读取多个镶木地板文件

我试图通过pyspark从多个分区读取多个镶木地板文件，并将它们连接到一个大数据框。文件看起来像，hdfs dfs -ls / data / customers / odysseyconsultants / ...

apache-spark pyspark apache-spark-sql

回答 2 投票 2

为什么Spark运行的内存少于可用内存？

我在具有32 GB RAM的计算机上运行带有Spark的单节点应用程序。在我运行应用程序时，可以使用超过12GB的内存。但是从火花UI和日志中，我看到......

java apache-spark pyspark spark-streaming

回答 2 投票 2

Pyspark UDF for Dataframe vs RDD

python apache-spark pyspark spark-dataframe rdd

回答 1 投票 0

在jupyter中访问数据框元素pyspark

我是spark和pyspark的新手。我的DataFrame由几列组成，而在一些列中，则是数组或子数据帧。 df的printSchema如下图所示我的问题是......

python apache-spark dataframe pyspark

回答 1 投票 0

Kafka和Pyspark整合

我在大数据中天真，我试图将kafka连接到火花。这是我的生产者代码import os import sys import pykafka def get_text（）：##这个块生成我需要的文本。 ...

apache-spark pyspark apache-kafka pykafka

回答 1 投票 2

按日期分组火花数据帧

我已经从SQLServer表加载了一个DataFrame。它看起来像这样：>>> df.show（）+ -------------------- + ---------- + |时间戳|价值| + -------------------- + ---------- + | 2015 -...

python apache-spark pyspark apache-spark-sql

回答 2 投票 13

pyspark使用数据帧运行线性回归

我尝试在pyspark中使用数据框运行线性回归，但是在我尝试使用函数来创建字段，标签之后，它仍然给我一个错误。有人可以帮我弄清楚如何运行线性...

python dataframe pyspark linear-regression

回答 1 投票 0

如何使用配置单元简化计算效率？

代码在hive上运行：select day，count（mdn）* 5作为数字来自（选择不同的a.mdn，a.day来自流程a.day = date_add的左外连接流b（b.day，-1））和a.mdn = b.mdn左外连接流c ...

sql database hive pyspark

回答 1 投票 1

如何解析pyspark中的空格分隔数据？

我有以下类型的空间分隔的数据，我想用空格解析它但是当特定元素中有“空格”时我会遇到问题。 2018-02-13 17：21：52.809“EWQRR.OOM”“ERW WERT11”......

regex apache-spark pyspark

回答 3 投票 1

PySpark数据框显示错误的值

我刚刚从Pandas切换到PySpark数据框，发现在PySpark数据框中打印出相同的列会产生错误的值。这是一个例子：使用熊猫：df_pandas = pd.read_csv（“犯罪......

python pandas dataframe pyspark spark-dataframe

回答 1 投票 0

Pyspark中的平均向量与查找表

我正在尝试使用https://nlp.stanford.edu/projects/glove/中预先训练的GloVe模型在PySpark中实现一个简单的Doc2Vec算法。我有两个RDD：一对称为文档的RDD ...

python apache-spark pyspark

回答 1 投票 2

pyspark - 将收集的列表转换为元组

我的数据框如下：+ ---------------------------------- + | invoice_id | newcolor | + ------------ + --------------------- + | 1 | [红色，白色，绿色] | + ------------ + --------...

python pyspark

回答 1 投票 0

加载csv文件s3 pyspark的随机样本

我正在尝试在s3中加载一个总共100万行数据的随机样本。有没有一种简单的方法可以将s3中的随机样本直接加载到pyspark数据帧中？在熊猫中，这个df = ...

amazon-web-services csv amazon-s3 pyspark

回答 1 投票 1

如何根据2列比较PySpark中的2个数据帧？

在PySpark中，我试图比较两个常见列的数据帧。 Tha数据帧看起来像这样：df1 ...... aa1 ...... bb2 ...... ab3 ...... ...... cc4 ...... df2 ...... ...... 。

python-3.x apache-spark pyspark

回答 1 投票 0

pyspark 相关问题

最新问题