pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

选择一列的子集,然后与另一列进行比较

我在pyspark有一个csv文件,里面有大量的销售信息 - 单位,商店ID,总销售额,客户忠诚度,产品编号等。我需要比较那些客户的销售数量......

回答 1 投票 0

metaclass = ABCmeta语法无效

我使用以下代码。我的PYSPARK_PYTHON在spark-env.sh中设置为python2.7。我在代码中将它更改为python3.5。即使在改变路径后我得到以下错误。 import os os.environ [“...

回答 1 投票 -2

从key - pyspark访问价值

我有一个具有以下结构的元组,它和RDD:[('M',0.016200000000000003),('H',0.0165),('M',0.0161),('M',0.0168),('H' ,0.0167),('M',0.0165),('M',0.0165),('H',0 ....

回答 1 投票 1

PySpark - 分区中覆盖的数据

我看到一种情况,当一个pyspark数据帧保存到具有多列分区的hive表时,它也会覆盖子分区中的数据。或者 - 可能是我假设它是一个子分区。 ...

回答 1 投票 0

PySpark - 如何获取数据框中距离矩阵的上三角?

我在PySpark数据帧中有一个距离矩阵,我试图获取数据的上(或下)三角形,并将结果放在另一个数据帧中。例如,我正在努力......

回答 1 投票 0

我怎样才能获得倒排索引?

我再次使用Spark。如何使用Spark获取csv文件的反向索引?我有csv文件df.show()+ -------- + -------------------- + ---------- ---------- + ---------- + | ID |标题| ...

回答 1 投票 0

从多个分区读取多个镶木地板文件

我试图通过pyspark从多个分区读取多个镶木地板文件,并将它们连接到一个大数据框。文件看起来像,hdfs dfs -ls / data / customers / odysseyconsultants / ...

回答 2 投票 2

为什么Spark运行的内存少于可用内存?

我在具有32 GB RAM的计算机上运行带有Spark的单节点应用程序。在我运行应用程序时,可以使用超过12GB的内存。但是从火花UI和日志中,我看到......

回答 2 投票 2

Pyspark UDF for Dataframe vs RDD

我的数据帧的架构是:root | - _10:string(nullable = true)| - _11:string(nullable = true)| - _12:string(nullable = true)| - _13:string(nullable =真)| --...

回答 1 投票 0

在jupyter中访问数据框元素pyspark

我是spark和pyspark的新手。我的DataFrame由几列组成,而在一些列中,则是数组或子数据帧。 df的printSchema如下图所示我的问题是......

回答 1 投票 0

Kafka和Pyspark整合

我在大数据中天真,我试图将kafka连接到火花。这是我的生产者代码import os import sys import pykafka def get_text():##这个块生成我需要的文本。 ...

回答 1 投票 2

按日期分组火花数据帧

我已经从SQLServer表加载了一个DataFrame。它看起来像这样:>>> df.show()+ -------------------- + ---------- + |时间戳|价值| + -------------------- + ---------- + | 2015 -...

回答 2 投票 13

pyspark使用数据帧运行线性回归

我尝试在pyspark中使用数据框运行线性回归,但是在我尝试使用函数来创建字段,标签之后,它仍然给我一个错误。有人可以帮我弄清楚如何运行线性...

回答 1 投票 0

如何使用配置单元简化计算效率?

代码在hive上运行:select day,count(mdn)* 5作为数字来自(选择不同的a.mdn,a.day来自流程a.day = date_add的左外连接流b(b.day,-1) )和a.mdn = b.mdn左外连接流c ...

回答 1 投票 1

如何解析pyspark中的空格分隔数据?

我有以下类型的空间分隔的数据,我想用空格解析它但是当特定元素中有“空格”时我会遇到问题。 2018-02-13 17:21:52.809“EWQRR.OOM”“ERW WERT11”......

回答 3 投票 1

PySpark数据框显示错误的值

我刚刚从Pandas切换到PySpark数据框,发现在PySpark数据框中打印出相同的列会产生错误的值。这是一个例子:使用熊猫:df_pandas = pd.read_csv(“犯罪......

回答 1 投票 0

Pyspark中的平均向量与查找表

我正在尝试使用https://nlp.stanford.edu/projects/glove/中预先训练的GloVe模型在PySpark中实现一个简单的Doc2Vec算法。我有两个RDD:一对称为文档的RDD ...

回答 1 投票 2

pyspark - 将收集的列表转换为元组

我的数据框如下:+ ---------------------------------- + | invoice_id | newcolor | + ------------ + --------------------- + | 1 | [红色,白色,绿色] | + ------------ + --------...

回答 1 投票 0

加载csv文件s3 pyspark的随机样本

我正在尝试在s3中加载一个总共100万行数据的随机样本。有没有一种简单的方法可以将s3中的随机样本直接加载到pyspark数据帧中?在熊猫中,这个df = ...

回答 1 投票 1

如何根据2列比较PySpark中的2个数据帧?

在PySpark中,我试图比较两个常见列的数据帧。 Tha数据帧看起来像这样:df1 ...... aa1 ...... bb2 ...... ab3 ...... ...... cc4 ...... df2 ...... ...... 。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.