apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

Spark发现匹配字符串的出现次数

我如何能够找到匹配字符串的出现,如下面的代码片段,我能够将过滤后的字符串作为输出,但不是出现导入org.apache.spark._ import org ....

回答 1 投票 -3

如何从Spark数据帧中的When子句向udf发送多个列?

我想在full_outer_join的基础上加入两个数据帧,并尝试在连接的结果集中添加一个新列,它告诉我匹配的记录,单独的左数据框中的不匹配记录和...

回答 1 投票 1

PySpark中pandas_udf的隐式模式?

这个答案很好地解释了如何使用pyspark的groupby和pandas_udf来进行自定义聚合。但是,我不可能手动声明我的架构,如示例的这一部分所示......

回答 2 投票 2

如何在spark shell中注册Java SPark UDF?

下面是我的java udf代码,包com.udf; import org.apache.spark.sql.api.java.UDF1;公共类SparkUDF实现UDF1 {@Override public String call(String arg)...

回答 1 投票 0

以有状态的方式处理火花中的网络数据包

我想使用Spark来解析网络消息,并以有状态的方式将它们分组为逻辑实体。问题描述假设每条消息都在输入数据帧的一行中,......

回答 2 投票 1

在pyspark如何广播和巨大的rdd?

当我打印出我的rdd的第一个元素如下:print(“input = {}”。format(input.take(1)[0]))我得到一个结果:(u'motor',[0.001, ...,0.9])[0.001,...,0.9]的类型是一个列表。 ...

回答 1 投票 0

pyspark读取csv文件multiLine选项不适用于具有换行符spark2.3和spark2.2的记录

我正在尝试使用pyspark csv reader读取dat文件,它包含换行符(“\ n”)作为数据的一部分。 Spark无法将此文件作为单列读取,而是将其视为新的...

回答 1 投票 1

使用SparkSession.builder时如何设置profiler_cls?

我有一个python代码库,它使用pyspark的SparkSession.builder来创建SparkSession。我正处于想要分析正在运行的python代码的位置。如果我正在调用SparkContext ...

回答 1 投票 0

从json模式构建spark模式

我正在尝试构建一个想要在创建数据帧时显式提供的spark模式我可以使用下面的pyspark.sql.types生成json模式import StructType #Save schema from ...

回答 3 投票 2

Spark Parquet统计(最小/最大)集成

我一直在研究Spark如何在Parquet中存储统计信息(最小/最大)以及它如何使用信息进行查询优化。我有几个问题。首先设置:Spark 2.1.0,以下......

回答 3 投票 7

用于大型交叉连接的Spark scala分区数据框

我有两个需要在20节点集群上交叉连接的数据帧。但是由于它们的大小,简单的交叉连接失败了。我期待分区数据并执行交叉连接和...

回答 2 投票 0

Apache Spark:如何在Python 3中使用pyspark

我从GH开发大师那里构建了Spark 1.4,并且构建很顺利。但是当我做bin / pyspark时,我得到了Python 2.7.9版本。我怎么能改变这个?

回答 5 投票 67

Spark中的DataFrame,Dataset和RDD之间的区别

我只是想知道Apache Spark中RDD和DataFrame(Spark 2.0.0 DataFrame只是Dataset [Row]的类型别名)有什么区别?你能把一个转换成另一个吗?

回答 14 投票 198

spark-submit - 无法解析主网址

我在Windows 10机器上使用spark-submit执行spark job时遇到错误。命令是:c:\ workspaces \ Spark2Demo> spark-submit --class retail_db.GetRevenuePerOrder --master local。\ ...

回答 1 投票 1

解释Spark Structured Streaming执行程序和Kafka分区之间的映射

我已经使用4个分区在Kafka主题上部署了一个包含4个工作者的结构化流。我假设将有4个工作人员部署4个分区,并在...之间进行一对一的映射。

回答 2 投票 1

从PyCharm连接到运行Spark-Session

我目前正在尝试设置我的火花环境,并想知道什么是最佳实践。我想在Pycharm中编写我的代码并从那里执行它。我如何连接到本地(在我的Mac上)...

回答 1 投票 0

我们可以使用SizeEstimator.estimate估算RDD / DataFrame的大小吗?

我有一个DataFrame,它将由hiveContext通过执行Hive SQL创建,在我的情况下,查询的数据应该被推送到不同的数据存储区。 DataFrame有数千个分区......

回答 2 投票 6

RDD take()方法如何在内部工作?

我知道take(n)将返回RDD的n个元素,但是Spark如何决定从哪个分区调用这些元素以及应该选择哪些元素?它是否维护索引......

回答 1 投票 0

如何使用Java UDF将新列添加到Spark数据帧

我有一个数据集 inputDS有4列,即Id,List 时间,清单 value,aggregateType我想使用map向数据集value_new再添加一列...

回答 1 投票 1

如何使用PySpark将SparseVector中的前X个单词转换为字符串数组

我目前正在集中一些文本文档。由于PySpark方法,我正在使用K-means并使用TF-IDF继续我的数据。现在我想得到每个集群的前10个单词:当我这样做时:......

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.