apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

使用SparkSession.builder时如何设置profiler_cls？

我有一个python代码库，它使用pyspark的SparkSession.builder来创建SparkSession。我正处于想要分析正在运行的python代码的位置。如果我正在调用SparkContext ...

python apache-spark pyspark profiling

回答 1 投票 0

从json模式构建spark模式

我正在尝试构建一个想要在创建数据帧时显式提供的spark模式我可以使用下面的pyspark.sql.types生成json模式import StructType #Save schema from ...

python apache-spark pyspark

回答 3 投票 2

Spark Parquet统计（最小/最大）集成

我一直在研究Spark如何在Parquet中存储统计信息（最小/最大）以及它如何使用信息进行查询优化。我有几个问题。首先设置：Spark 2.1.0，以下......

apache-spark parquet

回答 3 投票 7

用于大型交叉连接的Spark scala分区数据框

我有两个需要在20节点集群上交叉连接的数据帧。但是由于它们的大小，简单的交叉连接失败了。我期待分区数据并执行交叉连接和...

apache-spark dataframe cross-join

回答 2 投票 0

Apache Spark：如何在Python 3中使用pyspark

我从GH开发大师那里构建了Spark 1.4，并且构建很顺利。但是当我做bin / pyspark时，我得到了Python 2.7.9版本。我怎么能改变这个？

python python-3.x apache-spark

回答 5 投票 67

Spark中的DataFrame，Dataset和RDD之间的区别

我只是想知道Apache Spark中RDD和DataFrame（Spark 2.0.0 DataFrame只是Dataset [Row]的类型别名）有什么区别？你能把一个转换成另一个吗？

apache-spark apache-spark-sql rdd apache-spark-dataset

回答 14 投票 198

spark-submit - 无法解析主网址

我在Windows 10机器上使用spark-submit执行spark job时遇到错误。命令是：c：\ workspaces \ Spark2Demo> spark-submit --class retail_db.GetRevenuePerOrder --master local。\ ...

apache-spark

回答 1 投票 1

解释Spark Structured Streaming执行程序和Kafka分区之间的映射

我已经使用4个分区在Kafka主题上部署了一个包含4个工作者的结构化流。我假设将有4个工作人员部署4个分区，并在...之间进行一对一的映射。

apache-spark spark-structured-streaming

回答 2 投票 1

从PyCharm连接到运行Spark-Session

我目前正在尝试设置我的火花环境，并想知道什么是最佳实践。我想在Pycharm中编写我的代码并从那里执行它。我如何连接到本地（在我的Mac上）...

python apache-spark pyspark pycharm

回答 1 投票 0

我们可以使用SizeEstimator.estimate估算RDD / DataFrame的大小吗？

我有一个DataFrame，它将由hiveContext通过执行Hive SQL创建，在我的情况下，查询的数据应该被推送到不同的数据存储区。 DataFrame有数千个分区......

apache-spark

回答 2 投票 6

RDD take（）方法如何在内部工作？

我知道take（n）将返回RDD的n个元素，但是Spark如何决定从哪个分区调用这些元素以及应该选择哪些元素？它是否维护索引......

scala apache-spark pyspark

回答 1 投票 0

如何使用Java UDF将新列添加到Spark数据帧

我有一个数据集 inputDS有4列，即Id，List 时间，清单 value，aggregateType我想使用map向数据集value_new再添加一列...

apache-spark apache-spark-sql

回答 1 投票 1

如何使用PySpark将SparseVector中的前X个单词转换为字符串数组

我目前正在集中一些文本文档。由于PySpark方法，我正在使用K-means并使用TF-IDF继续我的数据。现在我想得到每个集群的前10个单词：当我这样做时：......

python apache-spark pyspark

回答 1 投票 1

将Pandas数据帧转换为Spark数据帧错误

我正在尝试将Pandas DF转换为Spark。 DF头：10000001,1,0,1,12：35，OK，10002,1,0,9，f，NA，24,24,0,3,9,0,0,1,1,0,0 ，4,543 10000001,2,0,1,12：36，OK，10002,1,0,9，f，NA，24,24,0,3,9,2,1,1,3,1,3， 2,611 ......

python pandas apache-spark spark-dataframe

回答 4 投票 20

Spark：相当于数据帧中的zipwithindex

假设我有以下数据帧：dummy_data = [（'a'，1），（'b'，25），（'c'，3），（'d'，8），（'e'，1） ] df = sc.parallelize（dummy_data）.toDF（['letter'，'number']）我想创建以下内容......

python apache-spark pyspark spark-dataframe

回答 1 投票 5

Hadoop组件是否有兼容性矩阵？

我想知道生态系统的各种Hadoop组件是否有兼容性矩阵？每次Hadoop升级都会产生很大的兼容性影响，例如：Apache Spark 2.4不支持Hadoop v3，......

apache-spark hadoop

回答 1 投票 3

Kafka主题的JSON中没有发生结构化流 - 流连接

应用程序监听2 kafka主题userevent paymentevent Payload for userevent {“userId”：“Id_223”，“firstname”：“fname_223”，“lastname”：“lname_223”，“phonenumber”：“P98202384_223”，“usertimestamp”：“.. 。

java apache-spark apache-kafka spark-streaming spark-structured-streaming

回答 1 投票 0

在dataframe列值/字符串中搜索和计算单词出现次数

我正在使用我的Spark / Scala数据应用程序中的数据框，其中数据框中的一列具有巨大的字符串值，有或没有空格（两种情况都是可能的），以及......

sql scala apache-spark dataframe

回答 1 投票 0

如何将key，value作为spark sql中map的单独列

我有桌子和地图。我想从该地图中制作2个单独的列 - 1.键列2.值列。 input.show（）; + --------------------- + -------------------- + ------ -------- + -------------...

sql scala apache-spark apache-spark-sql

回答 1 投票 -3

Spark多个动态聚合函数，countDistinct不起作用

使用多个动态聚合操作在Spark数据帧上进行聚合。我希望使用带有多个动态聚合操作的Scala对Spark数据帧进行聚合（由用户在...中传递）

scala apache-spark count apache-spark-sql distinct

回答 1 投票 1

apache-spark 相关问题

最新问题