spark-dataframe 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

Spark 1.6：java.lang.IllegalArgumentException：spark.sql.execution.id已设置

当我运行以下代码时，我正在使用spark 1.6并遇到上述问题：// Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark。{SparkConf，SparkContext} import org .. ..

scala apache-spark apache-spark-sql spark-dataframe

回答 3 投票 15

如何在SparkR中使用AND和OR编写逻辑列表达式？

我需要根据几个其他列的一些逻辑标准将列添加到SparkR（spark版本2.1.1）数据集。但明显的解决方案（使用&&或||）不起作用，我得到“无效'x'类型...

r apache-spark apache-spark-sql spark-dataframe sparkr

回答 1 投票 0

随机森林分类器 - 将索引标签标签转换回字符串值

我正在进行文本分类，并使用管道方法构建了一个模型。我正在拟合我使用数据框创建的训练数据，它有“标签”和“......”列。

python pyspark spark-dataframe apache-spark-ml

回答 1 投票 1

pyspark中的Rdd乘法？

我有两个数据框，如下：数据帧1：（df1）+ --- + ---------- + | id | features | + --- + ---------- + | 8 | [5,4,5] | | 9 | [4,5,2] | + --- + ---------- +数据框2：（df2）+ --- + ---------- + | id | ...

apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 1 投票 -1

从行中读取列时出现NullPointerException

当值为null时，以下用于从行读取值的Scala（Spark 1.6）代码失败并显示NullPointerException。 val test = row.getAs [Int]（“ColumnName”）。toString虽然这个工作正常...

scala apache-spark spark-dataframe apache-spark-1.6

回答 2 投票 2

Spark中的查找表

我在Spark中有一个数据框，没有明确定义的模式，我想用作查找表。例如，下面的数据框：+ ------------------------------------------ --------------------------...

scala apache-spark apache-spark-sql spark-dataframe user-defined-functions

回答 1 投票 2

获取分组PySpark数据框的第一行（或最后一行）[重复]

数据只是一组id及其登录日期，如下所示：data = pd.DataFrame（{'id'：['a'，'b'，'c'，'b'，'c']，'date '：['2017/12/10'，'2017/12/10'，'2017/12/11'，'...

python apache-spark spark-dataframe pyspark-sql

回答 2 投票 2

如何在R中选择具有公共标记的所有列？

我有一个包含数百列的SparkDataFrame，我想只选择那些带有“time”字样的列。而不是做这样的事情必须写出列的所有名称......

r apache-spark-sql spark-dataframe sql-like sparkr

回答 1 投票 0

使用Spark Testing Base库创建Spark DataFrame的最佳方法是什么？

我正在为一个Spark方法编写单元测试，该方法将多个数据帧作为输入参数并返回一个数据帧。 spark方法的代码如下所示：class processor {def ...

scala unit-testing apache-spark spark-dataframe

回答 1 投票 0

命名Spark上的转换并在“解释计划”和“Spark UI”中观察它们

在Spark中，我们可以通过setName命名RDD并在Spark UI上查看它们。当我们使用Dataset / DataFrame API时，有什么办法可以做同样的事情吗？我们可以命名转换吗？我们可以在...中看到这个名字

apache-spark spark-dataframe

回答 1 投票 0

通过Spark中不同列的值索引映射

scala apache-spark spark-dataframe user-defined-functions

回答 1 投票 0

计算向量与K均值聚类中心的距离

我有训练数据集，我在K = 4上运行了K-means，得到了四个集群中心。对于新的数据点，我不仅想知道预测的集群，还想知道它的距离......

scala apache-spark spark-dataframe rdd apache-spark-mllib

回答 2 投票 2

读隐含小数点的固定长度文件？

假设我有一个这样的数据文件：foo12345 bar45612我想将其解析为：+ ---- + ------- + | ID | AMT | + ---- + ------- + | FOO | 123.45 | |酒吧| 456.12 | + ---- + ------- +这就是说，我需要......

pyspark spark-dataframe

回答 1 投票 0

Pyspark - 根据语言过滤行

这个问题与Pyspark有关。我正在读一个列数很少的TSV文件。一个特定的列是注释列。我的任务是根据语言过滤掉行。例如，如果......

python apache-spark pyspark spark-dataframe pyspark-sql

回答 2 投票 -1

rfModel.toDebugString出错

我正在使用带有Spark 2.2和Python 2.7.11的pyspark，我试图使用.toDebugString方法从随机森林分类器的决策树中提取规则。我成功了但是......

python-2.7 apache-spark pyspark spark-dataframe

回答 1 投票 1

如何从多个文件夹读取到单个Dataframe

我在每天创建的文件夹中有数据。例如：以下是AWS S3中全年（2017年）的数据文件夹格式，即365个文件夹student_id = 20170415 student_id = 20170416 ...

scala apache-spark spark-dataframe

回答 1 投票 0

在将spark数据帧写入csv时，在值内部转义逗号

我正在使用df.write（“csv”）在Apache Spark中编写我的值集。默认情况下，它会写入如下值：1，abcded，“qwe，rr”，即在值内部有逗号时用双引号括起来。 ...

csv apache-spark spark-dataframe

回答 2 投票 3

Spark数据帧：使用第二个数据帧查找数组的元素

我有一个spark数据帧，其中包含每行的id列表：ident list_of_ids 1 [3,4,5] 2 [5,6] 3 [2] 4 []以及将id映射到某些文本描述的第二个spark数据帧：...

scala apache-spark spark-dataframe

回答 2 投票 2

如何根据Pyspark中数据框中的条件设置新的列表值？

我有一个像下面这样的DataFrame。 + --- + ------------------------------------------ + | id |特征| + --- + ------------------------------------------ + | 1 | [6.629056,0 ....

apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 2 投票 0

Spark写镶木地板不写任何文件，只有_SUCCESS

该应用程序包括val stats = sqlContext.sql（“select id，n from myTable”）stats.write.parquet（“myTable.parquet”）这创建了dir myTable.parquet，除了空的内容之外没有其他内容...

python scala apache-spark spark-dataframe parquet

回答 2 投票 3

spark-dataframe 相关问题

最新问题