apache-spark-mllib 相关问题

MLlib是Apache Spark的机器学习库

我有一个火花数据框，如下所示：predictions.show（5）+ ------ + ---- + ------ + ----------- + |用户|项目|评分|预测| + ------ + ---- + ------ + ----------- + | 379433 | 31 | 1 | 0.08203495 | | 1834 | ...

python apache-spark pyspark apache-spark-mllib apache-spark-ml

回答 1 投票 10

如何创建已经适合初始数据集的训练新样本的估计器？

我正在按照在Spark源代码DeveloperApiExample.scala中找到的这个示例创建自己的Estimator。但是在此示例中，每次我在Estimator中调用fit（）方法时，它都会...

scala apache-spark machine-learning apache-spark-mllib

回答 1 投票 1

Spark DataFrame中向量的访问元素，而未在Pyspark中使用UDF

我正试图解决这个问题：[访问Spark DataFrame中的向量的元素（逻辑回归概率向量），但在Pyspark中未使用UDF的情况下，我在Scala中看到了很多选择...

python apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml

回答 1 投票 0

从Spark 2.2.0中的管道模型输出中获取BinaryLogisticRegressionSummary

我以前在Spark 2.2.0中使用过Logistic回归模型，并通过对某些带标签的测试数据调用模型的validate（）方法，可以得到BinaryLogisticRegressionSummary ...

apache-spark machine-learning logistic-regression apache-spark-mllib apache-spark-ml

回答 1 投票 0

在Java Spark中使用Jackson 2.9.9

我正在尝试使用MLLIB库（java），但是我的依赖项之一是使用Jackson 2.9.9。我注意到发出了一个拉取请求，以便将master分支的依赖项升级到此...

java apache-spark jackson apache-spark-mllib

回答 1 投票 1

Java / Spark：如何在带有映射结构数组的col中查找具有最大值的键

我有一个数据框，我想在映射中获取具有最大值的键。创建数据帧：Dataset data = spark.read（）.option（“ header”，“ true”）.option（“ ...

java dataframe apache-spark-sql aggregation apache-spark-mllib

回答 1 投票 0

使用MLlib缩放数据集

我正在使用spark MLlib在下面的数据集上进行缩放：-+ --- + -------------- + | id |功能| + --- + -------------- + | 0 | [1.0,0.1，-1.0] | | 1 | [2.0,1.1,1.0] | | 0 | [1 ....

scala apache-spark machine-learning apache-spark-mllib

回答 1 投票 0

无法使用网格搜索来检索bestModel

我正在使用以下代码来最适合回归模型并得到错误：＃创建参数网格params = ParamGridBuilder（）＃为两个参数params = params添加网格...]]

python machine-learning pyspark apache-spark-mllib grid-search

回答 1 投票 -1

火花错误：java.io.NotSerializableException：scala.runtime.LazyRef

我是新来的火花，能请您帮忙吗？下面的用于进行逻辑回归的简单管道会产生异常：代码：程序包pipeline.tutorial.com import org.apache.log4j.Level ...

scala apache-spark pipeline logistic-regression apache-spark-mllib

回答 1 投票 0

将模型输出写入文本文件spark scala

我使用spark MLlib拟合了以下逻辑回归模型val df = spark.read.option（“ header”，“ true”）。option（“ inferSchema”，“ true”）。csv（“ car_milage-6f50d.csv”） val hasher = new FeatureHasher（）....

scala apache-spark apache-spark-mllib

回答 1 投票 0

pyspark-如何在分层随机采样中使用（df.sampleByKey（））选择每个层的确切记录数

我有一个spark数据框（我正在使用pyspark）“订单”。它有以下几列['id'，'orderdate'，'customerid'，'status']我正在尝试使用键...

python pyspark data-science apache-spark-mllib

回答 1 投票 0

PySpark RandomForest实现中如何计算rawPrediction？

我已经在10个示例的训练集上训练了一个RF模型（有3棵树，深度为4个）。以下是三棵树的外观图像。我有两个班级（比如0和1）。阈值是...

apache-spark pyspark classification random-forest apache-spark-mllib

回答 1 投票 0

Pyspark Py4j IllegalArgumentException，带有spark.createDataFrame和pyspark.ml.clustering

首先让我透露问题的全部背景，我将使用简化的MWE，在底部重新创建相同的问题。随意跳过我对设置的讨论，直接进入...

python apache-spark pyspark apache-spark-mllib py4j

回答 1 投票 0

MLlib regexTokenizer忽略口音

我正在用pySpark（Python3）测试MLlib令牌生成器：＃-*-编码：utf-8-*-来自pyspark.sql.window导入pyspark.sql.functions的窗口从pyspark.ml.feature导入row_number导入...

regex tokenize apache-spark-mllib

回答 1 投票 0

功能体内的Pyspark程序失败

我是ML算法的PySpark实现的新手。我试图创建一个分类模型，可以是Logistic，Random Forest，Multiclass分类器等中的任何一个。我用...

apache-spark pyspark spark-dataframe apache-spark-mllib pipeline

回答 1 投票 0

求和PySpark中SparseVectors的一列？

我有一列这样的SparseVectors：+ -------------------- + | features_array | + -------------------- + |（11，[1,2,3]，[1.0，... | |（11，[1,2] ，[1.0,1.0]）| |（11，[1,2]，[1.0,1.0]）| |（11，[1,4]，[1.0,1 ....

python pyspark apache-spark-mllib

回答 1 投票 0

带有一个单词的数据集上的NGram

我正在研究SparkML，尝试使用Spark的OOB功能建立模糊匹配。一路上，我正在构建n = 2的NGram。但是，我的数据集中的某些行包含单个单词，其中...

apache-spark nlp apache-spark-mllib apache-spark-ml n-gram

回答 1 投票 0

对于单个DataFrame，Spark中的局部敏感散列

我已经阅读了有关本地性哈希的Spark部分，但仍不了解其中的一些内容：https://spark.apache.org/docs/latest/ml-features.html#locality-sensitive-hashing存储桶...

apache-spark pyspark apache-spark-mllib

回答 2 投票 1

“尝试使用pyspark加载保存的Spark模型时出错”

我正在使用Spark构建随机森林模型，我想保存它以便以后使用。我在没有HDFS的pyspark（Spark 2.0.1）上运行此文件，因此文件被保存到本地文件系统。我有...