apache-spark-mllib 相关问题

MLlib是Apache Spark的机器学习库

Spark Ml评估方法

我有一个火花数据框,如下所示:predictions.show(5)+ ------ + ---- + ------ + ----------- + |用户|项目|评分|预测| + ------ + ---- + ------ + ----------- + | 379433 | 31 | 1 | 0.08203495 | | 1834 | ...

回答 1 投票 10

如何创建已经适合初始数据集的训练新样本的估计器?

我正在按照在Spark源代码DeveloperApiExample.scala中找到的这个示例创建自己的Estimator。但是在此示例中,每次我在Estimator中调用fit()方法时,它都会...

回答 1 投票 1

Spark DataFrame中向量的访问元素,而未在Pyspark中使用UDF

我正试图解决这个问题:[访问Spark DataFrame中的向量的元素(逻辑回归概率向量),但在Pyspark中未使用UDF的情况下,我在Scala中看到了很多选择...

回答 1 投票 0

从Spark 2.2.0中的管道模型输出中获取BinaryLogisticRegressionSummary

我以前在Spark 2.2.0中使用过Logistic回归模型,并通过对某些带标签的测试数据调用模型的validate()方法,可以得到BinaryLogisticRegressionSummary ...

回答 1 投票 0

在Java Spark中使用Jackson 2.9.9

我正在尝试使用MLLIB库(java),但是我的依赖项之一是使用Jackson 2.9.9。我注意到发出了一个拉取请求,以便将master分支的依赖项升级到此...

回答 1 投票 1

Java / Spark:如何在带有映射结构数组的col中查找具有最大值的键

我有一个数据框,我想在映射中获取具有最大值的键。创建数据帧:Dataset data = spark.read().option(“ header”,“ true”).option(“ ...

回答 1 投票 0

使用MLlib缩放数据集

我正在使用spark MLlib在下面的数据集上进行缩放:-+ --- + -------------- + | id |功能| + --- + -------------- + | 0 | [1.0,0.1,-1.0] | | 1 | [2.0,1.1,1.0] | | 0 | [1 ....

回答 1 投票 0

无法使用网格搜索来检索bestModel

我正在使用以下代码来最适合回归模型并得到错误:#创建参数网格params = ParamGridBuilder()#为两个参数params = params添加网格...]]

回答 1 投票 -1

火花错误:java.io.NotSerializableException:scala.runtime.LazyRef

我是新来的火花,能请您帮忙吗?下面的用于进行逻辑回归的简单管道会产生异常:代码:程序包pipeline.tutorial.com import org.apache.log4j.Level ...

回答 1 投票 0

将模型输出写入文本文件spark scala

我使用spark MLlib拟合了以下逻辑回归模型val df = spark.read.option(“ header”,“ true”)。option(“ inferSchema”,“ true”)。csv(“ car_milage-6f50d.csv”) val hasher = new FeatureHasher()....

回答 1 投票 0

pyspark-如何在分层随机采样中使用(df.sampleByKey())选择每个层的确切记录数

我有一个spark数据框(我正在使用pyspark)“订单”。它有以下几列['id','orderdate','customerid','status']我正在尝试使用键...

回答 1 投票 0

PySpark RandomForest实现中如何计算rawPrediction?

我已经在10个示例的训练集上训练了一个RF模型(有3棵树,深度为4个)。以下是三棵树的外观图像。我有两个班级(比如0和1)。阈值是...

回答 1 投票 0

Pyspark Py4j IllegalArgumentException,带有spark.createDataFrame和pyspark.ml.clustering

首先让我透露问题的全部背景,我将使用简化的MWE,在底部重新创建相同的问题。随意跳过我对设置的讨论,直接进入...

回答 1 投票 0

MLlib regexTokenizer忽略口音

我正在用pySpark(Python3)测试MLlib令牌生成器:#-*-编码:utf-8-*-来自pyspark.sql.window导入pyspark.sql.functions的窗口从pyspark.ml.feature导入row_number导入...

回答 1 投票 0

功能体内的Pyspark程序失败

我是ML算法的PySpark实现的新手。我试图创建一个分类模型,可以是Logistic,Random Forest,Multiclass分类器等中的任何一个。我用...

回答 1 投票 0

求和PySpark中SparseVectors的一列?

我有一列这样的SparseVectors:+ -------------------- + | features_array | + -------------------- + |(11,[1,2,3],[1.0,... | |(11,[1,2] ,[1.0,1.0])| |(11,[1,2],[1.0,1.0])| |(11,[1,4],[1.0,1 ....

回答 1 投票 0

带有一个单词的数据集上的NGram

我正在研究SparkML,尝试使用Spark的OOB功能建立模糊匹配。一路上,我正在构建n = 2的NGram。但是,我的数据集中的某些行包含单个单词,其中...

回答 1 投票 0

对于单个DataFrame,Spark中的局部敏感散列

我已经阅读了有关本地性哈希的Spark部分,但仍不了解其中的一些内容:https://spark.apache.org/docs/latest/ml-features.html#locality-sensitive-hashing存储桶...

回答 2 投票 1

“尝试使用pyspark加载保存的Spark模型时出错”

我正在使用Spark构建随机森林模型,我想保存它以便以后使用。我在没有HDFS的pyspark(Spark 2.0.1)上运行此文件,因此文件被保存到本地文件系统。我有...

回答 1 投票 6

为什么Spark Mllib需要Vector才能正常工作?

例如,为什么Spark的Mllib ETL函数MinMaxScaler需要组装向量,而不是仅仅使用数据框中的列,我对此感到困惑。即而不是能够...

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.