apache-spark-mllib 相关问题

MLlib是Apache Spark的机器学习库

K均值中的Spark ML-预测

我使用Spark ML方法创建了一个KMeans模型。 val kmeans = new KMeans()val model = kmeans.fit(df)我准备好了我的模型。但是如何预测哪个群集中的新数据点会下降。 ...

回答 1 投票 -1

model.getVectors()。keys()是否会返回模型中的所有键

下面是一个示例代码。我正在尝试获取newfile.txt中所有单词的向量表示(文件有新闻文章)。想知道model.getVectors()。keys()是否输出所有键(...

回答 1 投票 0

如何使用NNLS进行非负多元线性回归?

我试图解决Java中的非负多元线性回归问题。我找到了用Scala编写的解算器类org.apache.spark.mllib.optimization.NNLS。但是,我不知道怎么用...

回答 2 投票 0

Spark多类分类示例

你们知道我在哪里可以找到Spark中多类分类的例子。我花了很多时间在书本和网络上搜索,到目前为止我只知道它可能是最新的......

回答 2 投票 5

PySpark ML特征变换,调用拟合/变换方法两次或覆盖它?

我们可以使用Spark-ML库中提供的各种预处理类。来自pyspark.ml.feature import StringIndexer,VectorIndexer,VectorAssembler labelIndexer = StringIndexer(inputCol = label_name,...

回答 1 投票 0

SparkML MultilayerPerceptron错误:java.lang.ArrayIndexOutOfBoundsException

我有以下模型,我想使用SparkML MultilayerPerceptronClassifier()估计。 val formula = new RFormula()。setFormula(“vtplus15predict~vhistt plus15 + vhistt + vt + ...

回答 3 投票 0

如何按列值训练单独的模型?

如何基于在Spark数据框架中的某个列的寡妇运行不同的回归模型?假设我有2个产品的功能和标签与这些产品相关联...

回答 1 投票 0

在Spark中将BigInt转换为Int

嗨,我正在尝试将BigInt转换为int以生成Rating类。我只想使用足够小的实例来使用以下代码:val tup = rs.select(“...

回答 3 投票 3

Spark的PCA实现可以处理多少列?

例如,我可以计算1,000,000列的主要成分吗?

回答 1 投票 0

ML管道和指标:精确度,召回,AUC-ROC,F1Score

我正在使用ML Pipeline,类似于:VectorAssembler assembler = new VectorAssembler()。setInputCols(columns).setOutputCol(“features”); LogisticRegression lr = new ...

回答 2 投票 3

计算向量与K均值聚类中心的距离

我有训练数据集,我在K = 4上运行了K-means,得到了四个集群中心。对于新的数据点,我不仅想知道预测的集群,还想知道它的距离......

回答 2 投票 2

ALS模型的增量训练

我试图找出是否有可能在Apache Spark中使用MLlib对数据进行“增量训练”。我的平台是Prediction IO,它基本上是Spark(MLlib),HBase,...的包装器。

回答 3 投票 17

网格搜索中的最佳参数范围?

我想用MLlib运行一个简单的网格搜索实现,但我对选择“最佳”参数范围感到困惑。显然,我不想浪费太多资源......

回答 1 投票 1

Spark MLlib libsvm涉及数据问题

我正在http://spark.apache.org/docs/1.2.1/mllib-linear-methods.html中使用scala版本的示例尝试演示。我运行演示它工作正常,但当我改变数据和步骤...

回答 2 投票 1

苏打水经常抛出java.lang.ArrayIndexOutOfBoundsException:65535

H2O苏打水经常抛到异常之下,我们会在发生这种情况时手动重新运行。问题是火花作业在发生此异常时不会退出,它们不会返回退出状态...

回答 1 投票 2

这是在pyspark上进行乘法的正确方法吗?

pyspark新手。这是我的代码:def sparkApp():spark = SparkSession \ .builder \ .appName(“Python Spark SQL基本示例”)\。config(“spark.sql.catalogImplementation”,“...

回答 1 投票 0

Spark MLlib:我应该在安装模型之前调用.cache吗?

想象一下,我正在训练Spark MLlib模型如下:val traingData = loadTrainingData(...)val logisticRegression = new LogisticRegression()traingData.cache val logisticRegressionModel = ...

回答 1 投票 2

使用spark / scala中的不同预处理交叉验证多个模型

我正在使用Spark和Scala。我想对我的数据进行不同的预处理。有没有办法使CrossValidator采用多个模型(也使用ParamMaps)从这两个模型中获取最佳模型? Ë....

回答 1 投票 3

如何使用CrossValidator在不同的模型之间进行选择

我知道我可以使用CrossValidator来调整单个模型。但是,对于相互评估不同模型的建议方法是什么?例如,说我想评估一个......

回答 1 投票 2

在pyspark中使用整数对列进行编码

我必须在pyspark(spark 2.0)的大型DataFrame中对列进行编码。所有值几乎都是唯一的(约1000mln值)。最好的选择可能是StringIndexer,但由于某种原因它始终......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.