MLlib是Apache Spark的机器学习库
我使用Spark ML方法创建了一个KMeans模型。 val kmeans = new KMeans()val model = kmeans.fit(df)我准备好了我的模型。但是如何预测哪个群集中的新数据点会下降。 ...
model.getVectors()。keys()是否会返回模型中的所有键
下面是一个示例代码。我正在尝试获取newfile.txt中所有单词的向量表示(文件有新闻文章)。想知道model.getVectors()。keys()是否输出所有键(...
我试图解决Java中的非负多元线性回归问题。我找到了用Scala编写的解算器类org.apache.spark.mllib.optimization.NNLS。但是,我不知道怎么用...
你们知道我在哪里可以找到Spark中多类分类的例子。我花了很多时间在书本和网络上搜索,到目前为止我只知道它可能是最新的......
PySpark ML特征变换,调用拟合/变换方法两次或覆盖它?
我们可以使用Spark-ML库中提供的各种预处理类。来自pyspark.ml.feature import StringIndexer,VectorIndexer,VectorAssembler labelIndexer = StringIndexer(inputCol = label_name,...
SparkML MultilayerPerceptron错误:java.lang.ArrayIndexOutOfBoundsException
我有以下模型,我想使用SparkML MultilayerPerceptronClassifier()估计。 val formula = new RFormula()。setFormula(“vtplus15predict~vhistt plus15 + vhistt + vt + ...
如何基于在Spark数据框架中的某个列的寡妇运行不同的回归模型?假设我有2个产品的功能和标签与这些产品相关联...
嗨,我正在尝试将BigInt转换为int以生成Rating类。我只想使用足够小的实例来使用以下代码:val tup = rs.select(“...
ML管道和指标:精确度,召回,AUC-ROC,F1Score
我正在使用ML Pipeline,类似于:VectorAssembler assembler = new VectorAssembler()。setInputCols(columns).setOutputCol(“features”); LogisticRegression lr = new ...
我有训练数据集,我在K = 4上运行了K-means,得到了四个集群中心。对于新的数据点,我不仅想知道预测的集群,还想知道它的距离......
我试图找出是否有可能在Apache Spark中使用MLlib对数据进行“增量训练”。我的平台是Prediction IO,它基本上是Spark(MLlib),HBase,...的包装器。
我想用MLlib运行一个简单的网格搜索实现,但我对选择“最佳”参数范围感到困惑。显然,我不想浪费太多资源......
我正在http://spark.apache.org/docs/1.2.1/mllib-linear-methods.html中使用scala版本的示例尝试演示。我运行演示它工作正常,但当我改变数据和步骤...
苏打水经常抛出java.lang.ArrayIndexOutOfBoundsException:65535
H2O苏打水经常抛到异常之下,我们会在发生这种情况时手动重新运行。问题是火花作业在发生此异常时不会退出,它们不会返回退出状态...
pyspark新手。这是我的代码:def sparkApp():spark = SparkSession \ .builder \ .appName(“Python Spark SQL基本示例”)\。config(“spark.sql.catalogImplementation”,“...
Spark MLlib:我应该在安装模型之前调用.cache吗?
想象一下,我正在训练Spark MLlib模型如下:val traingData = loadTrainingData(...)val logisticRegression = new LogisticRegression()traingData.cache val logisticRegressionModel = ...
使用spark / scala中的不同预处理交叉验证多个模型
我正在使用Spark和Scala。我想对我的数据进行不同的预处理。有没有办法使CrossValidator采用多个模型(也使用ParamMaps)从这两个模型中获取最佳模型? Ë....
如何使用CrossValidator在不同的模型之间进行选择
我知道我可以使用CrossValidator来调整单个模型。但是,对于相互评估不同模型的建议方法是什么?例如,说我想评估一个......
我必须在pyspark(spark 2.0)的大型DataFrame中对列进行编码。所有值几乎都是唯一的(约1000mln值)。最好的选择可能是StringIndexer,但由于某种原因它始终......