apache-spark-mllib 相关问题

MLlib是Apache Spark的机器学习库

RandomForestClassifier没有属性转换,那么如何获得预测?

您如何从RandomForestClassifier中获得预测?松散地遵循这里的最新文档,我的代码看起来像...#将数据分为训练和测试集(保留30%用于测试)...

回答 1 投票 0

某些行中转换为字符串索引的字符串索引为空白(索引未设置为1)?

我有一个带有分类列的pyspark数据框,该列通过以下方式转换为onehot编码的向量:si = StringIndexer(inputCol =“ LABEL”,outputCol =“ LABEL_IDX”)。fit(df)df = si.transform (...

回答 1 投票 0

spark XGBoost分类模型的阈值

如何为XGBoost分类器设置最佳阈值?该算法中使用的默认值为0.5。我想知道是否可以使用任何功能/内置功能来更改此设置。

回答 1 投票 0

如何对镶木地板文件应用主成分分析?

我有一个包含id的aparquet文件,特征.id为int,特征为double。我想应用pca算法来减小尺寸。 val lData = sqlContext.read.parquet(“ / usr / local / spark / dataset / ...

回答 1 投票 0

如何读取要在pyspark MLlib中使用的csv?

我有一个csv文件,我试图将其用作pyspark中KMeans算法的输入。我正在使用MLlib文档中的代码。从pyspark.ml.clustering导入KMeans,从pyspark.ml.evaluation ...

回答 3 投票 0

在pyspark mlib中运行Logistic回归时出错

我有一个数据框(df_ml_nullable),如下所示:+ ----- + -------------------- + | label |功能| + ----- + -------------------- + | 0.0 | [127.0,132.0,123 .... | | 0.0 | [67.0,67.0,67.0,6 ... | | ...

回答 1 投票 1

使用spark.ml库的N克计数和唯一值

我想在这里使用提供的代码来计算N-gram。N-gram的堆栈溢出答案下面的数据是测试数据的实际计算将基于大型分布数据+ ---------。 。

回答 1 投票 0

了解mllib滑动

我知道Spark结构化流式处理中的滑动窗口是事件时间窗口,具有窗口大小(以秒为单位)和步长(以秒为单位)。但是后来我遇到了这个问题:import org ....

回答 1 投票 0

如何从Scala中的DataFrame在Spark中创建分布式稀疏矩阵

问题,请帮助找到从DataFrame中的(用户,功能,值)记录创建分布式矩阵的方法,这些功能及其值存储在列中。 ...

回答 2 投票 3

访问Spark Mllib对分K均值树数据的方法

查看“平分K均值”的源代码,似乎它在进行的每个级别上构建了集群分配的内部树表示。是否可以访问该...

回答 1 投票 4

如何在PySpark中创建自定义估算器

我正在尝试在PySpark MLlib中构建一个简单的自定义估算器。我在这里可以编写自定义的Transformer,但是我不确定如何在Estimator上进行操作。我也听不懂...

回答 1 投票 13

[XGBoost每个工人集成一个XGBoost模型

[尝试通过此笔记本https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/1526931011080774/3624187670661048/6320440561800420/latest.html。 ...

回答 1 投票 1

通过Spark MLlib回归估计数值

我正在训练一个Spark MLlib线性回归器,但是我认为我不理解库的部分动手用法。我有1个功能(NameItem)和一个输出(Accumulator)。第一个是...

回答 1 投票 0

pyspark hive_table数据帧操作错误

我是火花专家,我正在尝试使用MinMaxScaler。我正在使用Spark 2.1.1并用Jupyter编写东西,所以我的步骤是。 1.从pyspark.sql从pyspark.ml导入SQLContext。...

回答 1 投票 0

Sparklyr中的高斯混合模型聚类

我正在尝试在sparklyr中使用高斯混合模型对数据进行聚类:ml_gaussian_mixture(formula =〜var1 + var2 + var3 + var4 + var5,k = 5)但是,调用此函数不会返回度量...

回答 1 投票 0

Spark K-means性能随着更多的节点/实例而降低

我正在使用Spark MLLib在AWS EMR上执行K-means集群。数据集大约是10 ^ 6行和9个特征列。我正在使用的实例大小具有8vCPU和32GB内存。我...

回答 1 投票 0

Python培训和Spark部署

是否有可能在python中训练XGboost模型并使用保存的模型在Spark环境中进行预测?也就是说,我希望能够使用sklearn训练XGboost模型,并保存模型。加载...

回答 1 投票 0

无法从pyspark加载管道模型

您好,我尝试在pyspark中使用管道模型加载保存的管道。 selectedDf = reviews \ .select(“ reviewerID”,“ asin”,“ overall”)#建立管道以建立推荐...

回答 1 投票 3

使用MLLib保存线性回归模型时出错

试图将我的线性回归模型保存到磁盘上,我收到此错误:“ pyError:import()需要2个位置参数,但给了3个位置参数”,但是从给定了3个位置参数。

回答 1 投票 0

无法在数据框[重复]上应用StringIndexer方法

我已经从CSV文件中创建了名为df的数据框。数据框为+ --- + --- + --- + -------- + -------------------------- ----------------------- + | X | Y | Z | class | source ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.