apache-spark-mllib 相关问题

MLlib是Apache Spark的机器学习库

使用树输出在Spark中使用渐变增强树来预测类的概率

众所周知,Spark中的GBT为您提供了截至目前的预测标签。我正在考虑计算一个类的预测概率(比如说落在某个叶子下的所有实例)......

回答 5 投票 5

在Spark MLlib上使用Java中的Breeze

在尝试使用Java中的MLlib时,使用breeze Matrix操作的正确方法是什么?对于例如scala中的乘法它只是“矩阵*向量”。相应的功能如何......

回答 2 投票 3

如何在java中将apache.spark.ml.linalg.Vector转换为arrayList?

我试图将apache.spark.ml.linalg.Vector转换为Java中的ArrayList。源代码是这样的:Vector vector =(Vector)row.get(1);数组列表 vectorList = new ArrayList

回答 1 投票 0

在MultiClass Classification上使用Spark ML的Logistic回归模型给出错误:列预测已经存在

我使用Spark ML的Logistic回归模型进行分类问题,有100个类别(0-99)。我在数据集中的列是 - “_ c0,_c1,_c2,_c3,_c4,_c5”,其中_c5是目标变量并且休息......

回答 1 投票 0

从PySpark了解MLlib的分割功能

我有以下转换数据。 dataframe:rev + -------- + ------------------ + | features |标签| + -------- + ------------------ + | [24.0] | 6.382551510879452 | | [29.0] | 6 ....

回答 1 投票 0

Sparkexception:写入行时任务失败(Spark on Kubernetes)

我在Kubernetes(Azure Kubernetes服务)上有Apache Spark 2.4.1环境。 Spark容器图像由官方二进制文件(spark-2.4.1-bin-hadoop2.7.tgz)制成。它的例子很好......

回答 2 投票 1

我应该如何将org.apache.spark.ml.linalg.Vector的RDD转换为Dataset?

我很难理解RDD,DataSet和DataFrame之间的转换是如何工作的。我对Spark很陌生,每当我需要从数据模型传递到另一个时,我就会陷入困境(特别是...

回答 2 投票 2

Spark - 主题建模中没有剩余磁盘空间

我在64GB RAM,32核和500GB磁盘空间的系统上运行Jupyter笔记本。大约700k文档将被建模为600个主题。词汇量大小为48000字。 100次迭代......

回答 1 投票 1

如何逐步加载,适应新数据,使用spark保存管道模型?

任何指针都可以逐步训练和构建模型,并获得单个元素的预测。尝试运行Web应用程序会将数据写入共享路径中的csv,以及ml应用程序......

回答 1 投票 0

Spark / Mllib以分布式方式训练许多GaussianMixture模型

我一直在玩为spark / mllib提供的高斯混合模型。我发现从大量的矢量/点生成GaussianMixture非常好。但是,这是......

回答 1 投票 1

如何在Spark中选择kMean集群作为新的Dataframe

我有一个包含几百万个条目的数据框,我使用了k-Means聚类,发现一个特定的集群与其他集群有着截然不同的中心。这很有趣。我怎样才能选择......

回答 1 投票 0

系统之间是否有随机种子兼容?

我使用python的sklearn包制作了一个随机森林模型,我将种子设置为例如1234.为了生产模型,我们使用pyspark。如果我要传递相同的超高压计并且相同...

回答 3 投票 4

在mleap中提供葡萄酒分类模型

我有一个使用mleap训练和保存的葡萄酒分类模型。注意:目前我正在使用TrueCar版本的mleap。计划很快更新。现在,当我尝试启动服务器来提供服务时......

回答 1 投票 1

如何在Intellij中的Scala Jar中添加外部Excel文件

我想用我的代码保留一个excel文件。如果我将我的罐子传递给其他人。他也可以阅读excel ..在Scala Intellij中有没有办法做到这一点。文件夹结构

回答 1 投票 1

使用k-means聚类时如何设置火花配置以减少混乱?

我知道有很多'如何调整你的Spark工作'等博客文章和帖子,但不幸的是我的目标是在pyspark(k-means)中使用内置的集群模块,所以建议......

回答 1 投票 0

用Pyspark训练随机森林回归模型

我正在研究一个情绪分析项目,使用从stocktwits中提取的json格式提取的数据。每条推文都被分配到一个情绪分数,该分数是0到1之间的一个浮点数。我......

回答 1 投票 -3

Spark Scala FPGrowth没有任何结果?

我正在尝试使用Scala从Spark MLLib中获取一些频繁的项集和关联规则。但实际上我没有得到任何东西,甚至没有错误。代码(spark / databricks笔记本)和数据......

回答 1 投票 0

转换Spark DataFrame以进行ML处理

我编写了以下代码来将数据提供给Spark 2.3中的机器学习算法。下面的代码运行正常。我需要增强此代码,以便能够转换不仅3列,但任何...

回答 1 投票 0

撤消比例数据pyspark

来自pyspark.ml.feature从pyspark.ml.linalg导入MinMaxScaler导入向量df = spark.createDataFrame([(0,Vectors.dense([5.0,0.1,-1.0]),),(1,Vectors.dense([ 2.0,2.1,1.0]),),(2,...

回答 1 投票 2

如何调整spark应用程序以避免OOM异常

我使用Spark 2.0.2。我正在尝试运行一个对已经创建的模型进行预测的spark应用程序。群集信息:m4.2xlarge 16个vCPU,32个GiB内存,仅EBS存储EBS存储:1000个GiB ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.