apache-spark-mllib 相关问题

MLlib是Apache Spark的机器学习库

使用树输出在Spark中使用渐变增强树来预测类的概率

众所周知，Spark中的GBT为您提供了截至目前的预测标签。我正在考虑计算一个类的预测概率（比如说落在某个叶子下的所有实例）......

tree probability prediction apache-spark-mllib boosting

回答 5 投票 5

在Spark MLlib上使用Java中的Breeze

在尝试使用Java中的MLlib时，使用breeze Matrix操作的正确方法是什么？对于例如scala中的乘法它只是“矩阵*向量”。相应的功能如何......

java scala apache-spark apache-spark-mllib scala-breeze

回答 2 投票 3

如何在java中将apache.spark.ml.linalg.Vector转换为arrayList？

我试图将apache.spark.ml.linalg.Vector转换为Java中的ArrayList。源代码是这样的：Vector vector =（Vector）row.get（1）;数组列表 vectorList = new ArrayList

java arraylist type-conversion apache-spark-mllib

回答 1 投票 0

在MultiClass Classification上使用Spark ML的Logistic回归模型给出错误：列预测已经存在

我使用Spark ML的Logistic回归模型进行分类问题，有100个类别（0-99）。我在数据集中的列是 - “_ c0，_c1，_c2，_c3，_c4，_c5”，其中_c5是目标变量并且休息......

scala apache-spark-mllib logistic-regression

回答 1 投票 0

从PySpark了解MLlib的分割功能

我有以下转换数据。 dataframe：rev + -------- + ------------------ + | features |标签| + -------- + ------------------ + | [24.0] | 6.382551510879452 | | [29.0] | 6 ....

pyspark linear-regression apache-spark-mllib

回答 1 投票 0

Sparkexception：写入行时任务失败（Spark on Kubernetes）

我在Kubernetes（Azure Kubernetes服务）上有Apache Spark 2.4.1环境。 Spark容器图像由官方二进制文件（spark-2.4.1-bin-hadoop2.7.tgz）制成。它的例子很好......

apache-spark kubernetes apache-spark-mllib azure-kubernetes

回答 2 投票 1

我应该如何将org.apache.spark.ml.linalg.Vector的RDD转换为Dataset？

我很难理解RDD，DataSet和DataFrame之间的转换是如何工作的。我对Spark很陌生，每当我需要从数据模型传递到另一个时，我就会陷入困境（特别是...

apache-spark apache-spark-sql rdd apache-spark-mllib apache-spark-dataset

回答 2 投票 2

Spark - 主题建模中没有剩余磁盘空间

我在64GB RAM，32核和500GB磁盘空间的系统上运行Jupyter笔记本。大约700k文档将被建模为600个主题。词汇量大小为48000字。 100次迭代......

apache-spark jupyter-notebook apache-spark-mllib apache-spark-ml apache-spark-2.3

回答 1 投票 1

如何逐步加载，适应新数据，使用spark保存管道模型？

任何指针都可以逐步训练和构建模型，并获得单个元素的预测。尝试运行Web应用程序会将数据写入共享路径中的csv，以及ml应用程序......

apache-spark apache-spark-mllib apache-spark-ml

回答 1 投票 0

Spark / Mllib以分布式方式训练许多GaussianMixture模型

我一直在玩为spark / mllib提供的高斯混合模型。我发现从大量的矢量/点生成GaussianMixture非常好。但是，这是......

scala apache-spark apache-spark-mllib

回答 1 投票 1

如何在Spark中选择kMean集群作为新的Dataframe

我有一个包含几百万个条目的数据框，我使用了k-Means聚类，发现一个特定的集群与其他集群有着截然不同的中心。这很有趣。我怎样才能选择......

apache-spark cluster-analysis k-means apache-spark-mllib

回答 1 投票 0

系统之间是否有随机种子兼容？

我使用python的sklearn包制作了一个随机森林模型，我将种子设置为例如1234.为了生产模型，我们使用pyspark。如果我要传递相同的超高压计并且相同...

python random scikit-learn pyspark apache-spark-mllib

回答 3 投票 4

在mleap中提供葡萄酒分类模型

我有一个使用mleap训练和保存的葡萄酒分类模型。注意：目前我正在使用TrueCar版本的mleap。计划很快更新。现在，当我尝试启动服务器来提供服务时......

apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml mleap

回答 1 投票 1

如何在Intellij中的Scala Jar中添加外部Excel文件

我想用我的代码保留一个excel文件。如果我将我的罐子传递给其他人。他也可以阅读excel ..在Scala Intellij中有没有办法做到这一点。文件夹结构

scala intellij-idea apache-spark-mllib

回答 1 投票 1

使用k-means聚类时如何设置火花配置以减少混乱？

我知道有很多'如何调整你的Spark工作'等博客文章和帖子，但不幸的是我的目标是在pyspark（k-means）中使用内置的集群模块，所以建议......

apache-spark serialization pyspark apache-spark-sql apache-spark-mllib

回答 1 投票 0

用Pyspark训练随机森林回归模型

我正在研究一个情绪分析项目，使用从stocktwits中提取的json格式提取的数据。每条推文都被分配到一个情绪分数，该分数是0到1之间的一个浮点数。我......

apache-spark pyspark apache-spark-mllib random-forest

回答 1 投票 -3

Spark Scala FPGrowth没有任何结果？

我正在尝试使用Scala从Spark MLLib中获取一些频繁的项集和关联规则。但实际上我没有得到任何东西，甚至没有错误。代码（spark / databricks笔记本）和数据......

scala apache-spark apache-spark-mllib databricks fpgrowth

回答 1 投票 0

转换Spark DataFrame以进行ML处理

我编写了以下代码来将数据提供给Spark 2.3中的机器学习算法。下面的代码运行正常。我需要增强此代码，以便能够转换不仅3列，但任何...

scala apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml

回答 1 投票 0

撤消比例数据pyspark

来自pyspark.ml.feature从pyspark.ml.linalg导入MinMaxScaler导入向量df = spark.createDataFrame（[（0，Vectors.dense（[5.0,0.1，-1.0]），），（1，Vectors.dense（[ 2.0,2.1,1.0]），），（2，...

apache-spark pyspark apache-spark-mllib

回答 1 投票 2

如何调整spark应用程序以避免OOM异常

我使用Spark 2.0.2。我正在尝试运行一个对已经创建的模型进行预测的spark应用程序。群集信息：m4.2xlarge 16个vCPU，32个GiB内存，仅EBS存储EBS存储：1000个GiB ...

scala apache-spark rdd apache-spark-mllib

回答 1 投票 1

apache-spark-mllib 相关问题

最新问题