apache-spark-mllib 相关问题

MLlib是Apache Spark的机器学习库

为什么使用 pyspark.ml Feature VectorAssembler 没有任何变化？

以下是来自 Databricks 的示例，使用我自己的数据，我无法使 VectorAssembler 转换工作。 string_indexer = StringIndexer(inputCol='ptype', outputCol='index_ptype',

python apache-spark-mllib one-hot-encoding apache-spark-ml

回答 1 投票 0

使用 pyspark.ml.feature VectorAssembler 没有变化

按照 Databricks 的示例和我自己的数据，我无法使 VectorAssembler 转换工作。 string_indexer = StringIndexer(inputCol='ptype',outputCol='index_ptype',handleInvalid=&

python apache-spark-mllib one-hot-encoding apache-spark-ml

回答 1 投票 0

如何使用在 scikit-learn 中训练的 XGBoost 模型在 Spark 中执行推理？

我发现了一个 xgboost 模型，它是在本机 python 中使用 sklearn 进行训练的。如何使用该模型对 pyspark 中的新数据集进行推理？除了使用 UDF 之外，我还有哪些其他选择...

pyspark scikit-learn xgboost apache-spark-mllib apache-spark-ml

回答 1 投票 0

将转换应用于新数据 Spark

我正在使用 Spark (core/mlib) 和 Java，版本 2.3.1。我正在对数据集应用三种转换 - StringIndexer、OneHotEncoderEstimator、VectorAssember - 这是对分类的转换

apache-spark apache-spark-mllib

回答 5 投票 0

如何使用在本机 Python (scikit-learn) 中训练的 XGBoost 模型在 Spark 中执行推理

我发现了一个 xgboost 模型，它是在原生 python 中使用 sklearn 进行训练的。我如何使用该模型对 pyspark 中的新数据集进行推理。除了使用 UDF 之外，我还有哪些其他选择...

apache-spark pyspark xgboost apache-spark-mllib apache-spark-ml

回答 1 投票 0

我在 Pyspark 中使用 DataFrame show 方法时出错

我尝试显示 Pyspark Dataframe，但遇到这样的错误： Py4JJavaError：调用 o607.showString 时发生错误。：org.apache.spark.SparkException：作业由于阶段失败而中止：...

python apache-spark pyspark apache-spark-mllib

回答 2 投票 0

Pyspark MLlib 自定义 Transformer 类 -AttributeError: 'DummyMod' 对象没有属性 'MyTransformer'

我正在尝试创建一个自定义变压器作为我的管道中的一个阶段。我通过 SparkNLP 进行一些转换，接下来的一些转换则使用 MLlib。传递SparkNLP转换的结果...

python-3.x machine-learning pyspark databricks apache-spark-mllib

回答 1 投票 0

Spark ML 朴素贝叶斯用概率预测多个类别

有没有办法让模型返回一个预测标签列表以及每个标签的概率得分？例如给定特征（f1，f2，f3），它返回类似这样的内容：标签1：0.50，l...

apache-spark pyspark apache-spark-mllib

回答 2 投票 0

我正在尝试使用spark中的columnSimilarities()构建基于项目的协同过滤模型。使用 columnsSimilarities() 后，我想将原始列名称分配回结果......

scala apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml

回答 1 投票 0

“LogisticRegressionTrainingSummary”对象没有属性“fMeasureByThreshold”

我是 Pyspark 和 Databricks 的新手，正在尝试创建 Logistic 回归模型（通过 Databrticks 本身提供的 Spark_DS&ML_exercise）。将模型适合我的训练后...

machine-learning pyspark databricks logistic-regression apache-spark-mllib

回答 1 投票 0

使用 SPARK 从关联规则中提取提升和支持

我正在使用频繁模式挖掘算法 - 关联规则：导入 org.apache.spark.mllib.fpm.AssociationRules 导入 org.apache.spark.mllib.fpm.FPGrowth.FreqItemset val freqItemsets = sc.

scala apache-spark data-mining apache-spark-mllib

回答 1 投票 0

为什么我提取的规则置信度都是1.0？

我有以下数据集： [广告] [出租车] [A] [A、E、D] [B、D] 我正在尝试使用 Spark Mllib 使用频繁模式挖掘来提取一些关联规则。为此，我有以下代码：瓦尔

scala data-mining apache-spark-mllib

回答 1 投票 0

从 Pyspark Dataframe 中提取 numpy 数组

我有一个数据框 gi_man_df 其中组可以是 n： +------------------+-----------------+--------+--- ------------+ |组 |数字|rand_int| rand_double| +------------------...

numpy apache-spark pyspark apache-spark-sql apache-spark-mllib

回答 3 投票 0

如何找到决策树分类的特征名称？

我正在尝试查找决策树的特征信息。更具体地说，如果 183 出现在我的树可视化中，我希望能够分辨出它是什么。我尝试过 dtModel。

python apache-spark pyspark databricks apache-spark-mllib

回答 2 投票 0

spark mlib：要求失败：索引0跟随0并且不是严格递增

使用我的数据集训练逻辑回归模型时出现以下错误：引起原因：java.lang.IllegalArgumentException：要求失败：索引0跟随0并且不严格

apache-spark apache-spark-mllib apache-spark-ml

回答 1 投票 0

Apache Spark 和机器学习 - 在生产中使用

我在弄清楚如何在现实生产环境中使用 Spark 的机器学习功能时遇到了一些困难。我想做的是：使用

apache-spark apache-spark-mllib

回答 2 投票 0

在 Spark 中运行任务时出现错误 ExecutorLostFailure

当我尝试在此文件夹上运行它时，它每次都会抛出 ExecutorLostFailure 嗨，我是 Spark 的初学者。我正在尝试在 Spark 1.4.1 上运行一个作业，该作业具有 8 个从属节点和 11.7 GB 内存...

apache-spark pyspark apache-spark-mllib collect

回答 4 投票 0

(Spark) 对象 {name} 不是包 org.apache.spark.ml 的成员

我正在尝试基于此处的示例在 apache Spark 上使用 scala 运行独立的应用程序： http://spark.apache.org/docs/latest/ml-pipeline.html 这是我的完整代码：导入 org.apache.spa...

scala apache-spark sbt apache-spark-mllib

回答 3 投票 0

FeatureStoreClient() log_model 无法使用 mlflow.spark 风味运行推理

我正在使用 FeatureStoreClient().log_model(...,flavor = mlflow.spark,...) 记录模型，并在尝试使用模型运行推理后 fs.score_batch(f"模型:/{model_name}/Prod...

pyspark databricks apache-spark-mllib mlflow feature-store

回答 2 投票 0

使用 MLLIB 的 pyspark 数据帧中的点积

我在pyspark中有一个非常简单的数据框，如下所示：从 pyspark.sql 导入行从 pyspark.mllib.linalg 导入 DenseVector 行=行（“a”，“b”） df = Spark.sparkContext.parallelize([ ...

python apache-spark pyspark apache-spark-mllib

回答 5 投票 0

apache-spark-mllib 相关问题

最新问题