apache-spark-mllib 相关问题

MLlib是Apache Spark的机器学习库

使用 pyspark.ml.feature VectorAssembler 没有变化

按照 Databricks 的示例和我自己的数据,我无法使 VectorAssembler 转换工作。 string_indexer = StringIndexer(inputCol='ptype',outputCol='index_ptype',handleInvalid=&

回答 1 投票 0

如何使用在 scikit-learn 中训练的 XGBoost 模型在 Spark 中执行推理?

我发现了一个 xgboost 模型,它是在本机 python 中使用 sklearn 进行训练的。 如何使用该模型对 pyspark 中的新数据集进行推理? 除了使用 UDF 之外,我还有哪些其他选择...

回答 1 投票 0

将转换应用于新数据 Spark

我正在使用 Spark (core/mlib) 和 Java,版本 2.3.1。 我正在对数据集应用三种转换 - StringIndexer、OneHotEncoderEstimator、VectorAssember - 这是对分类的转换

回答 5 投票 0

如何使用在本机 Python (scikit-learn) 中训练的 XGBoost 模型在 Spark 中执行推理

我发现了一个 xgboost 模型,它是在原生 python 中使用 sklearn 进行训练的。 我如何使用该模型对 pyspark 中的新数据集进行推理。 除了使用 UDF 之外,我还有哪些其他选择...

回答 1 投票 0

我在 Pyspark 中使用 DataFrame show 方法时出错

我尝试显示 Pyspark Dataframe,但遇到这样的错误: Py4JJavaError:调用 o607.showString 时发生错误。 :org.apache.spark.SparkException:作业由于阶段失败而中止:...

回答 2 投票 0

Pyspark MLlib 自定义 Transformer 类 -AttributeError: 'DummyMod' 对象没有属性 'MyTransformer'

我正在尝试创建一个自定义变压器作为我的管道中的一个阶段。我通过 SparkNLP 进行一些转换,接下来的一些转换则使用 MLlib。传递SparkNLP转换的结果...

回答 1 投票 0

Spark ML 朴素贝叶斯用概率预测多个类别

有没有办法让模型返回一个预测标签列表以及每个标签的概率得分? 例如 给定特征(f1,f2,f3), 它返回类似这样的内容: 标签1:0.50,l...

回答 2 投票 0

在 columnSimilarties() Spark scala 之后获取列名称

我正在尝试使用spark中的columnSimilarities()构建基于项目的协同过滤模型。使用 columnsSimilarities() 后,我想将原始列名称分配回结果......

回答 1 投票 0

“LogisticRegressionTrainingSummary”对象没有属性“fMeasureByThreshold”

我是 Pyspark 和 Databricks 的新手,正在尝试创建 Logistic 回归模型(通过 Databrticks 本身提供的 Spark_DS&ML_exercise)。将模型适合我的训练后...

回答 1 投票 0

使用 SPARK 从关联规则中提取提升和支持

我正在使用频繁模式挖掘算法 - 关联规则: 导入 org.apache.spark.mllib.fpm.AssociationRules 导入 org.apache.spark.mllib.fpm.FPGrowth.FreqItemset val freqItemsets = sc.

回答 1 投票 0

为什么我提取的规则置信度都是1.0?

我有以下数据集: [广告] [出租车] [A] [A、E、D] [B、D] 我正在尝试使用 Spark Mllib 使用频繁模式挖掘来提取一些关联规则。为此,我有以下代码: 瓦尔

回答 1 投票 0

从 Pyspark Dataframe 中提取 numpy 数组

我有一个数据框 gi_man_df 其中组可以是 n: +------------------+-----------------+--------+--- ------------+ |组 |数字|rand_int| rand_double| +------------------...

回答 3 投票 0

如何找到决策树分类的特征名称?

我正在尝试查找决策树的特征信息。更具体地说,如果 183 出现在我的树可视化中,我希望能够分辨出它是什么。我尝试过 dtModel。

回答 2 投票 0

spark mlib:要求失败:索引0跟随0并且不是严格递增

使用我的数据集训练逻辑回归模型时出现以下错误: 引起原因:java.lang.IllegalArgumentException:要求失败:索引0跟随0并且不严格

回答 1 投票 0

Apache Spark 和机器学习 - 在生产中使用

我在弄清楚如何在现实生产环境中使用 Spark 的机器学习功能时遇到了一些困难。 我想做的是: 使用

回答 2 投票 0

在 Spark 中运行任务时出现错误 ExecutorLostFailure

当我尝试在此文件夹上运行它时,它每次都会抛出 ExecutorLostFailure 嗨,我是 Spark 的初学者。我正在尝试在 Spark 1.4.1 上运行一个作业,该作业具有 8 个从属节点和 11.7 GB 内存...

回答 4 投票 0

(Spark) 对象 {name} 不是包 org.apache.spark.ml 的成员

我正在尝试基于此处的示例在 apache Spark 上使用 scala 运行独立的应用程序: http://spark.apache.org/docs/latest/ml-pipeline.html 这是我的完整代码: 导入 org.apache.spa...

回答 3 投票 0

FeatureStoreClient() log_model 无法使用 mlflow.spark 风味运行推理

我正在使用 FeatureStoreClient().log_model(...,flavor = mlflow.spark,...) 记录模型,并在尝试使用模型运行推理后 fs.score_batch(f"模型:/{model_name}/Prod...

回答 2 投票 0

使用 MLLIB 的 pyspark 数据帧中的点积

我在pyspark中有一个非常简单的数据框,如下所示: 从 pyspark.sql 导入行 从 pyspark.mllib.linalg 导入 DenseVector 行=行(“a”,“b”) df = Spark.sparkContext.parallelize([ ...

回答 5 投票 0

在自定义 MLFlow PyFunc 类中使用 PipelineModel.load() 会导致错误

我正在创建一个自定义 PyFunc 类,以与 Databricks 要素存储一起使用,作为其模型服务 UI,而要素存储的 log_model() 方法仅适用于 PythonModel 类。 底层模型我...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.