MLlib是Apache Spark的机器学习库
使用 pyspark.ml.feature VectorAssembler 没有变化
按照 Databricks 的示例和我自己的数据,我无法使 VectorAssembler 转换工作。 string_indexer = StringIndexer(inputCol='ptype',outputCol='index_ptype',handleInvalid=&
如何使用在 scikit-learn 中训练的 XGBoost 模型在 Spark 中执行推理?
我发现了一个 xgboost 模型,它是在本机 python 中使用 sklearn 进行训练的。 如何使用该模型对 pyspark 中的新数据集进行推理? 除了使用 UDF 之外,我还有哪些其他选择...
我正在使用 Spark (core/mlib) 和 Java,版本 2.3.1。 我正在对数据集应用三种转换 - StringIndexer、OneHotEncoderEstimator、VectorAssember - 这是对分类的转换
如何使用在本机 Python (scikit-learn) 中训练的 XGBoost 模型在 Spark 中执行推理
我发现了一个 xgboost 模型,它是在原生 python 中使用 sklearn 进行训练的。 我如何使用该模型对 pyspark 中的新数据集进行推理。 除了使用 UDF 之外,我还有哪些其他选择...
我在 Pyspark 中使用 DataFrame show 方法时出错
我尝试显示 Pyspark Dataframe,但遇到这样的错误: Py4JJavaError:调用 o607.showString 时发生错误。 :org.apache.spark.SparkException:作业由于阶段失败而中止:...
Pyspark MLlib 自定义 Transformer 类 -AttributeError: 'DummyMod' 对象没有属性 'MyTransformer'
我正在尝试创建一个自定义变压器作为我的管道中的一个阶段。我通过 SparkNLP 进行一些转换,接下来的一些转换则使用 MLlib。传递SparkNLP转换的结果...
有没有办法让模型返回一个预测标签列表以及每个标签的概率得分? 例如 给定特征(f1,f2,f3), 它返回类似这样的内容: 标签1:0.50,l...
在 columnSimilarties() Spark scala 之后获取列名称
我正在尝试使用spark中的columnSimilarities()构建基于项目的协同过滤模型。使用 columnsSimilarities() 后,我想将原始列名称分配回结果......
“LogisticRegressionTrainingSummary”对象没有属性“fMeasureByThreshold”
我是 Pyspark 和 Databricks 的新手,正在尝试创建 Logistic 回归模型(通过 Databrticks 本身提供的 Spark_DS&ML_exercise)。将模型适合我的训练后...
我正在使用频繁模式挖掘算法 - 关联规则: 导入 org.apache.spark.mllib.fpm.AssociationRules 导入 org.apache.spark.mllib.fpm.FPGrowth.FreqItemset val freqItemsets = sc.
我有以下数据集: [广告] [出租车] [A] [A、E、D] [B、D] 我正在尝试使用 Spark Mllib 使用频繁模式挖掘来提取一些关联规则。为此,我有以下代码: 瓦尔
从 Pyspark Dataframe 中提取 numpy 数组
我有一个数据框 gi_man_df 其中组可以是 n: +------------------+-----------------+--------+--- ------------+ |组 |数字|rand_int| rand_double| +------------------...
我正在尝试查找决策树的特征信息。更具体地说,如果 183 出现在我的树可视化中,我希望能够分辨出它是什么。我尝试过 dtModel。
spark mlib:要求失败:索引0跟随0并且不是严格递增
使用我的数据集训练逻辑回归模型时出现以下错误: 引起原因:java.lang.IllegalArgumentException:要求失败:索引0跟随0并且不严格
我在弄清楚如何在现实生产环境中使用 Spark 的机器学习功能时遇到了一些困难。 我想做的是: 使用
在 Spark 中运行任务时出现错误 ExecutorLostFailure
当我尝试在此文件夹上运行它时,它每次都会抛出 ExecutorLostFailure 嗨,我是 Spark 的初学者。我正在尝试在 Spark 1.4.1 上运行一个作业,该作业具有 8 个从属节点和 11.7 GB 内存...
(Spark) 对象 {name} 不是包 org.apache.spark.ml 的成员
我正在尝试基于此处的示例在 apache Spark 上使用 scala 运行独立的应用程序: http://spark.apache.org/docs/latest/ml-pipeline.html 这是我的完整代码: 导入 org.apache.spa...
FeatureStoreClient() log_model 无法使用 mlflow.spark 风味运行推理
我正在使用 FeatureStoreClient().log_model(...,flavor = mlflow.spark,...) 记录模型,并在尝试使用模型运行推理后 fs.score_batch(f"模型:/{model_name}/Prod...
我在pyspark中有一个非常简单的数据框,如下所示: 从 pyspark.sql 导入行 从 pyspark.mllib.linalg 导入 DenseVector 行=行(“a”,“b”) df = Spark.sparkContext.parallelize([ ...
在自定义 MLFlow PyFunc 类中使用 PipelineModel.load() 会导致错误
我正在创建一个自定义 PyFunc 类,以与 Databricks 要素存储一起使用,作为其模型服务 UI,而要素存储的 log_model() 方法仅适用于 PythonModel 类。 底层模型我...