scikit-learn是一个用于Python的机器学习库,它为数据分析和数据挖掘提供简单有效的工具,重点是机器学习。它可供所有人使用,并可在各种环境中重复使用。它建立在NumPy和SciPy之上。该项目是开源的,可商业使用(BSD许可证)。
我使用 6 月数据集训练了随机森林模型来预测员工的 status_value,并使用 0.3 分割作为 test_size。我将代码片段包含在内,因为它本身可以很好地工作而无需......
使用 scikit-learn 和 cvxpy 的不同解决方案
我正在尝试使用 CVXPY 库编写逻辑回归模型。到目前为止,我编写的代码“有效”,因为它可以执行,不会产生任何错误消息,并且
访问用于基于 scikit-learn ColumnTransformer 插补和规范化新数据的值
因此,我使用“scikit-learn”在训练集上构建机器学习模型,然后在测试集上对其进行评估。在训练集上,我使用 ColumnTransfo 执行数据插补和缩放...
我被 Python/Sci-Kit Learn/Pipelines 的问题难住了。我收到一个错误,表明数据通过管道时的形状不是预期的。 具体错误: 块[0,...
sklearn.metrics.accuracy_score 非常慢
我需要测量模型对二元分类(0 和 1 输出)的预测的准确性。我正在使用许多不同的阈值测试我的模型,并且我的测试数据集非常大(...
Scikit-Learn LOOCV 与手动执行会给出不同的结果,为什么?
所以我为一个小数据集构建了一个模型,由于它是一个小数据集,我对其准确性进行了留一交叉验证(LOOCV)检查。简而言之,我会手动删除一个样本,
我有 9 个不同的模型来处理具有三种可能输出的分类问题。我想做带有硬投票机制的 VotingClassifier。 听起来很简单,只需计算哪个类别被 pred 的频率...
我有一个表,我想传递 features = "train_1, train_2, train_3, train_4" 和 target_result = result_cor. 我想知道我的预测中的值何时为“1 或 2”: 夫...
SageMaker 在部署时无法提取容器的模型数据存档 tar.gz
我正在尝试在 Amazon Sagemaker 中部署现有的 Scikit-Learn 模型。这个模型不是在 SageMaker 上训练的,而是在我的机器上本地训练的。 在我的本地(Windows)机器上,我将模型保存为
实际上我正在学习管道函数,它会经历元组中函数的顺序,所以我的问题是使用标准缩放器或多项式特征的第一个过程是什么? 答案是...
这是我的问题,希望有人能帮我解答。 解释一下,我的数据集中有 10 多个分类列,每个分类列有 200-300 个类别。我想转换...
我已经编写了一段代码,结果是一份报告,您可以在下面看到。该代码是关于泰坦尼克号中幸存或死亡的人数。 我的问题是什么是“支持”...
一些回归器(例如 DecisionTreeRegressor)具有参数 min_impurity_decrease,但我找不到任何有关杂质含义的文档。杂质和标准一样吗...
我有一个非常大的 DF (~200GB) 特征,我想用这些特征对随机森林模型进行交叉验证。 这些特征来自 .arrow f...
我正在尝试创建一个回归模型来使用以下数据集预测比特币的收盘价:https://www.kaggle.com/datasets/prasoonkottarathil/btcinusd/data?select=BTC-2021min.cs.. .
运行 sklearn GridSearchCV 时无法将任务发送给工作人员
我正在使用 GridSearchCV 使用以下代码在不同模型上运行 GridSearchCV: def Algorithm_Pipeline(X_train_data, X_test_data, y_train_data, y_test_data, 型号,
“TransformedTargetRegressor”总是克隆给定的“回归器”背后的基本原理是什么以及如何防止这种行为?
sklearn.compose.TransformedTargetRegressor 的文档指出: 回归对象,默认=无 回归器对象例如派生自 RegressorMixin。该回归器将自动被克隆...
np.load 因 ValueError 失败:无法将大小为 (838715,) 的数组重塑为形状 (838710,)
我试图将数据集的缩放参数保存到磁盘上的 .npy 文件中,这样我就可以避免每次重新运行代码时都必须重新计算它们。 现在,我正在使用 sklea 的 MaxAbsScaler()...
如何使用 SHAP 从 ML 模型中提取最重要的特征 - 为什么我的所有列名称都是空的?
我想使用 shap 找到模型中最重要的特征。 我有这个代码: 从 sklearn.model_selection 导入 train_test_split 从 sklearn.datasets 导入 load_breast_cancer 来自sklearn。
我已经通过 OneHotEncoder 对性别列进行了编码。 我只想对 Female[0] 列应用对数转换,但它对所有列应用对数转换,为什么? 代码: 将 pandas 导入为 p 来自sklearn。