scikit-learn是一个用于Python的机器学习库,它为数据分析和数据挖掘提供简单有效的工具,重点是机器学习。它可供所有人使用,并可在各种环境中重复使用。它建立在NumPy和SciPy之上。该项目是开源的,可商业使用(BSD许可证)。
我正在使用Python来做余弦相似度。 相似度矩阵 = 余弦相似度(tfidf_matrix) 问题是我收到这个错误 MemoryError:无法为具有
我正在使用python来做cosine_similarity 相似度矩阵 = 余弦相似度(tfidf_matrix) 问题是我收到这个错误 MemoryError:无法为数组分配 44.8 GiB...
我想用所有六种组合(萼片宽度-萼片长度)、(花瓣宽度-萼片长度)、(萼片长度-花瓣宽度)、(花瓣长度-花瓣宽度)(花瓣长度)以二维方式可视化虹膜数据集-se...
我正在尝试将多个观测结果拟合到单个高斯过程中。 我尝试像这样拟合两个观察值(Y)的数据: 将 numpy 导入为 np 从 sklearn.gaussian_process 导入
我正在尝试计算 MAE(平均绝对误差)。 在我的原始 DataFrame 中,我有 1826 行和 3 列。我使用第 2 列和第 3 列来计算 MAE。 但是,在第 2 列中,我有一些 NaN 值。 什...
我一直在阅读sklearn中的PCA,特别是特征和组件之间的关系。我对确定几个特征的重要性特别感兴趣
如何在 sklearn 中应用对数变换和 MinMaxScaler 创建缩放器
我想将 log() 一起应用于我的 DataFrame 和 MinMaxScaler() 。 我希望输出是 pandas DataFrame() ,其中包含原始数据的索引和列。 我想使用以前使用过的参数
我想在jupyter-notebook中运行以下代码 从 sklearn.linear_model 导入 SGDRegressor 在此之前,我在 Windows cmd 中使用了以下几行: python -m venv sklearn-env sklearn-env\
我有一个问题。 在我的 Pandas DataFrame 中,我有一个名为“job”列的列。我创建了一个简单的自定义转换器,它将映射该列中与作业类型相对应的值。 ...
ScikitLearn 模型给出“LocalOutlierFactor”对象没有属性“预测”错误
我是机器学习领域的新手,我已经使用 ScikitLearn 库构建并训练了一个机器学习模型。它在 Jupyter 笔记本中运行得很好,但是当我将此模型部署到 Google Cloud ML 时...
我正在尝试在 XGBoost 上使用 scikit-learn 的 GridSearchCV 进行超参数搜索。在网格搜索期间,我希望它早点停止,因为它大大减少了搜索时间并且(期望)有
获取功能名称时出现 get_features_name_out 错误
我想知道特征对我的数据的重要性,所以我使用 permutation_importance。当我得到结果时,似乎该功能已经解码,我想使用
简而言之:输入后,我的列在训练集和测试集之间是不同的。 制作火车、测试数据集的代码 随机状态值 = 0 #定义目标 X = data.drop(columns = '收入', axis=1)...
如何让 scikit-learn 确保所有预测输出之和应为 100%?
我有一个基于“LinearRegression”回归器的“MultiOutputRegressor”。 我用它来预测 X_data 每行的三个输出(如分类器),它们代表百分比可能性...
实现GridSearchCV和Pipelines来对KNN算法进行超参数调优
我一直在阅读有关 KNN 算法的超参数调整的内容,并且理解实现它的最佳实践是确保对于每次折叠,我的数据集应该是规范的...
我如何正确设置“random_state”以使我的结果始终相同?
如果我有以下代码片段: knn = KNeighborsClassifier() grid_search_knn = GridSearchCV( 估计量=knn, n_工作=-1) 我必须这样设置吗: knn = KNeighborsClassifier(
我如何正确设置“random_state”以使我的结果始终相同? (蟒蛇,sklearn)
如果我有以下代码片段: knn = KNeighborsClassifier() grid_search_knn = GridSearchCV( 估计量=knn, n_职位=-1 ) 我必须这样设置吗 1.: knn =
sklearnmutual_info_classif 根据特征顺序返回不同的值
我注意到 sklearnmutual_info_classif 函数中的行为与我在互信息目标中的预期不一致。 给定一组列 ['A', 'B', 'C'] 和一个从属
如果我在Python管道中有一个定制的集成模型,如何进行交叉验证和网格搜索
我正在构建一个定制的集成模型,并且想使用管道在Python中进行交叉验证和网格搜索。我该怎么做呢? 我有一个包含网页内容的数据集。我想做的事...
我正在尝试使用 Knn 和随机森林分类器构建一个集成。 步骤 = [('scaler', StandardScaler()), ('回归', VotingClassifier(估计器=[ ('knn', KNeighborsClassifier()...