scikit-learn是一个用于Python的机器学习库,它为数据分析和数据挖掘提供简单有效的工具,重点是机器学习。它可供所有人使用,并可在各种环境中重复使用。它建立在NumPy和SciPy之上。该项目是开源的,可商业使用(BSD许可证)。
我在理解 Surprise 工作流程时遇到了一些困难。我有一个用于训练的文件(我试图将其分为训练和验证)和一个用于测试数据的文件。我很难理解...
建议/参考链接/代码表示赞赏。 我有一个超过 1500 行的数据。每行都有一个句子。我正在尝试找出找到最相似句子的最佳方法...
我正在使用一个数据集,其中每个样本都包含数字和文本数据。因此,采用多种方法从数据集中构建训练特征矩阵。对于
尝试拟合机器学习模型时出现错误 AttributeError: 'bool' 对象没有属性 'transpose'
我正在尝试创建一个机器学习模型来预测谁会在泰坦尼克号上幸存。每次我尝试拟合我的模型时,都会收到此错误: 坐标 = np.where(mask.transpose())[::-1]
使用 scikit learn 进行快速 ICA - 重建误差分析
我正在尝试在 scikitLearn 中使用 fastICA 程序。出于验证目的,我尝试了解基于 PCA 和 ICA 的信号重建之间的区别。 观察到的原始数量
是否有更好的内置方法可以在单个管道中进行网格搜索和测试多个模型?当然模型的参数会有所不同,这让我很难弄清楚......
我有一个依赖 scikit-learn、pandas、numpy 和 sqlachemy 的 python 无服务器项目。 这些包的总大小约为 350MB,比允许的层大小多 100MB。有没有什么...
我想预测当X(天)代表时间时变量Y(c_start)的下一个值。 正如您在图片中看到的,我有属性“c_start”的值,我想...
我有不同国家和因素的时间序列数据,例如从 1972 年到 2007 年“阿富汗”的出生率(来源)。 目标: 预测例如2008年和2012年的出生率 ...
我正在尝试使用 scikit-learn 的 SVM 模型来设置一个用于预测时间序列的 python 代码。 我的数据包含过去 24 小时内每隔 30 分钟间隔的 X 值,我需要预测...
使用GridSearchCV进行Logistic回归时的精度计算警告
我正在尝试使用 LogisticRegression 估计器运行 GridSearchCV 并记录模型准确性、精度、召回率、f1 指标。 但是,我在精度指标上遇到以下错误: 精确...
我有一个 OneVsOne 模型,在文本特征和目标字段上运行良好。为了发展到多类模型(即具有多个文本特征字段),我相信 OneVsRest 与 Logistic Regres...
使用 pandas 和 sklearn 转换器时如何保留数据类型?
在使用大型 sklearn Pipeline(适合使用 DataFrame)时,我遇到了一个错误,该错误导致我的输入数据类型错误。问题发生在来自...的一次观察中
将 sklearn 的 BaggingClassifier 与 GridSearchCV 一起使用时出现 ZeroDivisionError
我正在尝试通过装袋改进完美运行的伯努利朴素贝叶斯模型。 但是当我尝试交叉验证 BaggingClassifier 时,我得到了一个非常意外的 ZeroDivisionError 来自 par...
在kaggle中处理“泰坦尼克号”数据集时发现输入变量样本数量不一致
我进行了玩具 Kaggle“泰坦尼克号”数据集训练,并按照名为“应用机器学习:算法”的 linkedin 视频课程的说明进行操作 当我输入以下代码时...
使用 CustomTransformers 的 AttributeError 和 TypeError
我正在使用自定义变压器构建模型(KeyError:“ [Index([('A','B','C')] , dtype='object')] 都不在 [列] 中) 。 当我运行下面的代码时...
来自 imblearn.over_sampling 导入 SMOTE 从 imblearn.under_sampling 导入 RandomUnderSampler 从 imblearn.pipeline 导入管道 # 定义特征和目标 X = df.drop('感染', axis=1) ...
我正在编写一个函数,需要确定传递给它的对象是否是输入器(可以使用 isinstance(obj, _BaseImputer) 检查)、缩放器或其他东西。 虽然所有输入者都有一个共同...
使用默认参数从 X_train 集和 Y_train 标签构建决策树回归器模型。将模型命名为 dt_reg。 评估训练数据集上的模型准确性并打印其分数。
主要思想是根据输入特征预测2个目标输出。 输入特征已经使用 sklearn 中的 Standardscaler() 进行了缩放。 X_train 的大小为 (190 x 6),Y_train = (190 x 2)。 ...