scikit-learn是一个用于Python的机器学习库,它为数据分析和数据挖掘提供简单有效的工具,重点是机器学习。它可供所有人使用,并可在各种环境中重复使用。它建立在NumPy和SciPy之上。该项目是开源的,可商业使用(BSD许可证)。
使用 CustomTransformers 的 AttributeError 和 TypeError
我正在使用自定义变压器构建模型(KeyError:“ [Index([('A','B','C')] , dtype='object')] 都不在 [列] 中) 。 当我运行下面的代码时...
来自 imblearn.over_sampling 导入 SMOTE 从 imblearn.under_sampling 导入 RandomUnderSampler 从 imblearn.pipeline 导入管道 # 定义特征和目标 X = df.drop('感染', axis=1) ...
我正在编写一个函数,需要确定传递给它的对象是否是输入器(可以使用 isinstance(obj, _BaseImputer) 检查)、缩放器或其他东西。 虽然所有输入者都有一个共同...
使用默认参数从 X_train 集和 Y_train 标签构建决策树回归器模型。将模型命名为 dt_reg。 评估训练数据集上的模型准确性并打印其分数。
主要思想是根据输入特征预测2个目标输出。 输入特征已经使用 sklearn 中的 Standardscaler() 进行了缩放。 X_train 的大小为 (190 x 6),Y_train = (190 x 2)。 ...
在sklearn中创建TfidfTransformer时,“use_idf”到底做了什么?
我正在使用Python 2.7中sklearn包中的TfidfTransformer。 当我逐渐适应这些论点时,我对 use_idf 变得有点困惑,如下所示: TfidfVectorizer(use_idf=Fa...
ValueError:无法将字符串转换为浮点数:'?'与 MSE 合作时
我正在使用 auto-mpg 数据集。我给出了下面数据集的链接: https://www.kaggle.com/datasets/uciml/autompg-dataset 我给出下面的代码: df = pd.read_csv('数据/auto-mpg.csv') ...
如果我运行以下Python代码,它运行良好: 目标=“流失” tranOH = ColumnTransformer([ ('one', OneHotEncoder(drop='first', dtype='int'), make_column_selector(dtype_include='类别', 帕特...
使用显式阈值进行从峰值到谷值增加/减少的 Python 机制标记
我试图找到时间序列中最长的时间段,其中从开始到结束的值至少增加一定的阈值,而中间没有任何下降至少该值
我想知道 pandas 是否能够自动检测哪些列是日期时间对象并将这些列读取为日期而不是字符串? 我正在查看 api 和相关堆栈
Jupyter Notebook 导入错误:没有名为“sklearn”的模块
我正在尝试在本地计算机上运行。 我收到一个错误 ImportError:仅在 jupyter 笔记本中没有名为“sklearn”的模块 当我从命令行使用 python 和 carnd-te 时,它工作得很好...
高斯过程二元分类:为什么 GPy 的方差比 scikit-learn 小得多?
我正在学习高斯过程的二元分类,并且我正在将 GPy 与 scikit-learn 在受 Martin Krasser 博客文章启发的玩具一维问题上进行比较。两种实现(GPy 和 s...
我使用scikit线性回归,如果我改变特征的顺序,coef仍然以相同的顺序打印,因此我想知道特征与coeff的映射。 #训练...
Pandas DataFrame - KNNImputer 算法实现
我有一个包含缺失值的数据集,我想按组填充它们。我使用了 groupby() 方法,效果很好。但我想使用 KNNImputer 算法做同样的事情。 代码我有...
我正在尝试将 AdaBoostClassifier 与除 DecisionTree 之外的基础学习器一起使用。我尝试过 SVM 和 KNeighborsClassifier 但出现错误。可以与
我正在尝试在机器人模拟器中进行贝叶斯优化,以找到适合所需轨迹(正弦运动)的最佳 Kd 和 Kp 值。首先,我使用 ...
多类 SVM 中的类几乎所有数据点都作为支持向量(scikit-learn)正常吗?
我使用 scikit-learn 的 SVC 对鸢尾花数据集进行多类分类,一类几乎将所有数据点作为支持向量。这是预期的吗?还是我的
我正在Python上使用sklearn来做一些聚类。我已经训练了 200,000 个数据,下面的代码运行良好。 语料库 = open("token_from_xml.txt") 矢量化器 = CountVectorizer(decode_error="
我有太多日期时间列,我需要将其更改为机器学习合适的格式? 2003-01-09 2022-10-12 23:03:34 向量或其他东西 0.0145132 0.548542 有什么建议吗? 我需要使用...
我想使用 Sklearn 的 CountVectorizer 打印出语料库中每个文档的单词列表(即词袋)及其各自的术语频率(以文本格式)。我怎么会痛...