统计数据类型,其值是固定数量的名义类别之一。
我是机器学习新手,想了解更多有关分类的信息。我有一个包含 n=600 个评分样本和数千个潜在指标的小数据集,所有指标都是分类的(正确或错误)。基本上,我会...
我有一个包含大约 5000 个数据点的数据框,我需要创建用于交叉验证的数据箱。此外,我还有一个包含大约 1000 个唯一值的分类元数据变量。为了防止...
我是 R 编程新手 我尝试了几种代码来分析下面的数据,每个问题的答案都会在酒吧聊天中相互堆叠,但无济于事 饼干...
Tableau 中的分类数据类型,例如 Python Pandas 中
当 Pandas 列中的类别数量有限时,我们可以通过将该列的 dtype 从对象 -> 类别转换来优化 python 中的内存利用率。 如何将列转换为
在处理私有数据时,我注意到使用 MASS 包中的 polr 函数拟合的序数逻辑模型以及 broom::tidy 提供的置信区间并不
我想转换 dask.DataFrame 的一个分类列。 这是我现在正在做的事情: # 玩具示例 df = pd.DataFrame({'文件': ['A.csv', 'B.csv', 'C.csv']}) df['文件'] = df.file.astype('猫...
如何更改 R Plotly choropleth 地图中的州边界颜色?
我已经使用此链接中建议的方法复制了 R 中离散颜色的等值线图:如何基于分类变量在 R Plotly 中创建叶绿体图? 然而,正如您...
为什么当 DF 可以首先容纳分类列中的 None 时,串联无法处理它
我有 2 个带有对象类型列的 DF,它们可以很好地连接。 代码 df1 = pd.DataFrame({'A': ['A0', 'A1'], 'B': ['B0', 无]}) df2 = pd.DataFrame({'A': ['A4', 'A5'], 'B': [无, 无]})
我有一个包含分类变量的数据框。我想使用以下逻辑将它们转换为数字: 我有 2 个列表,其中一个包含列中不同的分类值,并且
我正在尝试使用 scikit-learn 在数据集上运行一些机器学习算法。我的数据集有一些类似于类别的特征。就像一个特征是 A,它的值是 1,2,3,指定 q...
我的问题与查找数据框中所有分类列中每个值的频率几乎相同,但我需要概率,而不是频率。我们可以使用相同的例子
在 R 中使用一个因变量和一个独立二元变量执行逻辑回归时结果出现错误?
强调文本我有一个数据集 df,其中一个因变量的级别为“0”和“1”,一个自变量的级别为“1”和“2”。关于表演
我正在尝试使用多项回归的预测概率,使用 R 中 nnet 包中的多项函数来估计狄利克雷分布的参数,同时采用...
Pandas - 用 numpy 数组替换分类文本以进行机器学习
我有一个文件: 数据 = pd.read('data.csv') 该文件包含有关数字用户的分类文本数据,例如:(来源 = 'google'、'facebook'、'twitter')和(国家 = 'US'、'FR'、'GER')。 ...
我有一个分类数据的数据框,我想重新编码。 每列都有其单独的重新编码值字典。 下面是我迄今为止所拥有的代码的玩具示例: 进口熊猫...
测试和训练数据有不同的城市,如何查找差异并在测试和训练数据的两列上使用相同的编码系统进行编码
我有一个测试集和训练集。他们有一个城市列,其中一个(火车)有 290 个唯一的,而测试有 30 个。我希望有重叠,即伦敦、布里斯托尔都在两组中,但格洛斯特可能......
我正在研究一个数据集,该数据集的一个特征是单个示例具有多个类别。 该功能如下所示:- 特征 0 [类别 1、类别 2、类别...
我正在尝试创建出生缺陷数据的分类模型。目标是确定哪些父亲变量与前 5 种出生缺陷最相关。目标变量 'd...
我们正在运行一个中介模型(SEM),以分类变量作为中介和结果。我们使用“WLSMV”估计器并按顺序定义分类变量。 有没有可能...
我有一个 pandas 数据框,我试图根据列中的值进行排序,但排序不是按字母顺序排列的。排序基于“排序器”列表(即给出...