数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。
我有一长串客户购买的商品的数据列表,但我想将数据分组。我该怎么做?
这是一个很长的混合项目列表,我想对它们进行分类。除了手动对它们进行分类之外,我怎样才能在 Excel 上做到这一点,这几乎是不可能的 尝试过条件语句,但我不...
如果我清理数据并将中值归入 NaN 值,我是否应该以某种方式将其合并到将用于测试数据的模型中?也就是说,我的测试数据不需要...
在数据清理之前分割多行文本。分割 Oracle 用户表单数据的选项是什么?
我是一名医生,刚刚开始学习Python,所以如果我误用了一些术语,请原谅。 我们的电子健康系统使用 Oracle 用户表单。 血压数据显示在文本字段中,并且可以...
如何清理从 JSON 转换为 Pandas DataFrame 的数据?
我有一个 JSON 列表,我使用以下代码对其进行了规范化: json_nor = pd.json_normalize(数据, max_level=1) pd.set_option('display.max_colwidth', None) #查看 json_nor json_nor 这就是结果
我想根据分组变量中的值创建一个新的数据列。 例如,给定以下数据集,我想将组中的所有行指定为 TRUE...
我目前正在构建一个机器学习模型,并使用Python Flask将其与网站集成进行部署。我已经成功训练了模型并将数据处理成特征......
如何使用python或Power BI清理csv文件中某一列中的杂乱数据
我正在制作一个仪表板,向员工(现场技术人员)展示高效的工作时间。 我有一个从应用程序导出的 CSV 文件,技术人员在执行任务时使用该文件...
如果这是一个愚蠢的问题,我深表歉意,但我最近开始学习 SQL,并且目前正在尝试清理数据集。 然而,有些条目有错误,比如在文本后面有一个“ ”(我...
Raggregate()和distinct()函数仅清理我的一些数据
我目前正在努力尝试估算或删除 R 中大部分重复的行......除了三列。我正在处理死亡率数据集,其中有国家/年龄组/年龄...
如何在 MySQL 中将字符串 'April 9, 2013' 转换为 'dd-mm-yyyy' 格式
我一直在尝试将由“2013年4月9日”格式的日期组成的列转换为“%d/%m/%Y”格式,这将导致“09-04-2013”。 我尝试过使用 STR_TO_DATE 函数...
考虑 SQL Server 中的以下结果: 身份证检查 ------------ 9052N 9052Y 2049 北 2049 是 6940 牛顿 6940 是 7941 号 8118 号 8187 号 如何删除重复的 ID 行并保留
在PowerBI中,我有一个数据表,其中包括问题列和关联的答案列。 在答案栏中有混合列表(列表可能包含一个或多个答案)和非l...
我正在模拟不同参数值的模型。本质上,我获得了包含多个数据帧的列表对象结果。 图书馆(大众) 模型_测试版 <- 0 model_se <- 0 model_p ...
我有一个如下所示的数据框: 数据 <- data.frame(PROG_START = c("Tuesday, October 1, 2019", "1682294400")) > 打印(数据) 程序启动 1 星期二,
我正在使用以下数据集,但在根据团队 ID 计算总分时遇到了麻烦。一支球队可以是主场也可以是客场,我正在计算他们的总计......
我试图连接两个不同长度的特征列表,这导致了 ValueError,因为两个列表的形状无法一起广播。我试图选择
我正在使用一个数据集,其中每一行代表单个使用服务的位置。这也隐式地跟踪某人是否使用服务,因为如果他们不使用服务,则该列的值...
我正在使用 R 中的数据集,其中每一行代表单个使用服务的位置。这也隐式地跟踪某人是否使用服务,因为如果他们不使用服务,则列值...
排查函数“数字表达式有 6 个元素:仅使用第一个元素”中的错误
我有以下示例数据 示例_数据 <- data.frame( ID = 1:6, Month.Of.birth = c("September", "April", "December", "June", "April", &q...
假设我有以下由 tibble 和 Haven 包制作的 tibble: 图书馆(小标题) 图书馆(避风港) # 创建数值 价值观 <- c(1:5) # Combine values and colors into a named ...