数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。
如何应用列的平均值来删除数据集中的缺失值。 我想使用“列平均值”替换数据集中的缺失值,它将用
我想创建一个函数,可以传递电话号码列表,然后返回已清理的电话号码列表。 有效的电话号码应以 62 开头,并且必须是除 62 之外的 11 位数字。如果在
我需要从同一文本字符串中提取多个 8 位数字,并将它们彼此分隔开。这可能吗?
单元格中文本的长度通常为 100-300 个字母和数字字符。我不需要日期或少于 8 位的数字。例如,单元格将具有文本组合...
添加一个在参与者内恒定但在参与者之间不同的数字(lv.2变量)[循环r,MLM]
我想在多级模型中计算调节分析。我有 20 个任务块(1 级),供 33 名参与者(2 级)使用。对于我的相关 IV 和 DV,我已经编写了一个有效的循环: 对于(我...
我对Python相当陌生,并且有点陷入一个问题,我正在提取非常混乱的数据。 例如,我的专栏如下所示: ID 代码 描述 ID123 rdm代码 一些自由文本...
按带有字符串前缀的数字对多行单元格元素进行排序,并删除不必要的空格
在我当前的项目中,有时需要比较 Excel 的两个不同列。为了便于比较,对单元格内容进行转换非常有用
我有一个表,数据如下: 打印(车牌号) # 小标题:513 × 4 板行列数 1 1 A 1 6 2 1 A ...
我有一组商店销售数据,我想利用外部 POI 特征及其人口统计因素来预测其他商店的销售情况。然而,我的特征变量几乎有 80% ze...
我有一个每小时的时间序列数据,其中包含短的和大的缺失间隙。对于小间隙,我可以使用线性插值技术来填充缺失的点,但我想了解...
修改 SQL 查询以将各种 NVARCHAR 字符串转换为日期/时间格式,某些情况下被设置为 NULL,即使它们不应该如此?
问题: 目标是将 SQL Server 中的临时表列 TempExpirationDate 从 NVARCHAR 更新为 DATETIME,然后使用这些值更新我的实际表。 h 列中的日期值...
我有这样的数据: df <- data.frame(id = c("001", "002", "003", "004"), banana = c("banana", NA, NA, NA), ap...
R Studio中的数据清理主要使用tidyr函数,使用2-3小时后就会冻结。恢复功能的唯一方法是关闭并重新启动。我尝试在控制台中停止运行但是...
_嗨,我有两个简单的独立表,通过一对多关系连接。当我尝试使用相关 DAX 公式将计算列添加到事实表时,结果全是空白。然而,我们...
与这个问题类似,我想选择每组的最后一行并为其赋值。 一个<- data.frame("ID" = c("A", "A", "B", "B", &q...
我有下表,我想将其从“长”形式转换为宽形式。每个患者可以有多个程序 (procedure_code)。在我现有的表中,一名患者有多个
我如何知道是否应该在时间序列数据中插入缺失 (NaN) 值?
我正在使用 Kaggle 的公共数据集(可口可乐股票价格):https://www.kaggle.com/datasets/kalilurrahman/coca-cola-stock-live-and-updated/data 我注意到数据集的频率是...
我的表中有一个列包含列表和记录数据类型。如何将记录转换为列表类型,以便该列与我可以轻松将其转换为
大家好,可以帮我吗? 如何删除表情符号 如何删除消息栏中的标签名称(@xxxxx) 如何删除网址 我可以删除表情符号,但单元格中的整个句子都会消失...
对于复杂的帖子提前表示歉意;这是我已经遇到的一个(非常令人沮丧的)问题相当长一段时间了。 我有一个数据集,正处于清理的最后步骤。最后的障碍是我