data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

从与数字混合的字符串中剥离字符串和日期、时间

我有这样的数据集: 将 pandas 导入为 pd 将 numpy 导入为 np x = np.array([ '355395.7037', '355369.6383', '355367.881', '355381.419', ...

回答 2 投票 0

从混合字符串与数字中剥离字符串和adte、时间

我有这样的数据集: 将 pandas 导入为 pd 将 numpy 导入为 np x = np.array([ '355395.7037', '355369.6383', '355367.881', '355381.419', ...

回答 1 投票 0

如何将 R 中嵌套的两组字符串中具有唯一值的行组合起来

这有点令人费解;我有一个数据框,其中有进行门诊就诊的患者,每次就诊都有药物,每列一种药物。在某些场合,有

回答 1 投票 0

删除注册商标SQL

我这里有一个数据集示例: 船名 联邦快递国际经济® 联邦快递陆运® FedEx® 国际 Connect Plus 联邦快递国际优先® FEDEX® 国际连接增强版 联邦快递

回答 2 投票 0

如何清理多列的 csv 数据?

我正在尝试帮助非营利组织进行一些数据分析。他们的电子表格如下所示: “S1”代表传感器,有两个读数(温度和湿度),读取三次...

回答 1 投票 0

数据透视——如何基于多列汇总数据?

我正在查看就立法作证的证人数量。我目前有一个这样的数据集: df <- data.frame(bill_number = c(1, 1, 1, 1, 2, 2, 3, 3, 3, 3, 4, 4, 4), witn...

回答 1 投票 0

如何对值求和,然后将其粘贴到同一分组功能查询中的另一行,依此类推

我在电量查询方面有2个问题需要解决,如下: 我制作了一个自定义列End Inv.,其计算方式为:End Inv= Begin Inv.+ Delta 但第二天开始 Inv。应该等于...

回答 1 投票 0

去除数据中的异常值,保持原始趋势

在我的情节中,你可以看到只有一些噪音。我尝试使用 scipy.signal savgol_filter,但趋势已经改变。我只是想消除这些噪音并使它们符合曲线。谢谢你。

回答 2 投票 0

去除数据中的噪音,保持原始趋势

在我的情节中,你可以看到只有一些噪音。我尝试使用 scipy.signal savgol_filter,但趋势已经改变。我只是想消除这些噪音并使它们符合曲线。谢谢你。

回答 1 投票 0

如何使用 SSIS 将列名称添加到没有列标题的平面文件中。

我有多个包含 126 列的平面文件,但每个文件都没有列名称。我应该如何使用 SSIS 将列名称添加到这些文件中。这些文件需要使用SS导入...

回答 2 投票 0

有R函数可以选择特定的行号吗?

我是学习 R 过程中的初学者,我有一个包含书名和作者的数据集,我将其用作清理数据的练习。在这个过程的一部分中,我想分离列&

回答 1 投票 0

折叠/将多行聚合为单行,并基于相同的 ID 共享百分比

我需要一些关于如何聚合行共享 ID 以获取百分比数据的建议/提示。 我的数据框格式为: id 县_1 国家/地区_2 国家/地区_3 .... 国家/地区_x sum_by_id 1 10 ...

回答 1 投票 0

在任意 X 年的年份之间插入相关字符串

我有一个人员技能数据集以及他们获得这些技能的年份。我有一个函数可以按照中点假设插入这些技能(这里很好地回答了“htt...

回答 1 投票 0

删除数据的某些部分

请问我该如何转这个数据 8,36,874 卢比/年 6,69,578 卢比/年 9,44,110 卢比/年 用 Pandas 转换为整数。 我想处理这些数据,但逗号“R”和“/yr”使其添加供我分析,请...

回答 1 投票 0

如何修剪数据框的 X% 顶部和底部(基于列)?

我有以下数据框: 设置.种子(3994) 瓦尔<- round(runif(n=30, min = 5, max= 300), digits=0) cat <- rep(c("A", "B", "C"), each= 10) date <- as.Date(...

回答 1 投票 0

通过将数据框中的某些列乘以单列来创建新列

嗨,我想通过将数据框中的某些列乘以 R 中的单个列来生成多个新列,并将新列附加到原始 df 中。 我的初始数据格式如下...

回答 2 投票 0

如何使用 pandas 删除 ' 后面的所有字符

我有由导演和演员组成的 IMDB 数据 - 然而,由于某种原因,在导演栏中也显示了演员的名字,尽管已经有一个单独的栏。我是

回答 1 投票 0

如何使用合并功能合并多个 CSV 文件

有人提出并回答了几个与我类似的问题,但是他们都使用了 pd.concat 函数,而我想使用合并函数或可以给我类似的东西...

回答 1 投票 0

难以正确清理薪资数据(生成NA)

我正在尝试清理下面小标题的工资栏: 最低工资 最高工资 65K 75K 65K 75K 65K 75K 56.3K 90.8K 61.7K 105K 45,360 84,240 我不知道如何使以上两个...

回答 1 投票 0

根据行过滤多个 csv 文件时出错

我有一个包含 20 个 csv 文件的文件夹。每个文件大约有 10 列和数千行。 csv 文件如下所示: 基因 p 值 XYZ 一个罐头 0.05 123 MM2 0.02 第456章 我...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.