data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

如何在SQL中分割这些多行?

我目前正在学习SQL,还是个新手。我有一个任务,需要用日期和用户 ID 等各种条目拆分一些行。我真的需要帮助 +--------+--------------------...

回答 2 投票 0

根据单元格值合并行

我在 Power BI 中有数据,这些数据是通过链接到我公司 LiveChat 服务的 API 获取的。数据作为一行出现,每个代理及其类别作为单独的列出现。所以有...

回答 1 投票 0

如何使您查找的关键字在文本字符串中使用时返回 true?

我在kaggle上找到了这个数据集,我想对其进行EDA。 https://www.kaggle.com/datasets/andrewmvd/data-scientist-jobs/data 快速概述:数据集是从 glassdoor 数据科学工作帖子中删除的...

回答 2 投票 0

引用函数参数作为pivot_longer中的列名

我正在尝试编写一个使用pivot_longer的函数,并且想使用我的函数对象作为pivot_longer中names_to参数的对象。 记录<- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

回答 1 投票 0

当我尝试清理正在使用的数据框时出现未知字符串格式错误

我正在尝试设置给定的数据,以便我可以分析时间序列数据。我是编码新手,尤其是 Python。 包含代码后,我不断收到错误: ParserError:未知的字符串格式:

回答 1 投票 0

删除 Json 文件中的特定行

我正在尝试清理下面的 json 文件。我想删除“Stores”列表中键为“Company”的所有字典键值对。 { “公司”:“阿...

回答 2 投票 0

如何在Python中去掉“.0”

我有数据框 df.info(): M 5899 非空 float64 我需要去掉 M 列的 .0。 df['M'].value_counts() 4354.0 4382 454.0 98 234324.0 98 我试过了...

回答 1 投票 0

如何折叠 pandas 数据框中的行?

我有两个数据框。 df.A 有两列,一列包含道路名称,一列包含页码和网格(即 10 A4)。 df.B 将是结果 df,它有两列,其中一列具有唯一的道路名称...

回答 1 投票 0

使用 R 查找在选择列中重复值的行

长期堆栈溢出潜伏者,但现在决定试水,看看这里是否有人可以帮助我解决困扰我很长一段时间的数据清理问题。我有数据有记录...

回答 1 投票 0

从与数字混合的字符串中剥离字符串和日期、时间

我有这样的数据集: 将 pandas 导入为 pd 将 numpy 导入为 np x = np.array([ '355395.7037', '355369.6383', '355367.881', '355381.419', ...

回答 2 投票 0

从混合字符串与数字中剥离字符串和adte、时间

我有这样的数据集: 将 pandas 导入为 pd 将 numpy 导入为 np x = np.array([ '355395.7037', '355369.6383', '355367.881', '355381.419', ...

回答 1 投票 0

如何将 R 中嵌套的两组字符串中具有唯一值的行组合起来

这有点令人费解;我有一个数据框,其中有进行门诊就诊的患者,每次就诊都有药物,每列一种药物。在某些场合,有

回答 1 投票 0

删除注册商标SQL

我这里有一个数据集示例: 船名 联邦快递国际经济® 联邦快递陆运® FedEx® 国际 Connect Plus 联邦快递国际优先® FEDEX® 国际连接增强版 联邦快递

回答 2 投票 0

如何清理多列的 csv 数据?

我正在尝试帮助非营利组织进行一些数据分析。他们的电子表格如下所示: “S1”代表传感器,有两个读数(温度和湿度),读取三次...

回答 1 投票 0

数据透视——如何基于多列汇总数据?

我正在查看就立法作证的证人数量。我目前有一个这样的数据集: df <- data.frame(bill_number = c(1, 1, 1, 1, 2, 2, 3, 3, 3, 3, 4, 4, 4), witn...

回答 1 投票 0

如何对值求和,然后将其粘贴到同一分组功能查询中的另一行,依此类推

我在电量查询方面有2个问题需要解决,如下: 我制作了一个自定义列End Inv.,其计算方式为:End Inv= Begin Inv.+ Delta 但第二天开始 Inv。应该等于...

回答 1 投票 0

去除数据中的异常值,保持原始趋势

在我的情节中,你可以看到只有一些噪音。我尝试使用 scipy.signal savgol_filter,但趋势已经改变。我只是想消除这些噪音并使它们符合曲线。谢谢你。

回答 2 投票 0

去除数据中的噪音,保持原始趋势

在我的情节中,你可以看到只有一些噪音。我尝试使用 scipy.signal savgol_filter,但趋势已经改变。我只是想消除这些噪音并使它们符合曲线。谢谢你。

回答 1 投票 0

如何使用 SSIS 将列名称添加到没有列标题的平面文件中。

我有多个包含 126 列的平面文件,但每个文件都没有列名称。我应该如何使用 SSIS 将列名称添加到这些文件中。这些文件需要使用SS导入...

回答 2 投票 0

有R函数可以选择特定的行号吗?

我是学习 R 过程中的初学者,我有一个包含书名和作者的数据集,我将其用作清理数据的练习。在这个过程的一部分中,我想分离列&

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.