data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

如何使用 pyspark 根据间隙总和插入缺失值?

我有一个包含四个字段的时间序列数据集,例如:user_id、timestamp、miles 和total_mileage。英里是在一个时间步长内行驶的英里数,total_mileage 是汽车的里程......

回答 1 投票 0

根据某些规则修改数据框的列

我正在处理下一个示例,以便将一些想法应用于随机过程。假设我有一个数据框,如下所示: 国内流离失所者<-sort(rep(c("A","B","C",&

回答 1 投票 0

根据 Kimball 的说法,处理缺失数据的最佳实践是什么?

我有一个包含下表的数据库: 客户、发票、推销员、目标。 关心我的问题的是客户、发票。 发票中使用了客户 ID,但...

回答 2 投票 0

将 Excel 表格列(并非全部)转换为行 - 长到宽的转换

需要将Excel表格的列转换为行。我尝试将数据透视表的值转换为文本,但找不到用其基础数据替换值字段的方法(显示为 te...

回答 1 投票 0

从数字/文本列计算秒,表示时间(以小时/分钟/秒为单位)

在Power Query中我有一个列,例如看起来像这样 9小时8分4秒 这意味着 9 小时 8 分 4 秒。现在的挑战是我想将列中的这个值转换为su...

回答 2 投票 0

如何使用 pandas 将一列的随机行插入到另一列?`

提前感谢您的帮助和时间。 以下是相关信息: 亚洲 阿富汗 5,000 约旦 1,188 沙特阿拉伯 619 巴林 8 科威特 162 非洲

回答 1 投票 0

Excel Power Query 如何添加新列确定最近和第二个最近日期(当前与之前)

我有一个数据集,其中包含带有某些字段的报告日期。我想使用 Excel 强力查询添加一列(例如状态),确定最近的日期(例如 3/1/2022)并分配“Curr...

回答 2 投票 0

如何按两列分组并列出另外两列的唯一值?

我有这个csv: 汽车颜色代码城市 法拉利粉色 01 LA 法拉利红02 LA 兰博黄09德克萨斯州 兰博橙 08 德克萨斯州 我希望在 powerbi、grou 中有这种 groupby...

回答 1 投票 0

Power Query 对每种颜色和每种尺寸求和,返回可用尺寸列表上的值

我有一份衬衫颜色和建议尺寸的列表。我想在查询中创建一个新列,并根据过滤后的元素创建一个列表值(我不知道如何解释...

回答 1 投票 0

如何在 powerquery 中将数字转换为序数形式

有没有办法在powerquery中将排名数字转换为序数形式。 例如,排名:1、2、3、4、5、31、52 等。应显示为 1st、2nd、3rd、4th、5th、31st 52nd。 谢谢!

回答 2 投票 0

如何标准化列中的值

让我们采用具有以下内容的相同数据集: 年份 制造商 型号 内饰 车身变速箱 Vin 状态 状况 2015 蒂亚索兰托 LX SUV 自动 5xyk ca 5.0 2015 蒂亚·索伦...

回答 1 投票 0

寻求用于 CSV 数据分析的检索增强生成 (RAG) 工具的建议

在数据工程任务上花费了大量时间后,我正在寻找 RAG 工具或支持 CSV 文件的类似技术。我的项目涉及提取特定条件的信息......

回答 1 投票 0

NA 使用 matchmaker: match_df in R

我一直在使用matchmaker包中的清理字典工具:match_df。 代码如下: 数据 <-import("coded-data.csv") dict <- import("dict.csv") ...

回答 1 投票 0

无法在power bi dax查询中过滤

我有 2 个表 - Troux 和 Url-shortener。 Troux 与 Url-shortener 具有一对多关系。它们都有 UUID 作为公共列。 UUID 是文本列,值为字母数字。我需要选择...

回答 1 投票 0

海量数据集 - 按月份和位置计算的平均值

我非常感谢您对一些数据进行排序以减少我拥有的海量数据集(近 2600 行)的时间自相关性方面的帮助。我确信这可能是一个相当简单的事情...

回答 1 投票 0

来自 matchmaker 的 match_df 不适用于所有列?

我正在使用 matchmaker 包清理字符串数据。我已经使用 from、to 和 col 列创建了字典,以定义未清理的术语、已清理的术语以及未清理的列名称...

回答 1 投票 0

Powerbi:删除列中的部分字符串值并将其放入另一个表

我在 powerbi 列中有带有前缀的值,例如标题:一些标题。 我想使用 dax 将此列放入另一个表,但没有前缀“标题:”,所以它应该是“一些标题”...

回答 2 投票 0

Powerbi:删除列中字符串值的一部分并将其放入另一个表中

我在 powerbi 列中有带有前缀的值,例如标题:一些标题。 我想使用 dax 将此列放入另一个表,但没有前缀“标题:”,所以它应该是“一些标题”...

回答 1 投票 0

如果可能,将数字列转换为整数,否则保留数字

背景 我正在使用 read_csv() (来自 readr)导入和清理数据集(头包含在下面),并注意到可能应该是整数列的各种列被保留为数字列...

回答 1 投票 0

用空值替换零 - 遇到错误

我正在 BigQuery 中处理天气数据,在分析风速和能见度之前,需要将零(错误输入的缺失值)替换为空值。我当前的代码导致错误...

回答 2 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.