data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

将成分/功能分成单独的列,并标记为“0”或“1”

我正在查看一些食物浪费数据,其中有相当多的数据,包括食物中的成分。我正在尝试对数据进行一些机器学习,但在获取数据时遇到了一些困难

回答 1 投票 0

如何创建一个空的指定列并将该列放置到 R 中数据框中的特定编号位置

我有一个包含 388 列的数据框,并且我的数据框中有两列标记为“Longitude_E”和“Latitude_N”,其中包含以度、分和秒为单位的 GPS 坐标。 我的目标是创造...

回答 1 投票 0

一次重新编码多个李克特量表列

我通常会以困难的方式做到这一点,但我确信你们中的一位编码专家有一些不那么乏味的东西。 使用以下数据集: #示例数据集 Q1 <- c("Agree", "Disagree", ...

回答 1 投票 0

R 中如何重新排列每行中的值以避免跨列重复?

问题 我在 R 中有一个数据框,其中每行包含多个带有分类值的列。我的目标是重新排列每行中的值,以便在...

回答 1 投票 0

Excel 如何将重复的行合并为带有附加列的单行?

我需要帮助格式化我的数据,如下图所示。这些只有 3 列,我有很多这样的列。我该如何格式化这个。 当前状态 期望状态 对于上下文,我的数据集有 2100 ...

回答 1 投票 0

替换我的 data_df["country_name"] 列中的 NaN 值

我的原始数据框= data_df,其中 data_df["country_name"] 列和城市列 data_df["city_name"] 中缺少 427 个国家/地区,所有行都有一个城市名称

回答 1 投票 0

如何在 Excel 中将模式不一致的数据分离为结构化格式

单元格中的值不一致 我正在使用一个数据集,其中单元格中的多个值被标记在位置、主机、访客和存储桶等类别下,并用换行符分隔。我需要...

回答 1 投票 0

如何在 Power Query 中将第一行和第二行合并为新列中的新行?

我需要帮助清理 Power Query 中的数据。我正在尝试根据描述列创建另一列。如何创建一个新列来组合当前行和下一行...

回答 1 投票 0

如何仅从 Excel 中的职位描述中的关键字列表中过滤关键字

我有10万条数据。从那里我收集了一些关键字列表。我想从 Excel 的关键字列表中找出职位描述中提到的关键字。 我尝试使用给出的公式...

回答 1 投票 0

如何用字典映射替换极坐标数据框中的多行?

所以可以说我有一个用户及其工资记录的 Excel 表/csv。我已经为数据库中的每个用户创建了一个帐户,并希望使用数据库中的 id 为每个用户创建工资记录。 导入

回答 1 投票 0

如何删除postgresql中的重复行

我想从表 nashvillehousing 中删除重复的行。但是,当我尝试使用 CTE 并删除重复行时,它不起作用,并且我得到“关系 cte 不存在”,SQL sta...

回答 1 投票 0

是否有更好的方法来替换 DataFrame 上特定列中的所有非 ASCII 字符?

有一些中文和日文的句子和单词我只想放弃。 或者如果有比放弃它们更好的解决方案,我也想探索它们。 将 pandas 导入为...

回答 1 投票 0

Postgres:组合除一列外所有列中都相同的行

(表格,例如第二列和第三列相同,除了控制台列) 我有一个视频游戏表,有 6 列:Game_Title、Consoles、ESRB_Rating、Content_Descriptors、

回答 1 投票 0

不同的数据名称输出[重复]

我想计算这个数据框中患糖尿病的最高年龄。该代码的预期输出如下所示: 年龄 25 14 31 13 41 13 29 13 43 11 22 11 28 10 33 10 38 ...

回答 1 投票 0

计算缺失值的净资产:结果存在差异

我正在使用财富成分数据集,其中包括住房、商业、金融资产、贷款和非住房贷款的变量。这些变量具有不同程度的随机分配

回答 1 投票 0

如何将两列组合成极坐标中的“{key:value}”对?

我正在使用 Polars DataFrame,我想将两列组合成字典格式,其中一列中的值成为键,另一列中的值成为

回答 1 投票 0

如何用带有升序数字的前缀替换极坐标中的空值?

我试图用前缀和升序数字替换数据帧列中的空值(以使每个值都是唯一的)。 姓名 资产编号 办公椅 无效的 办公椅 无效的 办公椅 无效的

回答 1 投票 0

Python 清理日期仅在 Pandas 中转换为年份

我有一个很大的数据集,一些用户将数据放入 csv 中。我用 panda 将 CSV 转换为数据框。该专栏有超过 1000 个条目,这里是一个示例 日期开始 2013年5月5日 2013年6月12日 11/9/...

回答 2 投票 0

优化 pandas 在大型数据集上的性能

我正在 pandas 中处理大型数据集(约 1000 万行和 50 列),并在数据操作和分析过程中遇到严重的性能问题。操作包括过滤,

回答 1 投票 0

在 pandas 或数据清理中自动识别和标准化相似名称的动态方法

我有一个 DataFrame,其中有一列发布者名称,其中包含同一发布者的各种细微变化。例如,“Harlequin Romance”、“Harlequin Blaze&q...”等条目

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.