data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

如何比较DataFrame中两个分组列值的计数?

我有一个如下所示的数据集: 审查 推荐 游戏名称 评论...好 受到推崇的 游戏1 评论...不好 不推荐 游戏1 最糟糕的游戏 不推荐 游戏1 审查...不

回答 1 投票 0

如何在 Power Query 中为列表中的每个字符串添加或插入 '(单引号),其中字符串以逗号分隔

我有一个表 #"DistinctCompanyCode",只有 1 列 [公司代码] 在 PowerQuery 中,我能够将其放入字符串中 = Text.Combine(List.Buffer(#"DistinctCompanyCode"[公司

回答 1 投票 0

根据异常重复模式填充空值

我有一个pandas df,需要通过在city_id和address_type字段中填充空值来清理: 城市ID 日期 状态 城市 地址类型 1001 10/1/24 德克萨斯州 休斯顿 房子 1001 10/1/24 德克萨斯州 休斯顿 ...

回答 1 投票 0

极地:填补每组缺失的月份

我想根据每组中的最小和最大日期填充每组数据框中缺失的月份。 这种方法有效,但使用了 Polars.apply。 将极坐标导入为 pl 将 numpy 导入为 np 来自

回答 1 投票 0

如果向量的元素至少在一个区间内,是否有一种快速/聪明的方法来返回逻辑向量?

假设您有向量数值向量 x 和一个包含开始列和结束列的数据框 df 。有没有一种聪明的方法来返回长度等于 x 的逻辑向量,指示 x 是否至少在一个

回答 2 投票 0

将切向相关的数据集合并到一张表中

我试图将两个数据集合并成一种易于理解的格式。 作为我的要求的一个例子,假设我经营一家动物育种机构。 首先是动物饲养员的名单,

回答 1 投票 0

将成分/功能分成单独的列,并标记为“0”或“1”

我正在查看一些食物浪费数据,其中有相当多的数据,包括食物中的成分。我正在尝试对数据进行一些机器学习,但在获取数据时遇到了一些困难

回答 1 投票 0

如何创建一个空的指定列并将该列放置到 R 中数据框中的特定编号位置

我有一个包含 388 列的数据框,并且我的数据框中有两列标记为“Longitude_E”和“Latitude_N”,其中包含以度、分和秒为单位的 GPS 坐标。 我的目标是创造...

回答 1 投票 0

一次重新编码多个李克特量表列

我通常会以困难的方式做到这一点,但我确信你们中的一位编码专家有一些不那么乏味的东西。 使用以下数据集: #示例数据集 Q1 <- c("Agree", "Disagree", ...

回答 1 投票 0

R 中如何重新排列每行中的值以避免跨列重复?

问题 我在 R 中有一个数据框,其中每行包含多个带有分类值的列。我的目标是重新排列每行中的值,以便在...

回答 1 投票 0

Excel 如何将重复的行合并为带有附加列的单行?

我需要帮助格式化我的数据,如下图所示。这些只有 3 列,我有很多这样的列。我该如何格式化这个。 当前状态 期望状态 对于上下文,我的数据集有 2100 ...

回答 1 投票 0

替换我的 data_df["country_name"] 列中的 NaN 值

我的原始数据框= data_df,其中 data_df["country_name"] 列和城市列 data_df["city_name"] 中缺少 427 个国家/地区,所有行都有一个城市名称

回答 1 投票 0

如何在 Excel 中将模式不一致的数据分离为结构化格式

单元格中的值不一致 我正在使用一个数据集,其中单元格中的多个值被标记在位置、主机、访客和存储桶等类别下,并用换行符分隔。我需要...

回答 1 投票 0

如何在 Power Query 中将第一行和第二行合并为新列中的新行?

我需要帮助清理 Power Query 中的数据。我正在尝试根据描述列创建另一列。如何创建一个新列来组合当前行和下一行...

回答 1 投票 0

如何仅从 Excel 中的职位描述中的关键字列表中过滤关键字

我有10万条数据。从那里我收集了一些关键字列表。我想从 Excel 的关键字列表中找出职位描述中提到的关键字。 我尝试使用给出的公式...

回答 1 投票 0

如何用字典映射替换极坐标数据框中的多行?

所以可以说我有一个用户及其工资记录的 Excel 表/csv。我已经为数据库中的每个用户创建了一个帐户,并希望使用数据库中的 id 为每个用户创建工资记录。 导入

回答 1 投票 0

如何删除postgresql中的重复行

我想从表 nashvillehousing 中删除重复的行。但是,当我尝试使用 CTE 并删除重复行时,它不起作用,并且我得到“关系 cte 不存在”,SQL sta...

回答 1 投票 0

是否有更好的方法来替换 DataFrame 上特定列中的所有非 ASCII 字符?

有一些中文和日文的句子和单词我只想放弃。 或者如果有比放弃它们更好的解决方案,我也想探索它们。 将 pandas 导入为...

回答 1 投票 0

Postgres:组合除一列外所有列中都相同的行

(表格,例如第二列和第三列相同,除了控制台列) 我有一个视频游戏表,有 6 列:Game_Title、Consoles、ESRB_Rating、Content_Descriptors、

回答 1 投票 0

不同的数据名称输出[重复]

我想计算这个数据框中患糖尿病的最高年龄。该代码的预期输出如下所示: 年龄 25 14 31 13 41 13 29 13 43 11 22 11 28 10 33 10 38 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.