data-cleaning 相关问题

数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。

有一种方法可以使用python

因此,这是我提出的解决方案,尽管它不太有用:

回答 1 投票 0

R函数替换有货变量中所有“ f”的实例?

[1] Male Female [3] female Female/woman [5] Female F [7] female Woman [9] Cis female, she her Female cisgender [11] Female heterosexual I identify as a trans woman! [13] Demiboy Transwoman [15] My sex is female and my gender identity is nonbinary male [17] m woman [19] Woman Nonbinary [21] my gender doesn't exist Male/AMAB

回答 0 投票 0

如何在保留代码片段和数学公式的同时清洁聊天机器人的数据集? 我正在从事一个项目,我需要清洁将用于聊天机器人的数据集。数据集包括文本数据,代码片段和数学公式,我想确保在

RECTACT敏感数据,例如URL,电子邮件地址和个人信息。 标准化日期并从数据集的非代码部分中删除所有不必要的特殊字符。 通过保持特殊字符,凹痕和语法完整来保留代码片段和公式的完整性。 我的挑战是:

回答 0 投票 0

如何修改<list>数据框列? 我在rstudio工作,试图清理我从JSON文件转换的Pokémon数据集,并且我的数据框架名为BP1: 物种项目能力 ...

species item ability <chr> <list> <chr> 1 Aegislash <chr [2]> Stance Change 2 Aegislash <chr [1]> Stance Change 3 Aegislash <chr [1]> Stance Change 4 Aegislash <chr [1]> Stance Change 5 Aegislash <chr [1]> Stance Change

回答 1 投票 0

从文件中读取大型多部分表格,然后将其零件梳成一个tibble

我有以下结构的巨大文件(> 25 MB): 项目:时间段 0 项目:原子数 14748 项目:框边界SS SS SS -1.3314357502021994E+02 1.1517122459132779E+02 -1.3499049172495 ...

回答 1 投票 0

回答 1 投票 0


使用 R 中的 str_split() 将 1 列拆分为 2 列

我有这个数据框 # 我的数据框 df <- data.frame( id_do_cliente = c(852, 966, 677, 877, 176, 69, 688, 525, 307, 127), nome_completo = c( "John Smith", "Emily Johnson&

回答 1 投票 0

从列中删除中间名和首字母并保存在 R 中的单独列中

我有一列名字;有些有中间名或中间名缩写。我想从全名列中删除这些中间缩写,并在此列旁边创建一个新列来存储这些中间

回答 2 投票 0

从列中删除中间名和首字母缩写并保存在单独的列中

我有一列名字;有些有中间名或中间名缩写。我想从全名列中删除这些中间缩写,并在此列旁边创建一个新列来存储这些中间

回答 2 投票 0

从列中删除中间名和首字母缩写并保存在单独的列 R 中

我有一列名字,其中一些有中间名或中间名缩写。我想从全名列中删除那些中间首字母,并在此列旁边创建一个新列来存储这些中间...

回答 1 投票 0

提取值时未获取小数

所以我正在练习数据整理,我遇到了一个问题。 食物['GPA'].unique() 输出是 数组(['2.4', '3.654', '3.3', '3.2', '3.5', '2.25', '3.8', '3.904', '3.4', '3.6', '...

回答 1 投票 0

如何使用Python(或其他任何东西)删除txt文件中的尾随空行

我想从这样的事情中走出来 一些需要保留的有用数据 保留更多有用的数据 对于这样的事情 一些需要保留的有用数据 保留更多有用的数据 使用

回答 1 投票 0

内置的 Pandas 单元格级函数具有索引/列感知功能?

我正在清理历史数据以进行指数平滑预测。我有美国县级(即二级行政区划)的数据,但是有很多零值(由于...

回答 1 投票 0

如何比较DataFrame中两个分组列值的计数?

我有一个如下所示的数据集: 审查 推荐 游戏名称 评论...好 受到推崇的 游戏1 评论...不好 不推荐 游戏1 最糟糕的游戏 不推荐 游戏1 审查...不

回答 1 投票 0

如何在 Power Query 中为列表中的每个字符串添加或插入 '(单引号),其中字符串以逗号分隔

我有一个表 #"DistinctCompanyCode",只有 1 列 [公司代码] 在 PowerQuery 中,我能够将其放入字符串中 = Text.Combine(List.Buffer(#"DistinctCompanyCode"[公司

回答 1 投票 0

根据异常重复模式填充空值

我有一个pandas df,需要通过在city_id和address_type字段中填充空值来清理: 城市ID 日期 状态 城市 地址类型 1001 10/1/24 德克萨斯州 休斯顿 房子 1001 10/1/24 德克萨斯州 休斯顿 ...

回答 1 投票 0

极地:填补每组缺失的月份

我想根据每组中的最小和最大日期填充每组数据框中缺失的月份。 这种方法有效,但使用了 Polars.apply。 将极坐标导入为 pl 将 numpy 导入为 np 来自

回答 1 投票 0

如果向量的元素至少在一个区间内,是否有一种快速/聪明的方法来返回逻辑向量?

假设您有向量数值向量 x 和一个包含开始列和结束列的数据框 df 。有没有一种聪明的方法来返回长度等于 x 的逻辑向量,指示 x 是否至少在一个

回答 2 投票 0

将切向相关的数据集合并到一张表中

我试图将两个数据集合并成一种易于理解的格式。 作为我的要求的一个例子,假设我经营一家动物育种机构。 首先是动物饲养员的名单,

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.