数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。
寻求用于 CSV 数据分析的检索增强生成 (RAG) 工具的建议
在数据工程任务上花费了大量时间后,我正在寻找 RAG 工具或支持 CSV 文件的类似技术。我的项目涉及提取特定条件的信息......
NA 使用 matchmaker: match_df in R
我一直在使用matchmaker包中的清理字典工具:match_df。 代码如下: 数据 <-import("coded-data.csv") dict <- import("dict.csv") ...
我有 2 个表 - Troux 和 Url-shortener。 Troux 与 Url-shortener 具有一对多关系。它们都有 UUID 作为公共列。 UUID 是文本列,值为字母数字。我需要选择...
我非常感谢您对一些数据进行排序以减少我拥有的海量数据集(近 2600 行)的时间自相关性方面的帮助。我确信这可能是一个相当简单的事情...
来自 matchmaker 的 match_df 不适用于所有列?
我正在使用 matchmaker 包清理字符串数据。我已经使用 from、to 和 col 列创建了字典,以定义未清理的术语、已清理的术语以及未清理的列名称...
我在 powerbi 列中有带有前缀的值,例如标题:一些标题。 我想使用 dax 将此列放入另一个表,但没有前缀“标题:”,所以它应该是“一些标题”...
Powerbi:删除列中字符串值的一部分并将其放入另一个表中
我在 powerbi 列中有带有前缀的值,例如标题:一些标题。 我想使用 dax 将此列放入另一个表,但没有前缀“标题:”,所以它应该是“一些标题”...
背景 我正在使用 read_csv() (来自 readr)导入和清理数据集(头包含在下面),并注意到可能应该是整数列的各种列被保留为数字列...
我正在 BigQuery 中处理天气数据,在分析风速和能见度之前,需要将零(错误输入的缺失值)替换为空值。我当前的代码导致错误...
我正在 BigQuery 中处理天气数据,在分析风速和能见度之前,需要将零(错误输入的缺失值)替换为空值。我当前的代码导致错误...
我需要使用从数据帧的子集计算出的值来更新 df 子集的数据。 个人信噪比 XYZ 日期 价值 22222 A 扬 0,8 22222 乙 扬 0,2 22222 A 二月 0,8 22222 乙 二月 0,2 我有...
我目前在当地一家新闻台担任初级数据分析师,负责使用 BigQuery 分析天气趋势。在我的分析中,我遇到了数据清理过程的问题。 ...
我有下表,有两列: 日期 书名 2022年1月1日 标题1 标题2 2022 年 1 月 3 日 <- unsorted 02.01.2022 Title3 02.01.2022 Title4 The Date rows work as a sort of sub-hea...
将一列的唯一值扩展为多列,适用于 DataFrame 中的 X 列
我需要将DataFrame转换为以下形状: 将 pandas 导入为 pd 将 numpy 导入为 np df = pd.DataFrame({ 'foo': ['一', '一', '一', '二', '二', '二', '三', '三', '三'], ...
不在编辑器中时,Power Query 是否将查询中的所有表保存在内存中?
我有一些 Excel 文件,它们使用强力查询通过内部 ODBC 连接获取数据。我需要将文件分发到企业中的其他计算机。数据安全不是一个问题,因为...
我觉得问这个问题有点傻,但我需要一个 GUI 工具来进行数据清理。 如果我能简化任务,一位高管提出接管我的部分数据清理工作。我一直在使用 R 来清理...
将同时包含 MM-DD-YYYY 和 DD-MM-YYYY 日期的列转换为仅 MM-DD-YYYY?
我无法找到解决方案来将表格上的日期列正确地从 mm-dd-yyyy 和 dd-mm-yyyy 的混合转换/更改为 mm-dd-yyyy。 列中的正确日期...
我有一个大型数据集,其中有 x 行和 y 列。其中一列为单词和一些不需要的数据。不需要的数据没有特定的模式,因此我发现很难
我有以下txt文件,我想使用不使用行号的数据文本解析方法输出2个字典txt文件,因为它应该适用...