数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。
我正在 BigQuery 中处理天气数据,在分析风速和能见度之前,需要将零(错误输入的缺失值)替换为空值。我当前的代码导致错误...
我需要使用从数据帧的子集计算出的值来更新 df 子集的数据。 个人信噪比 XYZ 日期 价值 22222 A 扬 0,8 22222 乙 扬 0,2 22222 A 二月 0,8 22222 乙 二月 0,2 我有...
我目前在当地一家新闻台担任初级数据分析师,负责使用 BigQuery 分析天气趋势。在我的分析中,我遇到了数据清理过程的问题。 ...
我有下表,有两列: 日期 书名 2022年1月1日 标题1 标题2 2022 年 1 月 3 日 <- unsorted 02.01.2022 Title3 02.01.2022 Title4 The Date rows work as a sort of sub-hea...
将一列的唯一值扩展为多列,适用于 DataFrame 中的 X 列
我需要将DataFrame转换为以下形状: 将 pandas 导入为 pd 将 numpy 导入为 np df = pd.DataFrame({ 'foo': ['一', '一', '一', '二', '二', '二', '三', '三', '三'], ...
不在编辑器中时,Power Query 是否将查询中的所有表保存在内存中?
我有一些 Excel 文件,它们使用强力查询通过内部 ODBC 连接获取数据。我需要将文件分发到企业中的其他计算机。数据安全不是一个问题,因为...
我觉得问这个问题有点傻,但我需要一个 GUI 工具来进行数据清理。 如果我能简化任务,一位高管提出接管我的部分数据清理工作。我一直在使用 R 来清理...
将同时包含 MM-DD-YYYY 和 DD-MM-YYYY 日期的列转换为仅 MM-DD-YYYY?
我无法找到解决方案来将表格上的日期列正确地从 mm-dd-yyyy 和 dd-mm-yyyy 的混合转换/更改为 mm-dd-yyyy。 列中的正确日期...
我有一个大型数据集,其中有 x 行和 y 列。其中一列为单词和一些不需要的数据。不需要的数据没有特定的模式,因此我发现很难
我有以下txt文件,我想使用不使用行号的数据文本解析方法输出2个字典txt文件,因为它应该适用...
我的目标是在条件下将单元格的值拖动到另一列中的相应行。 我有下表: 第1栏 第2栏 35 无效的 27欧元 无效的 13 无效的 如果 Co 中的细胞...
我有一个数据框,我们称之为 DF,我需要删除某些行。该数据框与以下示例非常相似。 |符号|日期 |卷 | |----------------------------------------| |一个...
我有一个 R 时间序列数据表,其中包含年份、位置、物种和人口计数列。 我一直在尝试找到一种方法来删除其中的时间序列(或仅年份)
这里是新手。 我正在尝试清理 R 中的数据集,但发现邮政编码是 9306 而不是 93060。 我用谷歌搜索并阅读了许多教程,但没有一个更新数据框。那个...
如何在 SQL 中实现“FROM”输入以从我的项目中提取信息?描述中的截图
我正在学习关于数据分析的 coursera 课程并跟随视频学习,但我不确定为什么会收到错误消息或视频如何获得“系绳”选项? 我附上了一个
我正在尝试使用 python 来解决正则表达式,并且正在清理数据集。下面是示例。 玩家 DG Bradman(澳大利亚) HC 布鲁克 (ENG) 我正在尝试使用正则表达式来拆分玩家姓名和国家/地区...
我想创建一个函数来检查列表格式的电话号码。该功能将根据以下标准执行清洁: 以 62 开头,例如62xxxxxxxxxxxx 必须是 11 位数字
M 查询从字符串中的随机位置查找并提取具有特定位数计数的数字字符串
我找到了类似问题的答案,并尝试使它们适应我的情况,但没有任何效果对我有用。我试图“翻译”我现有的和工作的 Excel 公式,但是...
单元格中文本的长度通常为 100-300 个字母和数字字符。我不需要日期或少于 8 位的数字。例如,单元格将具有文本组合...