数据清理是删除或修复错误以及规范计算机程序中使用的数据的过程。例如,可以移除异常值,可以插入丢失的样本,可以将无效值标记为不可用,并且可以合并同义值。一种数据清理方法是Wickham的“整洁数据”框架,http://vita.had.co.nz/papers/tidy-data.pdf,这意味着每一行都是一个观察,每一列都是一个变量。
我正在使用 Kaggle 的灾难推文数据集进行 nlp。我正在清理数据并尝试删除表情符号。数据集太大了,我无法单独选择每个表情符号...
我是Python新手(我过去使用过R)。我有一个 pandas 数据框,其中一列包含日期。我想过滤在某一特定日期发生的观察结果。 ## 创建帕...
如何自动化数据框操作,替换我必须返回该数据的操作版本的任何团队名称输入? R
我的目标是使用某种自动化流程,我可以在代码块中的所有事件中输入团队的团队名称。我一直在尝试使用一个函数来做到这一点。我已经提供了一个...
我有一个Python字符串。我想从中删除 base64 字符串。我阅读了有关 base64 规范的信息并环顾四周,但看起来我无法找到一种干净的方法来删除它们。 我试过了
我有一个Python字符串。我想从中删除 base64 字符串。我阅读了 base64 中的规范并环顾四周,但看起来我无法找到一种干净的方法来删除它们。我 tr...
所以我在数据框中有 100000 行,全部包含一个文本列。我想在进一步分析之前清理它。我找到了这个答案,它给了我很多信息。然而我仍然有重复...
我正在研究 Google 的数据分析顶点案例研究。在给定的数据集中,我需要找到骑行开始时间和结束时间之间的差异。我总体上得到了正确的值...
ReplaceValue 在 Excel 查询编辑器中不起作用
我正在尝试在查询编辑器中完成 table.ReplaceValue 步骤,但值似乎不会随着我设置的条件而变化。 我尝试在编辑器中的代码中复制的步骤: 同时...
我有一个名为 Brand_ID 的列,其中 ID 的范围应该是 0-6,但在我的 Brand_ID 列中记录了错误的 User_ID 数字。我一直找不到...
j_数据集 你好!对 R 语言非常陌生。我有一个数据集,其中的“category_alias”列中有一些价格。问题单元格是数据放错位置的单元格,其中数据所在的单元格为空
我有以下数据: df <- data.frame(id = c("1", "1", "1", "1", "2", "2", "2"), x = c(0, 1, 0, 1, 0...
我目前正在学习SQL,还是个新手。我有一个任务,需要用日期和用户 ID 等各种条目拆分一些行。我真的需要帮助 +--------+--------------------...
我在 Power BI 中有数据,这些数据是通过链接到我公司 LiveChat 服务的 API 获取的。数据作为一行出现,每个代理及其类别作为单独的列出现。所以有...
我在kaggle上找到了这个数据集,我想对其进行EDA。 https://www.kaggle.com/datasets/andrewmvd/data-scientist-jobs/data 快速概述:数据集是从 glassdoor 数据科学工作帖子中删除的...
我正在尝试编写一个使用pivot_longer的函数,并且想使用我的函数对象作为pivot_longer中names_to参数的对象。 记录<- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
我正在尝试设置给定的数据,以便我可以分析时间序列数据。我是编码新手,尤其是 Python。 包含代码后,我不断收到错误: ParserError:未知的字符串格式:
我正在尝试清理下面的 json 文件。我想删除“Stores”列表中键为“Company”的所有字典键值对。 { “公司”:“阿...
我有数据框 df.info(): M 5899 非空 float64 我需要去掉 M 列的 .0。 df['M'].value_counts() 4354.0 4382 454.0 98 234324.0 98 我试过了...
我有两个数据框。 df.A 有两列,一列包含道路名称,一列包含页码和网格(即 10 A4)。 df.B 将是结果 df,它有两列,其中一列具有唯一的道路名称...
长期堆栈溢出潜伏者,但现在决定试水,看看这里是否有人可以帮助我解决困扰我很长一段时间的数据清理问题。我有数据有记录...