数据存储在实时数据库中,例如MySQL 需要清除所有重复、NaN 值、异常值等,然后才能与 PowerBI 一起使用进行可视化。
作为入门级数据分析师开始负责清理数据然后提供可视化,最佳实践是什么?
根据我有限的知识,最佳实践是从生产数据创建一小块测试数据,然后使用 PowerBI 执行所有 EDA、清理和可视化。然后在生产中实现测试查询,最后使用 powerBI 连接生产数据库。
经验丰富的专业人士有什么帮助和建议吗?预先感谢☺️
我想知道实时数据库中的数据清理是如何完成的,这些查询如何自动化以及行业的最佳实践是什么。
请具体说明一下,等等是什么意思。 清理、替换、重命名、过滤、删除重复项、提取文本也可以在 power bi 编辑查询中完成。您的数据如何,是否结构化。您的数据是否有日期,如果有,那么采用日期数据类型非常重要。将日期插入数据库时,它应该采用正确的数据类型格式。如果您有多个表,并且您希望仅通过 SQL 将数据组合在一起,则需要根据要求创建查询。您可以在从数据库导入数据时加载此查询。您可以将有限数量的行导入到 power bi 中,并进行一些分析,看看它是否符合您的预期。只是不要在任何地方发布。做你当地的事情。