Polars + Parquet 与 Polars + mySQL?

问题描述 投票:0回答:2

[注 - 我尝试在 Stack Exchange/软件工程和 Stack Exchange/软件推荐,甚至 Stack Exchange/超级用户上询问这个问题,但他们没有 Polars 或 Parquet 的标签。]

假设我有 10 亿行的数据。推荐以下哪一项:

  • 存储在mySQL中并通过mySQL查询
  • 将其存储在mySQL中并通过Polars进行查询
  • 将其存储在 Parquet 中并通过 Polars 查询

如果我可以提供任何其他相关信息,请告诉我。

python mysql parquet python-polars
2个回答
0
投票

我会继续说:“这取决于”

将其存储在 Parquet 文件中很有意义;追踪简单、读取/移动快速+便于携带。

但是,如果您只阅读其中的一小部分,或者定期修改它,或者您想要索引逻辑,或者您想通过 SQL 查询它 - 那么像 mySQL 或 DuckDB 这样的东西就有意义。


0
投票

如果您有超过 10 亿行的数据,那么它有多少列?数据库更好地容纳这些信息的原因是因为将数据读入极坐标数据帧需要计算机将其加载到内存中;数据库将此信息存储在 SSD/HDD 磁盘空间上。 IMO,最好使用 read_database、api vi sql 查询来查询数据信息极坐标。然后在极地进行操作。 像 pandas 这样的库不能很好地处理如此大的数据,建议使用极坐标,同时巧妙地处理你的 sql 查询,只处理你需要的数据。已经这样做很多年了。

© www.soinside.com 2019 - 2024. All rights reserved.