我目前正在构建一个ETL管道,它将数据表(约100 + GB的顺序)输出到下游交互式仪表板,该仪表板允许动态过滤数据(基于预定义和索引过滤器)。
暂时使用PySpark / Spark进行初始ETL阶段。接下来,将汇总此处理的数据(简单计数,平均值等),然后在交互式仪表板中进行可视化。
对于交互式查询部分,我想知道哪种工具可能最适合我的结构化和交易数据(以Parquet格式存储) -
如果您知道更好的选择,请随意提出替代工具。
根据您提供的信息,我将做出几个假设:
仔细阅读列出的选项
我也会看看Amazon Redshift。
如需进一步阅读,请阅读Big Data Analytics Options on AWS。
正如@Damien_The_Unbeliever所推荐的那样,您自己的原型设计和基准测试将无法替代。