我试图理解 Databricks 中使用的不同术语,例如 - Hive 表、增量表、镶木地板表。
我试图找到答案,但所有答案都非常混乱。
Hive 表、Delta 表 和 Parquet 表 都是可以使用 Databricks 创建和管理的表类型。
A Hive 表 是在 Apache Hive 中创建的表,Apache Hive 是一种提供数据汇总和临时查询的数据仓库基础设施。 Hive 表存储在 Hive metastore 中,这是一个数据库,用于存储有关 Hive 仓库中的表和分区的元数据。
A Delta 表 是一种使用 Delta Lake 开源项目创建的表。增量表提供 ACID 事务、版本控制和架构实施,旨在处理大规模、高并发的工作负载。 Delta 表以 Delta Lake 格式存储,这是一种开源格式,结合了批处理和流数据处理的优点。
A Parquet 表 是一个使用 Apache Parquet 文件格式的表,这是一种针对分析工作负载优化的列式存储格式。 Parquet 表经过高度压缩,可以使用 Databricks SQL 或其他分析引擎进行高效查询。
知道 Delta 表和 Parquet 表都可以创建为 Hive 表是很有用的,这意味着它们可以使用与常规 Hive 表相同的 Hive metastore 进行管理。这允许与现有的 Hive 工作流和工具无缝集成。