Hive 中的矢量化是一项功能(可从 Hive 0.13.0 获得),当启用时而不是一次读取一行读取 1024 行上的块。这提高了扫描、过滤、连接和聚合等操作的 CPU 使用率。
它仅在数据以 ORC 格式存储时可用。所以我们不谈论 ORC 以外的东西,比如 LazySimple ...
好的,在大多数情况下,启用它
set hive.vectorized.execution.enabled = true;
很酷。但我听说在某些特定情况下,禁用它对性能和集群内存都更好。任何人都可以在这里列出它们吗?谢谢。