在什么情况下,禁用 Hadoop 向量化执行比启用它更好

问题描述 投票:0回答:0

Hive 中的矢量化是一项功能(可从 Hive 0.13.0 获得),当启用时而不是一次读取一行读取 1024 行上的块。这提高了扫描、过滤、连接和聚合等操作的 CPU 使用率。
它仅在数据以 ORC 格式存储时可用。所以我们不谈论 ORC 以外的东西,比如 LazySimple ...

好的,在大多数情况下,启用它

set hive.vectorized.execution.enabled = true;
很酷。但我听说在某些特定情况下,禁用它对性能和集群内存都更好。任何人都可以在这里列出它们吗?谢谢。

hadoop mapreduce orc apache-tez
© www.soinside.com 2019 - 2024. All rights reserved.