partitioning 相关问题

分区是一种性能策略,您可以将可能非常大的数据组划分为一些较小的数据组。

什么是表分区?

什么情况下我们应该使用表分区?

回答 5 投票 0

无法在 Databricks 中对驻留在 ADLS 上的外部数据创建分区表

我正在将文件从 ftp 复制到分区文件夹层次结构下的青铜文件夹中的 ADLS,例如 青铜 | | +----- __run_date__=2023-10-23 | | ...

回答 1 投票 0

MongoDB 用一个分片按块进行分区是否合理?在一台服务器上分区

我想在mongodb中得到类似于postgresql中分区的结果。也就是说,我希望在数据库的一个实例上,没有集群,没有额外的节点,数据是分布式的...

回答 1 投票 0

默认的oracle索引是全局的还是本地的

当我在oracle表上创建索引并仅指定列名和表名(基本上是默认索引)时,它会创建全局索引还是本地分区索引(即索引是部分索引...

回答 2 投票 0

Oracle 19c。 REF 分区。开始重定义 在4模式下在父表上持有TM锁(当插入数据到中间表时)

在加载重定义的临时表(DBMS_REDEFINITION.START_REDEF_TABLE)的整个过程中,我在临时的父表上有这个TM锁,该表具有到其他会话使用的表的FK...

回答 1 投票 0

使用 METIS 获取连接的分区

我正在 Python 上使用 Metis 来对我拥有的 networkx 图进行分区。我的目标是获得节点权重总和几乎相等的分区,Metis 完美地做到了这一点。然而,一个限制我...

回答 2 投票 0

DBT 合并分区修剪

这是我第一次与dbt合作!我已经使用 #db-bigquery 和以下配置成功实现了增量模型,如下所示 {{ 配置( 物化='增量', 别名='

回答 1 投票 0

如何在 Azure Synapse Notebook Spark 集群 (pyspark) 中安装 Python 库

我在 Azure Synapse Notebook 中安装 Python 库时遇到问题。我尝试使用 %pip... 和 !pip... 安装两个库,“holidays”和“fugue”...我什至尝试过使用 .WHL

回答 1 投票 0

在时间戳发生变化的oracle sql中插入100万条记录

我需要这样的东西 这实际上会在 5-10 分钟内完成...我需要以 1 天的间隔测试使用分区和不使用分区的成本差异 (NUMTODSINTERVAL(1, 'da...

回答 1 投票 0

Azure Synapse SQL Server 分区开关 - 分区完整性

我正在从《Azure 数据工程师助理认证指南》一书中学习分区切换。 我对 GitHub Repo 中的代码示例有疑问。下面是代码。 我的第一个任务...

回答 1 投票 0

跟踪状态更改为特定值的日期

我有一个像这样的表my_table: 编号 |更新于 |地位 ----------------------------------------------------+-------- -----------------------+-----...

回答 1 投票 0

如何在数据仓库中将数据集市拆分成多个部分并在OBIEE中使用来加快数据集市的写入和读取速度?

在我们的数据仓库中,我们有一个巨大的、最常用和最重要的表之一,用于存储帐户数据(他们的 ID、与运营日相对应的 saldo 等)。每天大约...

回答 2 投票 0

Spark:如何将行分组到固定大小的数组中?

我有一个如下所示的数据集: +---+ |col| +---+ |一个| |乙| | c| | d| |电子| | f| |克| +---+ 我想重新格式化这个数据集,以便将行聚合到固定长度的数组中,...

回答 2 投票 0

使用 SELECT 查询从小间隔和聚合值创建更大的 DATETIME 间隔

我在 MySQL 中有一个包含股票数据的表,其中包含以下列: 时间 打开 高的 低的 关闭 体积 我每 5 分钟收到一个条目。如何以每小时而不是 5 分钟的间隔获取这些值

回答 1 投票 0

MySQL 使用 SELECT 查询从小间隔和聚合值创建更大的 DATETIME 间隔

我在 MySQL 中有一个包含股票数据的表,其中包含以下列: 时间 |打开|高|低|关闭 |体积 我每 5 分钟就有一个条目。如何以每小时而不是 5 的间隔获取这些值

回答 1 投票 0

分区表上主键的分区索引

我想创建分区表: 创建表审计 ( id 号(38,0) 不为空启用, 审核时间时间戳(6), ...

回答 2 投票 0

Visual studio 2022 想要安装在此文件路径,但该路径不再可用

D 驱动器不再可用 我无法安装新的 VS。我在 2-3 年前安装了一个装置,从那时起,安装它的驱动器就出现了故障。现在我不能

回答 1 投票 0

根据工作线程、核心和 DataFrame 大小确定 Spark 分区的最佳数量

Spark-land 中有几个相似但不同的概念,围绕如何将工作分配给不同的节点并同时执行。具体来说,有: Spark 驱动程序节点 (

回答 2 投票 0

同时分离分区后删除它是否安全?

我正在尝试在我的 psql(版本 15)数据库上自动进行分区管理。 我想删除旧分区以释放数据库中的一些空间。为此,我计划使用 CONCURRENTLY 关键字将其分离...

回答 1 投票 0

Spark 在读取时是否使用 repartition() 来推断 parquet 文件的分区是否持续存在?

我有两个数据集存储为镶木地板文件,其架构如下: 数据集1: ID 第 1 列 列2 1 v1 v3 2 v2 v4 数据集2: ID 第 3 列 第 4 列 1 v5 v7 2 v6 v8 我想使用 pysp 连接两个数据集...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.