partitioning 相关问题

分区是一种性能策略,您可以将可能非常大的数据组划分为一些较小的数据组。

如何在Databricks中设置日期字段的分区大小

我有时间戳字段source_timestamp,它在对增量表的查询中经常使用。 我想按此列进行分区,分区大小 = 1 个月。 如何实现这一目标? 如果我

回答 1 投票 0

MariaDB 使用 char + date 列进行主键分区

我们希望按月对一个 20m 行的现有表进行分区,但文档说,在开始分区之前,该表需要有一个由 id 组成的复合主键(AUTO_INCRMENT...

回答 1 投票 0

将 0CALDAY (yyyymmdd) 列分区到 Azure 数据工厂的复制活动中的年、月和日

我正在使用 SAP HANA 连接器将数据从 SAP HANA 复制到 Azure 数据湖。在我的查询中,有一个名为 0CALDAY 的列,它是字符串数据类型,并且具有像 20230119 这样的行值。我会...

回答 1 投票 0

无法在 postgres 中对存储以 0 开头的数值的 varchar 字段进行分区

我正在使用 Postgres 13.9 下面是表结构:- 创建表t5 ( id varchar(3), --使用 id 作为 varchar 因为我想保留前导 0。 fname varchar )按范围(id)分区; 创建表

回答 1 投票 0

为什么MySQL中分区键必须是唯一/主键的一部分?

我从文档和许多有关堆栈溢出的问题中知道,每当我对表进行分区时,我都需要一个分区键,并且该分区键必须包含在唯一/主 k 中...

回答 1 投票 0

Spark:编写带分区的 Spark 数据帧。什么时候使用它,什么时候应该避免它

有以下代码: sdf.write.partitionBy("day_of_insertion").format("delta").mode("append").save(path) 分区是通过列完成的,但取决于...

回答 1 投票 0

Oracle:对超过1B记录的表进行分区

数据库:Oracle Database 19c 企业版版本 19.0.0.0.0 问题:在生产中,我们有一个包含超过 1B 条记录的表,我们无法查询该表,因为该表未分区/i...

回答 1 投票 0

spark Scala 中基于自定义文件大小的分区器

我有一个要求,我有一个 s3 文件路径列表及其文件大小 Seq[(String, Int)],所以我创建了一个相同的 RDD val rdd: RDD[(String, Int)] = driverContext.sc.parallelize(

回答 1 投票 0

某个分区的数据是否被压缩了

此查询将告诉我压缩是否已标记为压缩 选择 * 来自 All_Tab_Partitions 在讨论中提出,标记为压缩的分区实际上可以包含

回答 1 投票 0

Oracle 12.2 - 尝试使用 XMLTYPE 列对表进行分区时出现 ORA-14427

我目前正在对数据库上的现有表进行分区。其中一些具有 XMLType 列,并且 ALTER TABLE .. MODIFY PARTITION BY RANGE ... ONLINE 似乎不适用于这些表。 ...

回答 2 投票 0

在 slurm 中跨节点分发 python 代码

我有一个计算成本高昂的模拟函数,我希望将其分布到多节点集群上。代码看起来像这样: 输入任务 = [输入_0、输入_1、...、输入_n] 为...

回答 1 投票 0

分区 dask 数据帧的元素平均值

我有一个由多个 2d DataFrame 组成的 dask 数据框(每个分区都是一个 2d DataFrame)。我想要最有效的方法来找到生成单个 2d DataFra 的所有分区的平均值...

回答 1 投票 0

Azure Serverless SQL - 对非分区列性能进行过滤

我是 Azure 新手。我了解使用 filepath(n) 或在文件路径上使用通配符进行过滤时的性能增益 但我想知道当你在o上查询数据过滤时性能如何...

回答 1 投票 0

列出 R 中的所有整数组合

我寻找的基本上是这个问题答案的R版本:生成总和为N的所有数字排列。首先,答案使用java,我真的很难

回答 1 投票 0

状态存储中的密钥重新平衡如何在 Kafka Streams 中进行分区扩展?

假设一个有状态运行的 Kafka 流有一个包含 16 个分区的输入主题,实例(或任务)的数量也是 16。据我所知,Kafka 的默认分区器

回答 1 投票 0

错误:函数 pg_catalog.extract(未知,整数) 不存在

我正在编写一个 SQL 查询来创建分区,如下所示: 做 $$ 宣布 表名文本 := 'table_1'; 开始日期日期 := (选择 MIN(

回答 2 投票 0

将时间序列数据持续加载到分区文件夹中

我有一些传入数据每小时刷新一次。因此,我每小时都会收到来自不同气象站的最新测量数据。我所做的就是先上演它,所以它看起来像

回答 0 投票 0

SQL Server、Spark 作业 [已关闭]

我有一个包含15亿行和109列的表,存储了大约8年的销售数据,并且每天都在增长。 那么我如何获取此表中的数据:- 我创建了一项 Spark 作业并且

回答 0 投票 0

我的C盘缺少的空间在哪里?

这是我的C盘空间图片 磁盘大小:- 程序文件:17.7 GB, 程序文件 (x86):5.51 GB, 用户:50.3 GB, Windows:20.3 GB, 总计:...

回答 0 投票 0

两个额外的分区 - 不确定为什么或如何

我有一台华硕A410L,即使在全新安装后,以下问题仍然存在。我以前从未见过这种行为;肯定不记得了。它们看起来完全是空的,而且...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.