partitioning 相关问题

分区是一种性能策略,您可以将可能非常大的数据组划分为一些较小的数据组。

SQL Server 分区表和全文索引

使用 SQL Server 2016+ 我有一个需要分区的产品表。它当前有一个主身份键,用作全文索引搜索的一部分。我们需要对表进行分区...

回答 1 投票 0

在分区表上不使用分区键进行查询时的性能影响

假设我按月对一个大尺寸的表(比如6TB)进行分区。我们正在提供大约 300 RPS 的高流量。 示例架构 创建表 mydata( id int 不为空, date_created 不为空,...

回答 1 投票 0

创建会话 ID 存储桶

我正在尝试创建一个 session_id 列,根据是否有 30 分钟的间隙将一堆会话分组到存储桶中... ID 会话_TM 001 00:15:12 001 00:17:17 001 01:00:00 001 01...

回答 1 投票 0

如何调试传递给mapPartitions的函数

如何处理无法使用传递给 pyspark 中的 mapPartitions() 的函数内的 print 语句调试代码的问题? 考虑这个例子: def func(kv_iterator): 为了...

回答 1 投票 0

在笔记本电脑上安装了 ubuntu 服务器,主分区未使用所有空间

昨天我在一台旧笔记本电脑上安装了 ubuntu 服务器,用作 Jellyfin 和其他应用程序的家庭服务器。一切都很顺利,直到我运行“df -h”命令来检查可用空间...

回答 1 投票 0

如何在Databricks中设置日期字段的分区大小

我有时间戳字段source_timestamp,它在对增量表的查询中经常使用。 我想按此列进行分区,分区大小 = 1 个月。 如何实现这一目标? 如果我

回答 1 投票 0

MariaDB 使用 char + date 列进行主键分区

我们希望按月对一个 20m 行的现有表进行分区,但文档说,在开始分区之前,该表需要有一个由 id 组成的复合主键(AUTO_INCRMENT...

回答 1 投票 0

将 0CALDAY (yyyymmdd) 列分区到 Azure 数据工厂的复制活动中的年、月和日

我正在使用 SAP HANA 连接器将数据从 SAP HANA 复制到 Azure 数据湖。在我的查询中,有一个名为 0CALDAY 的列,它是字符串数据类型,并且具有像 20230119 这样的行值。我会...

回答 1 投票 0

无法在 postgres 中对存储以 0 开头的数值的 varchar 字段进行分区

我正在使用 Postgres 13.9 下面是表结构:- 创建表t5 ( id varchar(3), --使用 id 作为 varchar 因为我想保留前导 0。 fname varchar )按范围(id)分区; 创建表

回答 1 投票 0

为什么MySQL中分区键必须是唯一/主键的一部分?

我从文档和许多有关堆栈溢出的问题中知道,每当我对表进行分区时,我都需要一个分区键,并且该分区键必须包含在唯一/主 k 中...

回答 1 投票 0

Spark:编写带分区的 Spark 数据帧。什么时候使用它,什么时候应该避免它

有以下代码: sdf.write.partitionBy("day_of_insertion").format("delta").mode("append").save(path) 分区是通过列完成的,但取决于...

回答 1 投票 0

Oracle:对超过1B记录的表进行分区

数据库:Oracle Database 19c 企业版版本 19.0.0.0.0 问题:在生产中,我们有一个包含超过 1B 条记录的表,我们无法查询该表,因为该表未分区/i...

回答 1 投票 0

spark Scala 中基于自定义文件大小的分区器

我有一个要求,我有一个 s3 文件路径列表及其文件大小 Seq[(String, Int)],所以我创建了一个相同的 RDD val rdd: RDD[(String, Int)] = driverContext.sc.parallelize(

回答 1 投票 0

某个分区的数据是否被压缩了

此查询将告诉我压缩是否已标记为压缩 选择 * 来自 All_Tab_Partitions 在讨论中提出,标记为压缩的分区实际上可以包含

回答 1 投票 0

Oracle 12.2 - 尝试使用 XMLTYPE 列对表进行分区时出现 ORA-14427

我目前正在对数据库上的现有表进行分区。其中一些具有 XMLType 列,并且 ALTER TABLE .. MODIFY PARTITION BY RANGE ... ONLINE 似乎不适用于这些表。 ...

回答 2 投票 0

在 slurm 中跨节点分发 python 代码

我有一个计算成本高昂的模拟函数,我希望将其分布到多节点集群上。代码看起来像这样: 输入任务 = [输入_0、输入_1、...、输入_n] 为...

回答 1 投票 0

分区 dask 数据帧的元素平均值

我有一个由多个 2d DataFrame 组成的 dask 数据框(每个分区都是一个 2d DataFrame)。我想要最有效的方法来找到生成单个 2d DataFra 的所有分区的平均值...

回答 1 投票 0

Azure Serverless SQL - 对非分区列性能进行过滤

我是 Azure 新手。我了解使用 filepath(n) 或在文件路径上使用通配符进行过滤时的性能增益 但我想知道当你在o上查询数据过滤时性能如何...

回答 1 投票 0

列出 R 中的所有整数组合

我寻找的基本上是这个问题答案的R版本:生成总和为N的所有数字排列。首先,答案使用java,我真的很难

回答 1 投票 0

状态存储中的密钥重新平衡如何在 Kafka Streams 中进行分区扩展?

假设一个有状态运行的 Kafka 流有一个包含 16 个分区的输入主题,实例(或任务)的数量也是 16。据我所知,Kafka 的默认分区器

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.