我在 Cosmos DB 中有一个容器,其中包含大约 1000 万个文档。使用 cosmos.oltp 库集成从 Databricks 加载大约需要 3 小时。
在 cosmos DB 上,我们看到很多 429 错误,这些错误会自动重试。
一个ID上有一个分区,一个索引。这个分区键、ID是逻辑分区吗?是否只能写入一个物理分区,最大吞吐量为 10000 RU?
我们可以将多个物理分区添加到单个逻辑分区吗?
我们是否需要创建多个逻辑分区来提高吞吐量性能,以便每个物理分区可以处理 10K RU?
您是否正在尝试将 10M 文档加载到空容器中,或者容器是否已经加载了一些文档?如果有的话,有多少?
加载的所有文档的总大小是多少 MB/GB?
文档的json结构是什么?
分区键和索引是两个不同的东西。如果你的分区键是ID,那么是的,逻辑分区将在ID上。但是,每个逻辑分区可能有多个物理分区,但这不是我们控制的,如果您的吞吐量超过 10K RU 或者存储超过 50GB,它会自动完成。每个物理分区的最大存储空间为 50GB。拆分可以继续进行,直到每台服务器的最大吞吐量为 < 10K RU and storage per server is < 50GB. Some points to keep in mind : 1 : If you have 2 physical partitions and you want both to operate at peak of 10K RU/s, you will be paying for 20K RU/s throughput. 2 : If you have 5 physical partitions, each has to have a minimum amount of RU/s and hence you will have to set up the autoscale accordingly. In other words, the more number of physical partitions, the larger minimum RU/s you will need.
您可以在这里阅读类似的分区问题