我有一台内存为2TB(2000G)的服务器,很多用户在这台服务器上运行他们的进程,我观察到的一个现象是当内存使用量超过1T或1.1T时,服务器上的许多进程都会变慢。一个例子是一些 15 分钟的工作需要 1 小时。
有足够的CPU内核供进程使用。我也排除了 I/O,因为 CPU 使用率仍然是 100%,I/O 等待很低。但是时间变长了
关于这个的一种理论是这些进程都分配了大块内存(它们主要是使用 pandas 的 python 脚本),所以当内存使用率很高时,系统可能花了太多时间试图找到大块内存。
但我不知道如何证明这个理论,即使它是正确的。
另一件可能与此相关的事情是这些进程有一个 cgroup 内存限制,大约是 1.5 T。
关于这个问题有什么想法吗?