如何阻止 linux mint 系统保留我所有的 GPU?

问题描述 投票:0回答:1

我遵循了所有其他成功尝试的所有说明,以防止我的 GPU 内存被操作系统保留。特别是 xorg,如下面的链接所述。我已经注释掉了 10-nvidia.conf 我做了 systemctl restart display-manager 进入空白屏幕然后我远程登录希望内存是空闲的,正如你所看到的,没有任何东西在运行,并且只有 1 mb 的内存被使用。但我仍然遇到同样的错误。我正在我的 Windows 机器上运行 meta-llama 3.1 8B Instruct 模型,我希望通过迁移到 Linux 环境它会更快。它加载检查点碎片的速度比我能说的更快,“什么”,但随后它因内存不足错误而崩溃:

torch.OutOfMemoryError:CUDA 内存不足。尝试分配 112.00 MiB。 GPU 0 总容量为 1.95 GiB,其中 5.69 MiB 可用。

   
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.01             Driver Version: 535.183.01   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce GT 1030         Off | 00000000:06:00.0  On |                  N/A |
| 28%   33C    P0              N/A /  30W |      1MiB /  2048MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+

我在具有所有相同硬件的 Windows 10 电脑上运行相同的卡,并且 Windows 操作系统也相同。仅使用不到 1% 的内存,并且不使用 GPU。这是我的 Linux Mint 机器的硬件信息:

****Graphics:
  Device-1: NVIDIA GP108 [GeForce GT 1030] driver: nvidia v: 535.183.01
  Display: server: X.org v: 1.21.1.11 with: Xwayland v: 23.2.6 driver:
    gpu: nvidia,nvidia-nvswitch tty: 190x41 resolution: 1: 3840x2160
  API: EGL v: 1.5 drivers: nvidia,swrast platforms: surfaceless,device
  API: OpenGL v: 4.6.0 compat-v: 4.5 vendor: mesa v: 24.0.9-0ubuntu0.1
    note: console (EGL sourced) renderer: NVIDIA GeForce GT 1030/PCIe/SSE2, llvmpipe (LLVM** 17.0.6**
    256 bits)
CPU: 6-core AMD Ryzen 5 1600 (-MT MCP-) speed/min/max: 1990/1550/3400 MHz
Kernel: 6.8.0-38-generic x86_64 Up: 1h 0m Mem: 1.43/31.25 GiB (4.6%) Storage: 1.36 TiB (5.4% used)
Procs: 273 Shell: Bash inxi: 3.3.34

**Windows 10 计算机具有额外的 32 GB RAM,总共 64 GB,但它是相同的 RAM、同一制造商、同一速度、同一类型

Memory:
  System RAM: total: 32 GiB available: 31.25 GiB used: 1.47 GiB (4.7%)
  Array-1: capacity: 128 GiB slots: 4 modules: 2 EC: None
  Device-1: DIMM_A1 type: no module installed
  Device-2: DIMM_A2 type: DDR4 size: 16 GiB speed: 3200 MT/s
  Device-3: DIMM_B1 type: no module installed
  Device-4: DIMM_B2 type: DDR4 size: 16 GiB speed: 3200 MT/s
Machine:
  Type: Desktop System: ASUS product: N/A v: N/A serial: 
  Mobo: ASUSTeK model: TUF GAMING B450M-PRO S v: Rev X.0x serial: 
    UEFI: American Megatrends v: 2202 date: 07/14/2020
Static hostname: AI
       Icon name: computer-desktop
         Chassis: desktop 🖥️
      Machine ID: f############################fu
         Boot ID: f############################fu
Operating System: Linux Mint 22
          Kernel: Linux 6.8.0-38-generic
    Architecture: x86-64
 Hardware Vendor: ASUS
  Hardware Model: TUF GAMING B450M-PRO S
Firmware Version: 2202
   Firmware Date: Tue 2020-07-14
    Firmware Age: 4y 1month 1w 6d

有谁知道某处是否有一个配置文件来控制操作系统如何运行。分配内存,以便我可以禁用或修改该“功能”?

链接到我遵循的步骤:https://askubuntu.com/questions/1279809/prevent-usr-lib-xorg-xorg-from-using-gpu-memory-in-ubuntu-20-04-server

在执行上面概述的步骤之前,我尝试关闭所有应用程序并执行 ctrl alt f2 exit 到命令行,希望能够释放一些内存,但也失败了。

-我还想指出,我可以确认 Win 10 电脑将所有可用的 GPU 和 GPU 内存专用于我尝试在 Linux Mint 机器上运行的同一进程。此过程是 python 脚本加载也在两台机器上的 16 GB 模型

pytorch gpu out-of-memory linux-mint xorg
1个回答
0
投票

我决定结束这个问题。答案是,不要使用 Linux Mint 来设置 LLM。这将是一次令人沮丧的经历。现在,我将在该盒子上安装一个 ubuntu 服务器。感谢那些试图帮助提出将此问题放在另一个论坛上的建议的人。

© www.soinside.com 2019 - 2024. All rights reserved.