我遵循了所有其他成功尝试的所有说明,以防止我的 GPU 内存被操作系统保留。特别是 xorg,如下面的链接所述。我已经注释掉了 10-nvidia.conf 我做了 systemctl restart display-manager 进入空白屏幕然后我远程登录希望内存是空闲的,正如你所看到的,没有任何东西在运行,并且只有 1 mb 的内存被使用。但我仍然遇到同样的错误。我正在我的 Windows 机器上运行 meta-llama 3.1 8B Instruct 模型,我希望通过迁移到 Linux 环境它会更快。它加载检查点碎片的速度比我能说的更快,“什么”,但随后它因内存不足错误而崩溃:
torch.OutOfMemoryError:CUDA 内存不足。尝试分配 112.00 MiB。 GPU 0 总容量为 1.95 GiB,其中 5.69 MiB 可用。
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.183.01 Driver Version: 535.183.01 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA GeForce GT 1030 Off | 00000000:06:00.0 On | N/A |
| 28% 33C P0 N/A / 30W | 1MiB / 2048MiB | 0% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| No running processes found |
+---------------------------------------------------------------------------------------+
我在具有所有相同硬件的 Windows 10 电脑上运行相同的卡,并且 Windows 操作系统也相同。仅使用不到 1% 的内存,并且不使用 GPU。这是我的 Linux Mint 机器的硬件信息:
****Graphics:
Device-1: NVIDIA GP108 [GeForce GT 1030] driver: nvidia v: 535.183.01
Display: server: X.org v: 1.21.1.11 with: Xwayland v: 23.2.6 driver:
gpu: nvidia,nvidia-nvswitch tty: 190x41 resolution: 1: 3840x2160
API: EGL v: 1.5 drivers: nvidia,swrast platforms: surfaceless,device
API: OpenGL v: 4.6.0 compat-v: 4.5 vendor: mesa v: 24.0.9-0ubuntu0.1
note: console (EGL sourced) renderer: NVIDIA GeForce GT 1030/PCIe/SSE2, llvmpipe (LLVM** 17.0.6**
256 bits)
CPU: 6-core AMD Ryzen 5 1600 (-MT MCP-) speed/min/max: 1990/1550/3400 MHz
Kernel: 6.8.0-38-generic x86_64 Up: 1h 0m Mem: 1.43/31.25 GiB (4.6%) Storage: 1.36 TiB (5.4% used)
Procs: 273 Shell: Bash inxi: 3.3.34
**Windows 10 计算机具有额外的 32 GB RAM,总共 64 GB,但它是相同的 RAM、同一制造商、同一速度、同一类型
Memory:
System RAM: total: 32 GiB available: 31.25 GiB used: 1.47 GiB (4.7%)
Array-1: capacity: 128 GiB slots: 4 modules: 2 EC: None
Device-1: DIMM_A1 type: no module installed
Device-2: DIMM_A2 type: DDR4 size: 16 GiB speed: 3200 MT/s
Device-3: DIMM_B1 type: no module installed
Device-4: DIMM_B2 type: DDR4 size: 16 GiB speed: 3200 MT/s
Machine:
Type: Desktop System: ASUS product: N/A v: N/A serial:
Mobo: ASUSTeK model: TUF GAMING B450M-PRO S v: Rev X.0x serial:
UEFI: American Megatrends v: 2202 date: 07/14/2020
Static hostname: AI
Icon name: computer-desktop
Chassis: desktop 🖥️
Machine ID: f############################fu
Boot ID: f############################fu
Operating System: Linux Mint 22
Kernel: Linux 6.8.0-38-generic
Architecture: x86-64
Hardware Vendor: ASUS
Hardware Model: TUF GAMING B450M-PRO S
Firmware Version: 2202
Firmware Date: Tue 2020-07-14
Firmware Age: 4y 1month 1w 6d
有谁知道某处是否有一个配置文件来控制操作系统如何运行。分配内存,以便我可以禁用或修改该“功能”?
在执行上面概述的步骤之前,我尝试关闭所有应用程序并执行 ctrl alt f2 exit 到命令行,希望能够释放一些内存,但也失败了。
-我还想指出,我可以确认 Win 10 电脑将所有可用的 GPU 和 GPU 内存专用于我尝试在 Linux Mint 机器上运行的同一进程。此过程是 python 脚本加载也在两台机器上的 16 GB 模型
我决定结束这个问题。答案是,不要使用 Linux Mint 来设置 LLM。这将是一次令人沮丧的经历。现在,我将在该盒子上安装一个 ubuntu 服务器。感谢那些试图帮助提出将此问题放在另一个论坛上的建议的人。