Skip to Main Content

Geringer GPU-Speicher

Wenn Ihre GPU einen kleinen Speicher hat und das Modell nicht laden kann, können Sie die folgenden Methoden ausprobieren.

Laden Sie das Modell im 8-Bit-Modus

Fügen Sie --load-in-8bit zu den Startparametern hinzu.

python server.py --load-in-8bit

Dies reduziert den Speicherverbrauch um die Hälfte, und die Qualität wird nicht signifikant reduziert. Allerdings unterstützen nur neuere GPUs den 8-Bit-Modus.

Teilen Sie das Modell auf mehrere GPUs und CPUs auf

python server.py --auto-devices

Wenn Sie das Modell mit diesem Befehl laden können, aber der Speicher ausgeht, wenn Sie versuchen, Text zu generieren, versuchen Sie, die Menge des dem GPU zugewiesenen Speichers zu begrenzen, bis der Fehler nicht mehr auftritt:

python server.py --auto-devices --gpu-memory 10
python server.py --auto-devices --gpu-memory 9
python server.py --auto-devices --gpu-memory 8
...

Wobei die Zahl in GiB-Einheiten angegeben ist.

Für eine bessere Kontrolle können Sie die Einheit auch in MiB angeben:

python server.py --auto-devices --gpu-memory 8722MiB
python server.py --auto-devices --gpu-memory 4725MiB
python server.py --auto-devices --gpu-memory 3500MiB
...

Darüber hinaus können Sie den Wert --no-cache setzen, um die GPU-Nutzung beim Generieren von Text zu reduzieren, allerdings auf Kosten einer erhöhten Leistungsüberlastung. Dies kann es Ihnen ermöglichen, einen höheren Wert für --gpu-memory zu setzen und eine netto Leistungssteigerung zu erzielen.

Zwischenspeichern Sie einige Schichten des Modells auf der Festplatte

Als letztes Mittel können Sie das Modell auf GPUs, CPUs und Festplatten aufteilen:

python server.py --auto-devices --disk