Geringer GPU-Speicher
Wenn Ihre GPU einen kleinen Speicher hat und das Modell nicht laden kann, können Sie die folgenden Methoden ausprobieren.
Laden Sie das Modell im 8-Bit-Modus
Fügen Sie --load-in-8bit
zu den Startparametern hinzu.
python server.py --load-in-8bit
Dies reduziert den Speicherverbrauch um die Hälfte, und die Qualität wird nicht signifikant reduziert. Allerdings unterstützen nur neuere GPUs den 8-Bit-Modus.
Teilen Sie das Modell auf mehrere GPUs und CPUs auf
python server.py --auto-devices
Wenn Sie das Modell mit diesem Befehl laden können, aber der Speicher ausgeht, wenn Sie versuchen, Text zu generieren, versuchen Sie, die Menge des dem GPU zugewiesenen Speichers zu begrenzen, bis der Fehler nicht mehr auftritt:
python server.py --auto-devices --gpu-memory 10
python server.py --auto-devices --gpu-memory 9
python server.py --auto-devices --gpu-memory 8
...
Wobei die Zahl in GiB-Einheiten angegeben ist.
Für eine bessere Kontrolle können Sie die Einheit auch in MiB angeben:
python server.py --auto-devices --gpu-memory 8722MiB
python server.py --auto-devices --gpu-memory 4725MiB
python server.py --auto-devices --gpu-memory 3500MiB
...
Darüber hinaus können Sie den Wert --no-cache
setzen, um die GPU-Nutzung beim Generieren von Text zu reduzieren, allerdings auf Kosten einer erhöhten Leistungsüberlastung. Dies kann es Ihnen ermöglichen, einen höheren Wert für --gpu-memory
zu setzen und eine netto Leistungssteigerung zu erzielen.
Zwischenspeichern Sie einige Schichten des Modells auf der Festplatte
Als letztes Mittel können Sie das Modell auf GPUs, CPUs und Festplatten aufteilen:
python server.py --auto-devices --disk