Skip to Main Content

Memoria GPU baja

Si su GPU tiene poca memoria y no puede cargar el modelo, puede probar los siguientes métodos.

Cargar el modelo en modo de 8 bits

Agregue --load-in-8bit a los parámetros de inicio.

python server.py --load-in-8bit

Esto reducirá el uso de memoria a la mitad, y la calidad no se reducirá significativamente. Sin embargo, solo las GPU más nuevas admiten el modo de 8 bits.

Divida el modelo en varias GPU y CPU

python server.py --auto-devices

Si puede cargar el modelo con este comando, pero se queda sin memoria cuando intenta generar texto, intente limitar la cantidad de memoria asignada a la GPU hasta que el error ya no ocurra:

python server.py --auto-devices --gpu-memory 10
python server.py --auto-devices --gpu-memory 9
python server.py --auto-devices --gpu-memory 8
...

Donde el número está en unidades de GiB.

Para un mejor control, también puede especificar la unidad en MiB:

python server.py --auto-devices --gpu-memory 8722MiB
python server.py --auto-devices --gpu-memory 4725MiB
python server.py --auto-devices --gpu-memory 3500MiB
...

Además, puede establecer el valor --no-cache para reducir el uso de la GPU mientras se genera texto a costa de una mayor sobrecarga de rendimiento. Esto puede permitirle establecer un valor más alto para --gpu-memory y obtener una ganancia neta de rendimiento.

Almacenar en caché algunas capas del modelo en disco

Como último recurso, puede dividir el modelo en GPU, CPU y disco:

python server.py --auto-devices --disk