Memoria GPU baja
Si su GPU tiene poca memoria y no puede cargar el modelo, puede probar los siguientes métodos.
Cargar el modelo en modo de 8 bits
Agregue --load-in-8bit
a los parámetros de inicio.
python server.py --load-in-8bit
Esto reducirá el uso de memoria a la mitad, y la calidad no se reducirá significativamente. Sin embargo, solo las GPU más nuevas admiten el modo de 8 bits.
Divida el modelo en varias GPU y CPU
python server.py --auto-devices
Si puede cargar el modelo con este comando, pero se queda sin memoria cuando intenta generar texto, intente limitar la cantidad de memoria asignada a la GPU hasta que el error ya no ocurra:
python server.py --auto-devices --gpu-memory 10
python server.py --auto-devices --gpu-memory 9
python server.py --auto-devices --gpu-memory 8
...
Donde el número está en unidades de GiB.
Para un mejor control, también puede especificar la unidad en MiB:
python server.py --auto-devices --gpu-memory 8722MiB
python server.py --auto-devices --gpu-memory 4725MiB
python server.py --auto-devices --gpu-memory 3500MiB
...
Además, puede establecer el valor --no-cache
para reducir el uso de la GPU mientras se genera texto a costa de una mayor sobrecarga de rendimiento. Esto puede permitirle establecer un valor más alto para --gpu-memory
y obtener una ganancia neta de rendimiento.
Almacenar en caché algunas capas del modelo en disco
Como último recurso, puede dividir el modelo en GPU, CPU y disco:
python server.py --auto-devices --disk