Troubleshooting

GPUtil

Simile a nvidia-smi.
Stampa continuamente le statistiche di GPU e memoria nella console.

1
!pip install GPUtil
2
import GPUtil
3
GPUtil.showUtilization()

Accumulo di tensor

La maggior parte delle variabili tensor usa memoria GPU.

Se queste variabili si accumulano in un loop, la memoria GPU si esaurisce velocemente.

Es.,

1
total_loss = 0
2
for i in range(10):
3
  optim.zero_grad()
4
    output = model(input)
5
    loss = criterion(output)
6
    loss.backward()
7
    optim.step()
8
    total_loss += loss ## qui!!!

Per i tensor che si accumulano, vengono usati una sola volta o sono semplici, conviene convertirli in oggetti nativi Python quando possibile.

Out of Memory (OOM)

Provare prima con batch size = 1 e sperimentare monitorando la memoria.

torch.no_grad()

Usarlo sempre durante l’inference. Ovviamente, senza di esso, i calcoli del backward pass si accumulano come durante il training.

Dimensione del modello

Per esempio, le LSTM consumano parecchia memoria, quindi bisogna considerare anche la dimensione del modello stesso.

Dtype dei tensor

La precisione in virgola mobile può essere impostata a 16-bit.