Processo di addestramento

Gradient Accumulation

Una tecnica utile quando le risorse GPU sono limitate.

1
num_accum = 2
2
optimizer.zero_grad()
3
for epoch in range(10):
4
    running_loss = 0.0
5
    for i, data in enumerate(train_loader, 0):
6
        inputs, labels = data
7
        outputs = net(inputs)
8

9
        loss = criterion(outputs, labels) / num_accum
10
        loss.backward()
11

12
        if i % num_accum == 0:
13
            optimizer.step()
14
            optimizer.zero_grad()

I parametri del modello vengono aggiornati solo dopo num_accum iterazioni.
L’output del criterio viene diviso per num_accum per la normalizzazione.
- La mia ipotesi: dato che la loss accumulata su num_accum step viene applicata in un singolo step, dividere per num_accum dà a ogni singola loss un peso uguale, producendo un effetto di normalizzazione.