Metodi di training che confondono

Ho organizzato cose su cui ero confuso o che capivo solo vagamente.

Ordine di training e validation

1
def train():
2
    for epoch in range(epcoh):
3
      training()
4
        validate()

Questo ordine è corretto. La versione sotto allena comunque il modello sui dati di input:

1
def train():
2
    for epoch in range(epcohs):
3
      training()
4
    for epoch in range(epcohs):
5
        validate()

Il problema è che la validation avviene solo dopo che tutto il training è completato. Si valida ripetutamente il modello finale già allenato per ogni epoch. Uno spreco di risorse.

Con l’ordine corretto, si può validare il risultato dell’apprendimento di ogni step e rifletterlo nella valutazione.

K fold cross validation

Come dice il nome, è una tecnica di validation. Quindi non andrebbe usata per il training in questo modo:

1
def train():
2
    for epoch in range(epcohs):
3
      training()
4
    for epoch in range(epcohs):
5
        validate()
6
def kfoldvalidate()
7
    # do something...
8

9
train()
10
kfoldvalidatie()

Penso che potrebbe essere usata nel training, ma in tal caso probabilmente sarebbe qualcosa del genere con l’ensemble learning (pura speculazione…):

1
def train():
2
    model_list = MakeManyModel()
3
    for idx, train_set, validate_set in enumerate(kfold(dataset)):
4
      for epoch in range(epcohs):
5
          training(mode_list[idx])
6
      for epoch in range(epcohs):
7
          validate(model_list[idx])
8
    return model_list
9
def kfoldvalidate(model_list)
10
    SelectBestModel(model_list)
11

12
train()
13
for i in range(k):
14
     kfoldvalidatie()

Un modello per ogni fold, e si seleziona il migliore tra i k modelli. Si potrebbe anche usare il voting come nell’ensemble learning vero e proprio invece di scegliere il singolo modello migliore. Non l’ho provato perché consumerebbe troppe risorse..