Da completare…
Grad Cache
Panoramica
Un metodo che, nel contrastive learning con in-batch negative, permette di usare batch grandi in modo simile alla gradient accumulation.
Nei metodi di addestramento normali, la loss non viene calcolata batch-wise, quindi non ci sono problemi ad accumulare gli aggiornamenti della loss. Tuttavia, nei modelli come DPR e MRC che usano in-batch negative per il contrastive learning, la loss viene calcolata batch-wise, creando dipendenze tra i dati all’interno del batch. Quindi nel contrastive learning la gradient accumulation non è utilizzabile.
Grad Cache implementa un metodo simile alla gradient accumulation per il contrastive learning, permettendo di ottenere batch size grandi anche con una singola GPU.

In Text and Code Embeddings by Contrastive Pre-Training il batch size arriva fino a 12288. È un territorio quasi impossibile da raggiungere a livello hardware, quindi per ottenere batch size grandi nel contrastive learning si usa Grad Cache.