- BERT: un modello di embedding
- Usa il Transformer encoder
- GPT: un modello generativo
- Usa il Transformer decoder
Panoramica di GPT

Il processo di generazione del linguaggio è lo stesso che si studia normalmente per i language model. Predice sequenzialmente le parole successive più probabili in modo probabilistico.

GPT-1 era progettato per poter attaccare un classifier alla fine (come BERT) e fare fine-tuning per task specifici. Cronologicamente, GPT-1 è precedente a BERT.
GPT-1:
- Un decoder molto utile per la classificazione di frasi in linguaggio naturale.
- Prestazioni di classificazione elevate anche con pochi dati.
- Ha raggiunto la SOTA su vari task NLP immediatamente.
- Ha aperto la strada ai language model pre-trained e ha gettato le basi per BERT.
- Richiedeva apprendimento supervisionato, quindi servivano molti dati etichettati.
- Un modello fine-tunato per un task specifico non poteva essere usato per altri task.
La nuova ipotesi dei ricercatori GPT:
Per la natura del linguaggio, la funzione obiettivo dell’apprendimento supervisionato è la stessa di quello non supervisionato. In altre parole, il fine-tuning non è necessario.
Questo perché le label nei dati etichettati sono anch’esse linguaggio.
Detto altrimenti: un language model addestrato su un dataset sufficientemente grande può eseguire tutti i task NLP.
Zero-shot, one-shot, few-shot

Il fine-tuning per creare un modello dedicato a un solo task è stato ritenuto non necessario. Come gli esseri umani non hanno bisogno di molti dati per imparare un nuovo task, lo stesso approccio è stato applicato ai language model — inference tramite zero, one o few-shot.
Cioè, eseguire task senza alcun gradient update. Per rendere questo possibile, è stato sviluppato un modello addestrato su dataset enormi — GPT-2.
GPT-2
 Modifiche minori all’architettura del decoder rispetto a GPT-1.
I dati di training sono cresciuti da 11GB a 40GB.

- Nei task NLP come MRC, summarization e translation, le prestazioni erano al livello dei modelli neurali tipici.
- SOTA nella predizione della parola successiva.
- Ha aperto nuovi orizzonti per lo zero, one e few-shot learning.
GPT-3

- Dati di training: 570GB raffinati da 45TB.
- I parametri sono aumentati da 1.500M a 175.000M.

- Inizializzazione modificata.
- Usato Sparse Transformer.
Task di GPT-3
- Scrittura di articoli
- Il 52% degli articoli di GPT-3 sono stati giudicati dai valutatori come scritti da un essere umano.
- Aritmetica
- L’addizione di numeri a 2-3 cifre eseguita quasi perfettamente.
- Nelle QA ha superato alcuni modelli esistenti.
- Parsing dei dati
- Ha automaticamente estratto dati da documenti organizzandoli in tabelle.
Limitazioni
Anche GPT è un modello pre-trained tramite NSP (Next Sentence Prediction).
- Nessun weight update.
- Non può apprendere nuove conoscenze.
- Aumentare solo la dimensione del modello è la soluzione?
- Nessuno lo sa, ma probabilmente no.
- Non può usare informazioni multi-modali.