Skip to main content
Overview

BLEU

September 10, 2021
2 min read

Se si calcolano precision o recall standard in Seq2Seq, la maggior parte delle metriche sarà vicina a 0. Confrontando step per step, la probabilità di mismatch è molto alta. Questo significa che anche frasi molto simili come quelle sotto potrebbero dare metriche quasi nulle.

Quindi è necessario riflettere questo contesto nelle metriche.

Precision, Recall

Precision

  • Indica quante corrected words ci sono nel risultato predetto.
  • Il numero di parole sovrapposte con il ground truth, basandosi sul risultato predetto.
  • Una metrica di quanto siano accurate le predizioni mostrate all’utente.
    • es., tra i risultati di ricerca mostrati all’utente, quanti erano effettivamente corretti.

Recall

  • Indica quante corrected words ci sono rispetto al ground truth.
  • Il numero di parole sovrapposte con la predizione, basandosi sul ground truth.
  • Tra i risultati che avrebbero dovuto essere trovati, quanti ne ha effettivamente trovati il motore di ricerca.
    • Tra i risultati non mostrati all’utente potrebbero esserci informazioni che l’utente voleva.
  • Si pensi al recall in StarCraft 1: delle unità che si volevano evocare, quante sono state effettivamente evocate?

F1 score

Per esprimere una statistica combinata di precision e recall, si calcola la media di entrambe le metriche. L’ordinamento delle diverse medie è:

Media aritmetica >= Media geometrica >= Media armonica

L’F1 score usa la media armonica, che si concentra sulla più piccola tra precision e recall. La mia impressione è che, come la notazione Big O che assume il caso peggiore, usare la media armonica porti a una metrica più accurata.


Nella traduzione automatica, calcolare l’F1 score nel modo convenzionale ignora la grammatica, l’ordine delle parole e vari altri fattori. Quindi serve una nuova metrica.

BLEU score

BiLingual Evaluation Understudy. Si pronuncia “blue”, a quanto pare.

  • Invece di calcolare la sovrapposizione per singole parole, si calcola la sovrapposizione N-gram.
    • Tipicamente da 1 a 4 gram.
  • Il termine successivo considera solo la precision, non il recall.
    • Perché nella traduzione automatica, quanto completamente la frase originale sia stata riprodotta non è la priorità.
    • Conta di più quanto la predizione si sovrapponga alla frase originale.
  • Si calcola la media geometrica della precision per i gram da 1 a 4.
    • Per concentrarsi sui valori più piccoli tra le metriche, come fa l’F1 score.
    • La media armonica non si usa perché dà troppo peso a metriche eccessivamente piccole.

Brevity penalty

Un termine per pesare risultati di traduzione troppo corti. Corrisponde al min() nella formula del BLEU.

Se il risultato predetto è più corto della frase originale, questo valore diventa minore di 1.

Questo compensa in parte il recall che il termine successivo non considera. Sopprime il massimo del recall a 1 quando potrebbe superarlo, e inoltre moltiplica per un fattore quando la frase predetta è più corta dell’originale.

Loading comments...