MRC
Machine Reading Comprehension. Il task di comprendere un contesto dato e inferire risposte a query/domande.
L’obiettivo finale e rispondere a coppie QA che non esistono nel dataset MRC di training, utilizzando dati esterni.
Extractive Answer Datasets
La risposta a una domanda esiste sempre come segmento (o span) all’interno del contesto dato.
Cloze Tests
es., CNN/Daily Mail, CBT
Anche se segue il formato Question-Answering, le domande non sono nella forma completa che si desidera per MRC.
Span Extraction
es., SQuAD, KorQuAD, NewsQA, Natural Questions

Descriptive Narrative Answer Datasets
Invece di estrarre una risposta come span nel contesto, la risposta e determinata come frase generata (o free-form) basata sulla domanda.
es., MS MARCO, Narrative QA

Multiple-choice Datasets
Un task dove la risposta a una domanda viene selezionata tra i candidati. Si dice che non sia ideale per costruire modelli MRC QA. es., MCTest (ritenuto il primo dataset MRC pubblico, rilasciato nel 2013), RACE, ARC
Sfide nella MRC
Paraphrased paragraph
P1 e P2 sono frasi con lo stesso significato. Sono frasi parafrasate.
P1 contiene parole chiave della domanda come ‘selected’ e ‘mission’, e la struttura della frase e semplice. Quindi se il modello riesce a trovare P1 nel contesto, dovrebbe essere facile rispondere alla domanda.
Ma P2 non contiene affatto le parole della domanda, e la struttura della frase e piu difficile.
Un modello MRC deve essere in grado di trovare risposte sia in P1 che in P2.
Coreference resolution
La coreference si riferisce a entita che si riferiscono reciprocamente alla stessa cosa. La coreference resolution e il riconoscimento di queste entita come la stessa entita.
ref: Blog
Domande senza risposta
Ci sono chiaramente casi in cui la risposta non puo essere determinata solo dal contesto. Ma un modello immaturo potrebbe forzare una risposta comunque.
Quindi per le domande senza risposta, il modello dovrebbe rispondere che non puo fornire una risposta.
Multi-hop reasoning
Un task dove bisogna trovare fatti di supporto da piu documenti per rispondere alla domanda.
es., HotpotQA, QAngaroo

Metodi di valutazione
Exact Match, F1 score
Metodi di valutazione usati quando la risposta esiste nel passaggio (extractive answer) e per dataset a scelta multipla.
- Exact Match (EM) o Accuracy
- Il rapporto di predizioni che corrispondono esattamente alla ground truth
- (Numero di campioni corretti) / (Numero totale di campioni)
- F1 score
- Calcola il punteggio F1 basato sulla sovrapposizione di token tra risposta predetta e ground truth
ROUGE-L, BLEU
Metodi di valutazione per risposte descrittive.
- ROUGE-L Score
- Recall di sovrapposizione tra predizione e ground truth
- BLEU
- Precision tra risposta predetta e ground truth