Analisi delle dipendenze (Dependency Parsing)

- Testa (Head): il centro semantico
- Dipendente: complementa (modifica) il significato della testa
- Studiato principalmente in lingue come il coreano dove l’ordine delle parole è flessibile e l’omissione è comune
Regole
- Le teste sono posposizionali
- La testa appare sempre dopo il dipendente
- Ogni dipendente ha esattamente una testa, e viceversa.
- Non ci sono strutture di dipendenza incrociate.
- L’annidamento è permesso però. Se A è testa di una parola, può simultaneamente essere dipendente di un’altra.
Metodo di classificazione
Classificazione tramite sequence labeling.
Applicazioni
- Le forme complesse del linguaggio naturale possono essere strutturate come grafi.
- Si possono estrarre informazioni su ciascuna entità.
Task di classificazione di frasi singole
Determina a quale classe appartiene una frase data.
- Analisi del sentimento (Sentiment Analysis)
- Classificare una frase come positiva/negativa/neutra, ecc.
- Classificazione dei discorsi d’odio
- Monitoraggio aziendale
- Etichettatura per argomento (Topic Labeling)
- Classificare frasi in categorie
- Classificazione di documenti su larga scala
- VoC (Voice of Customer): classificare i feedback dei clienti
- Rilevamento della lingua (Language Detection)
- Identificare in quale lingua è una frase
- Traduzione
- Filtraggio dei dati
- Classificazione dell’intento (Intent Classification)
- Classificare l’intento di una frase
- Chatbot: comprendere l’intento per generare risposte appropriate
Dataset per la classificazione di frasi coreane
- Kor_hate
- Dati sui discorsi d’odio
- Espressioni di bias, non solo insulti
- Kor_sarcasm
- Dati sulle espressioni sarcastiche
- Kor_sae
- Dati sui tipi di domanda
- Es.,
- Domande sì/no
- Domande su scelte alternative
- Divieti, richieste, comandi
- Kor_3i4k
- Dati relativi all’intento
Architettura del modello di classificazione frasi

Basato su BERT, con un classifier attaccato al CLS token per la classificazione delle frasi.
I parametri utilizzati sono i valori di configurazione standard di BERT:
- input_ids: token della sequenza in input
- attention_mask: maschera di [0,1] per distinguere i token di padding
- token_type_ids: [0,1] per distinguere la prima e la seconda frase
- position_ids: indici di embedding per ogni posizione della sequenza di input
- inputs_embeds: assegnare direttamente le rappresentazioni di embedding invece di input_ids
- labels: label per il calcolo della loss
- Next_sentence_label: label per la loss di predizione della frase successiva
Processo di training
- Preparare il dataset
- Preprocessare e tokenizzare il dataset
- Progettare il dataloader
- Preparare i dataset di train e test
- Configurare i TrainingArguments
- Importare il modello pretrained
- Configurare il Trainer
- Trainare il modello
- Implementare predizione e valutazione