Modello

Un task che classifica ogni token di una frase data in categorie. Un classifier viene attaccato a ogni token.
NER
Named Entity Recognition. Il processo di riconoscimento di parole, frasi o entità con un significato specifico — come nomi di persone e organizzazioni — dai documenti attraverso il contesto.
La stessa parola può essere riconosciuta come entità diverse, quindi capire il contesto è importante.
https://github.com/kakaobrain/pororo
Una libreria per task NLP e relativi al parlato sviluppata da Kakao. Gestisce la maggior parte dei task elaborabili in coreano, incluso il NER.
POS Tagging
Part-of-speech tagging.
- Suddivisione dei documenti in parti del discorso e morfemi.
Dati coreani
- kor_ner
- Un dataset NER pubblicato dalla Korea Maritime University.
- I dataset NER tipicamente includono informazioni di POS tagging, e kor_ner le include.
- Etichettato con tag BIO wikidocs

Training

Come detto sopra, un classifier viene attaccato a ogni token per il training.

Si raccomanda il tokenizing a livello di carattere per la classificazione dei token di frase. Quando si tokenizza per morfemi o unità di parola, la definizione di un’entità può diventare ambigua. Ad esempio, dividere un nome coreano come “Lee Sun-shin” ai confini dei morfemi potrebbe spezzarlo in frammenti che sono quasi impossibili da classificare come nome di persona, indipendentemente dal training.