Unicode, Tokenizzazione

Unicode

Es., U+AC00

‘U+’: prefisso che indica Unicode
‘AC00’: code point esadecimale

Python

ord: da carattere a code point Unicode
chr: da code point Unicode a carattere
Hangul precomposti (sillabe complete): 11.172 caratteri
- len restituisce 2
Jamo combinati (coreano decomposto)
- len restituisce 1

Tokenizzazione

C’è un consenso crescente sul fatto che le regole di tokenizzazione definite manualmente hanno i loro limiti. La tendenza recente è l’approccio basato sui dati.

Subword
- Le combinazioni di caratteri frequenti vengono trattate come unità singole.
- Le combinazioni infrequenti vengono divise in subword.
BPE (Byte-Pair Encoding)
- Sostituisce il bigram (o byte pair) a livello di carattere più frequente con un nuovo carattere.