Skip to main content
Overview

Unicode, Tokenizzazione

October 12, 2021
1 min read

Unicode

Es., U+AC00

  • ‘U+’: prefisso che indica Unicode
  • ‘AC00’: code point esadecimale

Python

  • ord: da carattere a code point Unicode

  • chr: da code point Unicode a carattere

  • Hangul precomposti (sillabe complete): 11.172 caratteri

    • len restituisce 2
  • Jamo combinati (coreano decomposto)

    • len restituisce 1

Tokenizzazione

C’è un consenso crescente sul fatto che le regole di tokenizzazione definite manualmente hanno i loro limiti. La tendenza recente è l’approccio basato sui dati.

  • Subword
    • Le combinazioni di caratteri frequenti vengono trattate come unità singole.
    • Le combinazioni infrequenti vengono divise in subword.
  • BPE (Byte-Pair Encoding)
    • Sostituisce il bigram (o byte pair) a livello di carattere più frequente con un nuovo carattere.
Loading comments...