Preprocessing NLP

Stopword

ref: https://bkshin.tistory.com/entry/NLP-3-%EB%B6%88%EC%9A%A9%EC%96%B4Stop-word-%EC%A0%9C%EA%B1%B0 Parole che non hanno grande significato analitico. Articoli come a, an, the e pronomi come I, my rientrano in questa categoria.

1
import nltk
2
nltk.download('stopwords')
3
print('Number of English stopwords:',len(nltk.corpus.stopwords.words('english')))

Le parole hanno radici e affissi.

La lemmatization e il processo di estrazione della radice.

La rimozione della punteggiatura e la normalizzazione testuale piu comune.

Rimuovere con regex
- text = re.sub(r”[^a-zA-Z0-9]”, ” ”, text)
- Sostituisce tutto tranne lettere e numeri con spazi.
- Di solito si sostituisce con spazi per preservare al massimo la struttura della frase.
Il token is_punct di spaCy indica se un token e punteggiatura.
Si possono usare anche le funzioni built-in di Python.
- Usare la lista di punteggiatura string.punctuation.