pandas

Ogni volta che uso pandas mi viene il nervoso, e dimentico l’utilizzo appena l’ho imparato. Scrivo tutto per non dimenticare.

Pandas

Una libreria per gestire dati tabulari. Si dice che prenda molto dal sistema di R. Le prestazioni sono migliorate dopo l’integrazione con numpy.

Un oggetto che contiene l’intera tabella dati. Pensatelo come un wrapper per tutti i dati.
Le Series all’interno di un DataFrame possono avere tipi di dato diversi.

1
ojb = Series(data=data, index=index)
2
ojb.index # -> index list
3
ojb.values # -> only list of values

Un oggetto corrispondente a una singola colonna di un DataFrame.
Un wrapper attorno a numpy, ma diverso nell’indicizzazione.
- A differenza di numpy, che indicizza solo per numeri, si puo indicizzare anche per stringhe.
Passando una lista a data, l’indicizzazione avviene automaticamente con numeri.
Passando un dict a data, l’indicizzazione segue automaticamente la struttura del dict.
Il parametro index ha la priorita massima per l’indicizzazione.

1
pd.read_csv(data, sep='\s+\', header=None)

data: funziona sia con file system che URL web
separator: specifica il separatore
- s: singolo spazio
- +: multipli Credo di aver usato piu o meno solo questo. Cercare nella documentazione al bisogno.

Carica solo i primi n dati.

Formato lista; si possono impostare i nomi delle colonne.

1
df_data.columns = ['a', 'b']

Restituisce i dati pandas in formato numpy.

loc permette l’accesso per nome di colonna. iloc permette l’accesso ai dati come numpy. Preferisco iloc.