Skip to main content
Overview

pandas

August 19, 2021
1 min read

Ogni volta che uso pandas mi viene il nervoso, e dimentico l’utilizzo appena l’ho imparato. Scrivo tutto per non dimenticare.

Pandas

Una libreria per gestire dati tabulari. Si dice che prenda molto dal sistema di R. Le prestazioni sono migliorate dopo l’integrazione con numpy.

DataFrame

  • Un oggetto che contiene l’intera tabella dati. Pensatelo come un wrapper per tutti i dati.
  • Le Series all’interno di un DataFrame possono avere tipi di dato diversi.

Series

ojb = Series(data=data, index=index)
ojb.index # -> index list
ojb.values # -> only list of values
  • Un oggetto corrispondente a una singola colonna di un DataFrame.
  • Un wrapper attorno a numpy, ma diverso nell’indicizzazione.
    • A differenza di numpy, che indicizza solo per numeri, si puo indicizzare anche per stringhe.
  • Passando una lista a data, l’indicizzazione avviene automaticamente con numeri.
  • Passando un dict a data, l’indicizzazione segue automaticamente la struttura del dict.
  • Il parametro index ha la priorita massima per l’indicizzazione.

read_csv()

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

pd.read_csv(data, sep='\s+\', header=None)
  • data: funziona sia con file system che URL web
  • separator: specifica il separatore
    • s: singolo spazio
    • +: multipli Credo di aver usato piu o meno solo questo. Cercare nella documentazione al bisogno.

head(n)

Carica solo i primi n dati.

columns

Formato lista; si possono impostare i nomi delle colonne.

df_data.columns = ['a', 'b']

values

Restituisce i dati pandas in formato numpy.

iloc, loc

loc permette l’accesso per nome di colonna. iloc permette l’accesso ai dati come numpy. Preferisco iloc.

Loading comments...