Se si vuole trainare su un server personale invece di usare i notebook Kaggle, bisogna scaricare tutti i dataset Kaggle sul server. Se si usano solo i file train/test forniti dalla competition, l’API Kaggle non è strettamente necessaria.
Ma se si vogliono eseguire i vari codici condivisi nella discussion, servono molti dataset da scaricare. È noioso e richiede tempo. Ho scritto uno script shell usando l’API Kaggle per scaricare tutto in batch, e ha semplificato molto le cose.
kaggle datasets download -d kishalmandal/extra-datakaggle competitions download -c chaii-hindi-and-tamil-question-answeringkaggle datasets download -d kishalmandal/cleaned-data-for-chaiikaggle datasets download -d kishalmandal/inputkaggle datasets download -d msafi04/squad-translated-to-tamil-for-chaii
files=("extra-data" "cleaned-data-for-chaii" "input" "squad-translated-to-tamil-for-chaii" "chaii-hindi-and-tamil-question-answering")for i in "${files[@]}"; do unzip $i".zip" -d "$i;done