E se il mio dataset non è sull’Hub?

Sai come usare l’Hub Hugging Face per scaricare i dataset, ma spessa dovrai lavorare con dati che si trovano sul tuo computer, o so un server remoto. In questa sezione vederemo come usare 🤗 Datasets per caricare dataset che non sono disponibile nell’Hub Hugging Face.

Lavorare con dataset locali e in remoto

🤗 Datasets mette a tua disposizione diversi script per caricare dataset in locale e in remoto. Sono supportati diversi formati di dati, tra cui:

Formato dati	Script	Esempio
CSV & TSV	`csv`	`load_dataset("csv", data_files="my_file.csv")`
File di testo	`text`	`load_dataset("text", data_files="my_file.txt")`
JSON & JSON Lines	`json`	`load_dataset("json", data_files="my_file.jsonl")`
DataFrame serializzati in Pickle	`pandas`	`load_dataset("pandas", data_files="my_dataframe.pkl")`

Come mostrato nella tabella, per ogni formato di dati abbiamo bisogno di specificare, all’interno della funzione load_dataset(), il tipo di script da utilizzare, assieme a data_files, che specifica il percorso verso uno o più file. Iniziamo a caricare un dataset proveniente da file locali; più tardi vederemo come fare la stessa cosa con file in remoto.

Caricare un dataset locale

Per questo esempio useremo il dataset SQuAD-it, un ampio dataset per il question answering in italiano

Le sezioni di addestramento e di test si trovano su GitHub, quindi possiamo scaricarle con un semplice comando wget:

!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-train.json.gz
!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-test.json.gz

Questo scaricherà due file compressi chiamati SQuAD_it-train.json.gz e SQuAD_it-test.json.gz, che possiamo decomprimere con il comandi Linux gzip:

!gzip -dkv SQuAD_it-*.json.gz

SQuAD_it-test.json.gz:	   87.4% -- replaced with SQuAD_it-test.json
SQuAD_it-train.json.gz:	   82.2% -- replaced with SQuAD_it-train.json

Vediamo che i dati compressi sono stati sostituiti da SQuAD_it-train.json e SQuAD_it-text.json, e che i dati sono archiviati in formato JSON.

✎ Se ti stai chiedendo perché c’è un ! nei comandi di shell precedenti, è perché li stiamo eseguendo da un notebook Jupyter. Se vuoi scaricare e decomprimere i dataset da un terminale, non devi fare altro che rimuovere il prefisso.

Per caricare un file JSON con la funzione load_dataset(), ci serve solo sapere se abbiamo a che fare con un normale JSON (simile a un dizionario annidato) o con un JSON Lines (JSON separato da righe). Come molti dataset per il question asnwring, SQuAD-it usa il formato annidato, con tutto il testo immagazzinato nel campo data. Questo significa che possiamo caricare il dataset specificando l’argomento field come segue:

from datasets import load_dataset

squad_it_dataset = load_dataset("json", data_files="SQuAD_it-train.json", field="data")

Di default, caricare file locali create un oggetto DatasetDict con una sezione train. Possiamo vederlo ispezionando l’oggetto squad_it_dataset:

squad_it_dataset

DatasetDict({
    train: Dataset({
        features: ['title', 'paragraphs'],
        num_rows: 442
    })
})

Questo ci mostra il numero di righe e i nomi delle colonne associate con il set di addestraento. Possiamo vedere uno degli esempi indicizzando la sezione train, come segue:

squad_it_dataset["train"][0]

{
    "title": "Terremoto del Sichuan del 2008",
    "paragraphs": [
        {
            "context": "Il terremoto del Sichuan del 2008 o il terremoto...",
            "qas": [
                {
                    "answers": [{"answer_start": 29, "text": "2008"}],
                    "id": "56cdca7862d2951400fa6826",
                    "question": "In quale anno si è verificato il terremoto nel Sichuan?",
                },
                ...
            ],
        },
        ...
    ],
}

Benissimo, abbiamo caricare il nostro primo dataset locale! Ma anche se questo ha funzionato per la sezione di addestramento, vogliamo includere entrambe le sezioni train e test in un unico oggetto DatasetDict così da poter applicare le funzioni Dataset.map() su entrambi i dataset simultaneamente. Per fare questo, possiamo dare un dizionaro all’argomento data_files, per mappare ogni sezione a un file associato con quella sezione:

data_files = {"train": "SQuAD_it-train.json", "test": "SQuAD_it-test.json"}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")
squad_it_dataset

DatasetDict({
    train: Dataset({
        features: ['title', 'paragraphs'],
        num_rows: 442
    })
    test: Dataset({
        features: ['title', 'paragraphs'],
        num_rows: 48
    })
})

Questo è proprio ciò che volevamo. Ora possiamo applicare diverse tecniche di preprocessamento per pulire i dati, tokenizzare le revisioni, e altro.

L’argomento data_files della funzione load_dataset() è molto flessibile, e può essere usato con un percorso file singolo, con una lista di percorsi file, o un dizionario che mappa i nomi delle sezioni ai percorsi file. È anche possibile usare comandi glob per recuperare tutti i file che soddisfano uno specifico pattern secondo le regole dello shell di Unix (ad esempio, è possibile recuperare tutti i file JSON presenti in una cartella usando il pattern data_files="*.json"). Consulta la documentazione 🤗 Datasets per maggiori informazioni.

Gli script presenti in 🤗 Datasets supportano la decompressione atuomatica dei file in input, quindi possiamo saltare l’uso di gzip puntando data_files direttamente ai file compressi:

data_files = {"train": "SQuAD_it-train.json.gz", "test": "SQuAD_it-test.json.gz"}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")

Questo può essere utile se non vuoi decomprimere manualmente molti file GZIP. La decompressione automatica si applica inoltre ad altri formati comuni, come ZIP e TAR, basta solo puntare data_files ai file compressi ed è fatta!

Ora che sai come caricare i file locali dal tuo computer, guardiamo come caricare i file remoti.

Caricare un dataset in remoto

Se lavori come data scientist o come programmatore per un’azienda, ci sono buone probabilità che i dataset da analizzare sono archiaviati su un qualche server in remoto. Per fortuna, caricare file remoti è semplice come caricare quelli locali! Invece di dare un percorso a file locali, puntiamo l’argomento data_files di load_dataset() a uno o più URL dove si trovano i file in remoto. Ad esempio, per il dataset SQuAD-it presente su GitHub, possiamo puntare data_files agli URL SQuAD_it-*.json.gz come segue:

url = "https://github.com/crux82/squad-it/raw/master/"
data_files = {
    "train": url + "SQuAD_it-train.json.gz",
    "test": url + "SQuAD_it-test.json.gz",
}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")

Questo codice restituisce lo stesso oggetto DatasetDict visto in precedenza, ma ci risparmia il passaggio manuale di scaricare e decomprimere i file SQuAD_it-*.json.gz. Questo conclude la nostra incursione nei diversi modi di caricare dataset che non sono presenti nell’Hub Hugging Face. Ora che abbiamo un dataset con cui giocare, sporchiamoci le mani con diverse tecniche di data-wrangling!

✏️ Prova tu! Scegli un altro dataset presente su GitHub o sulla Repository di Machine Learning UCI e cerca di caricare sia in locale che in remoto usando le tecniche introdotte in precedenza. Per punti extra, prova a caricare un dataset archiviato in formato CSV o testuale (vedi la documentazione per ulteriori informazioni su questi formati).

NLP Course

E se il mio dataset non è sull’Hub?

Lavorare con dataset locali e in remoto

Caricare un dataset locale

Caricare un dataset in remoto