Data Prepping Con Alteryx: Come Rendere i Dati Accessibili 

 

 

Uno dei primi problemi in cui ci si imbatte nel lavorare con i dati è sicuramente la preparazione dei dataset, meglio nota come Data Prepping.

In questa si rimuovono record errati, corrotti, non formattati, duplicati o incompleti, in modo da renderli fruibili e facilmente utilizzabili.

Pur essendo il presupposto essenziale di qualunque modello predittivo-prescrittivo o analisi di business intelligence, la preparazione della base dato è l’operazione meno apprezzata da ogni data scientist o analista di dati. Eppure, con dati inesatti o illeggibili, nessun programma o linguaggio di programmazione potrebbe estrapolarvi informazioni utili. 

Alteryx ci aiuta nel poco entusiasmante compito di unire, modificare e rendere più accessibile uno o più fonti dato. Questo a prescindere dal formato del nostro data source. 

 

Alteryx e il “data prepping” 

Uno degli argomenti più spinosi per gli analisti dei dati è la preparazione dei dataset prima di preparare una dashboard (es. in Tableau). Infatti la maggior parte degli analisti si scoraggia all’idea di ripulire dataset con milioni (se non miliardi) di righe. Diciamocelo: la stessa  maintenance è piuttosto noiosa e ripetitiva, ed automatizzare il processo costituisce un grande vantaggio in termini di tempo ed accuracy.  

Alteryx in tal senso risulta estremamente utile e user-friendly. Si può usare con una conoscenza minima dei linguaggi di programmazione (non richiede uso di SQL o Postgres, né installazione di library esterne come in Python) ed è adattabile alle esigenze di ogni utente, dalla business intelligence al dipartimento finance, passando per HR e

Con pochi nodi e semplici funzioni è possibile trasformare, alterare, unire e replicare interi database, lavorando sia in-house che con warehouse e DB in cloud. 

 

La lettura di file .txt e la trascrizione in .csv 

Una delle caratteristiche di Alteryx che ho apprezzato di più è stata la rapidità di codifica e di trascrizione dei dataset. L’utilità del programma l’ho scoperta proprio durante il mio master. Infatti, proprio parlando con dei colleghi di corso, ci siamo accorti che un dataset per il nostro capstone project non era il solito .csv, ma il ben più ostico formato .txt. Questo perché il cliente lo aveva prodotto tramite SPSS. Questo software IBM ha un costo abbastanza proibitivo, quindi nessuno di noi di noi si poteva permettere di acquistarlo solo per leggere dei dati. 

Ho notato che i miei colleghi provavano un certo sconforto nel lavorare con il formato .txt. Chi ha mai avuto a che fare con questa tipologia di file sa di cosa parlo: 

  • Centinaia di migliaia di righe disposte in colonne non omogenee; 
  • Assenza di separatori chiari; 
  • Spazi eccessivi o al contrario frasi scritte una dopo l’altra con solo un tab a demarcarle; 
  • Difficoltà nel leggere i dati inseriti e individuare i valori mancanti. 

Lavorare con Alteryx mi ha sostanzialmente permesso di decodificare e trascrivere l’intero data set in pochissimi passaggi. 

Inizialmente il mio dataset si presentava in questo modo: 

Text file

 

 

Ho semplicemente trascinato il file nel workflow aperto. A quel punto il programma ha automaticamente individuato il tipo di file come “non riconosciuto”. Dalla finestra pop-up aperta sono riuscita a selezionare la lettura come file di testo delimitato da tab.  

Alteryx text file reader

Purtroppo però il file si presentava già come un’unica colonna. Ho quindi fatto un ulteriore passaggio per suddividere questa in più field, più utili al tipo di indagine che dovevo svolgere. 

 

Alteryx data input

Text-to-columns: dividere un singolo campo in più colonne

Un’altro momento cruciale del Data Prepping con Alteryx è stato la creazione di colonne diverse a partire da un singolo campo. Spesso infatti capita di dover suddividere dei record in colonne diverse, magari per degli unpivot o aggregazioni successive.

Il nodo Text to columns si trova sotto la sezione Parse e si è rivelato estremamente utile per dividere l’unica colonna in cui si presentava il file. Per separare i valori mi è bastato selezionare il numero di colonne da creare, e usare come delimiter il tab. 

Non ho perso tempo a rinominare le nuove colonne generate da quella iniziale. Infatti, una volta creati i nuovi campi mi è bastato selezionare il nodo Select sotto la sezione Preparation. 

Così sono riuscita a rinominare i field a mio piacimento senza modificare il file originale. Mi sono poi assicurata che il data type fosse impostato su V_String e non su altri formati di testo. 

Per concludere, ho usato il nodo Output data per esportare in flat file e condividerlo più agilmente con il rest del team. 

 

In sostanza, il Data Prepping con Alteryx si è rivelato davvero utile per me che ho pochissima conoscenza di linguaggi di programmazione. Per questo credo che utilizzarlo possa fare la differenza in un progetto. Soprattutto, consiglio Alteryx a chi è restio alla preparazione del dato, perché rende incredibilmente semplici processi che richiederebbero altrimenti una conoscenza avanzata di altri programmi (es. Python o R). 

Se desideri ricevere maggiori informazioni su Alteryx e su come implementare un sistema di Data Governance all’interno della tua azienda ti invitiamo a contattarci all’indirizzo: info@theinformationlab.it e a continuare a seguire il nostro blog e le nostre pagine YouTube e LinkedIn. 

 

articoli correlati

Introduzione alle funzioni DAX in PowerBi

Utilizzando Powerbi è molto semplice capire come utilizzare i valori quantitativi presenti nel nostro dataset. Ad esempio, per creare un grafico che mostri il totale

Tooltip in PowerBI

Tooltip Il termine tooltip nasce dall’unione delle parole ‘tool’, strumento, e ‘tip’,  suggerimento. Il tooltip, letteralmente “consiglio su uno strumento”, nell’ambito della data visualization è

Introduzione ai Custom Visual su PowerBI

Quando si parla di data analisi, le visualizzazioni sono la nostra arma principale per trasmettere concetti e trarre conclusioni.Le visualizzazioni efficaci sono definite da elementi

Filtri in Power BI

I filtri sono tra le funzionalità più utilizzate per dettagliare e personalizzare un’analisi. L’importanza dei filtri in una visualizzazione si può ricondurre alle specifiche esigenze