Il tool Data Cleansing è uno strumento molto utile nella preparazione del dato. Per spiegare la sua funzionalità seguiamo il seguente caso d’uso:
Attività da portare a termine
Dato un set di dati, ci focalizzeremo su una colonna titolata Model, che contiene dati che sono parzialmente lettere, numeri e caratteri speciali, la cui posizione varia casualmente, ovvero le lettere possono trovarsi all’inizio, in mezzo o alla fine della parola. Il nostro obiettivo è quello di estrarre solo le lettere (o solo i numeri, l’approccio è lo stesso).
Soluzione
Il Data Cleansing offre la possibilità di configurare una o più colonne in ingresso.
Qui sotto è riportato un pezzo della sua sezione di configurazione
Come si vede, è possibile rimuovere caratteri che, secondo l’utente, non sono utili per l’analisi e non aiutano a rendere chiara l’informazione contenuta nel dato.
Risultato finale
Ora la colonna Model contiene solo una parte testuale.