Le Data Cleaning est un processus consistant à " nettoyer " les données avant de les analyser. Pour ce faire, il s'agit de modifier ou de supprimer du dataset les données incorrectes, incomplètes, non pertinentes, corrompues, dupliquées ou mal formatées.
En effet, en collectant des données à partir de multiples sources, les données peuvent rapidement se trouver mal étiquetées ou dupliquées au sein d'un même ensemble. De même, les données entrées manuellement peuvent comporter des erreurs et des imprécisions.
Ces données doivent être retirées de l'ensemble de données, car elles ne sont généralement ni nécessaires ni utiles dans le processus d'analyse. Pire encore, elles risquent d'altérer les résultats et de nuire à la précision des résultats. La qualité des résultats dépend donc de la qualité des données.
Le Data Cleaning peut passer par la suppression de certaines données, mais ce n'est pas toujours le cas. Il peut aussi s'agir de corriger des erreurs de syntaxe ou d'orthographe, ou encore des erreurs structurelles telles que des champs vides. Il convient aussi d'identifier les données dupliquées.
Il existe différentes méthodes pour le nettoyage des données, et le processus varie d'un dataset à l'autre. Quelle que soit la méthode choisie, l'objectif reste toutefois de maximiser la pertinence et la précision de l'ensemble de données.
Des données de qualité doivent être valides, précises, complètes, consistantes et uniformes. Au cours du processus de nettoyage, il est également important d'identifier d'où proviennent les erreurs pour éviter de les reproduire par la suite.
Une fois l'opération de Data Cleaning terminée, il est important de vérifier si le dataset est totalement nettoyé. Pour ce faire, il convient de le passer en revue et de s'assurer que les données aient du sens, et qu'elles puissent être analysées afin de dégager les informations recherchées.
Les Data Warehouses utilisent le Data Cleaning pour optimiser les données en provenance de multiples sources avant analyse. La plateforme va ainsi parcourir des millions de points de données pour s'assurer qu'elles soient nettoyées avant le transfert vers une base de données, un tableau ou toute autre structure.
De même, de plus en plus d'entreprises se tournent vers le Data Cleaning pour optimiser les données collectées auprès de leurs clients par le biais de questionnaires, de sondages ou de formulaires. Il s'agira alors de s'assurer que les données soient entrées dans le champ correspondant, qu'elles ne comportent pas de caractère invalide, et qu'il ne manque aucune information.
Ce processus permet aussi de créer des ensembles de données uniformes, plus faciles à traiter pour les outils de Business Intelligence. Le Data Cleaning est considéré comme un élément essentiel de l'analyse des données, mais aussi de l'entraînement des algorithmes de Machine Learning.