Présentation
Les données manquantes sont un problème courant lorsque vous travaillez avec des ensembles de données réalistes. Connaître et analyser les causes des valeurs manquantes aide à fournir une image plus claire des étapes pour résoudre le problème. Python fournit de nombreuses méthodes pour analyser et résoudre le problème des données non comptabilisées.
Ce tutoriel explique les causes et les solutions des données manquantes à travers un exemple pratique en Python.
Prérequis
- Python 3 installé et configuré
- Modules Pandas et NumPy installés
- Un ensemble de données avec des valeurs manquantes
Comment les données manquantes affectent-elles votre algorithme ?
Les données manquantes affectent votre algorithme et votre recherche de trois manières :
- Les valeurs manquantes donnent une idée erronée des données elles-mêmes, ce qui entraîne une ambiguïté . Par exemple, le calcul d'une moyenne pour une colonne avec la moitié des informations indisponibles ou définies sur zéro donne la mauvaise métrique.
- Lorsque les données ne sont pas disponibles, certains algorithmes ne fonctionnent pas. Certains algorithmes d'apprentissage automatique avec des ensembles de données contenant NaN Les valeurs (Pas un nombre) renvoient une erreur.
- Le modèle des données manquantes est un facteur essentiel. Si les données d'un ensemble de données manquent au hasard, les informations sont toujours utiles dans la plupart des cas. Cependant, s'il manque systématiquement des informations, toute analyse est biaisée.
Qu'est-ce qui peut causer des données manquantes ?
La cause des données manquantes dépend des méthodes de collecte de données. L'identification de la cause aide à déterminer le chemin à suivre lors de l'analyse d'un ensemble de données.
Voici quelques exemples de raisons pour lesquelles les ensembles de données ont des valeurs manquantes :
Enquêtes . Les données recueillies par le biais d'enquêtes comportent souvent des informations manquantes. Que ce soit pour des raisons de confidentialité ou simplement pour ne pas connaître la réponse à une question spécifique, les questionnaires contiennent souvent des données manquantes.
IdO . De nombreux problèmes surviennent lors de l'utilisation d'appareils IoT et de la collecte de données à partir de systèmes de capteurs vers des serveurs informatiques en périphérie. Une perte temporaire de communication ou un capteur défectueux entraîne souvent la perte de données.
Accès restreint . Certaines données ont un accès limité, en particulier les données protégées par HIPAA, GDPR et d'autres réglementations.
Erreur manuelle . Les données saisies manuellement présentent généralement des incohérences en raison de la nature du travail ou de la grande quantité d'informations.
Comment gérer les données manquantes ?
Pour analyser et expliquer le processus de traitement des données manquantes en Python, nous utiliserons :
- Ensemble de données sur les permis de construction de San Francisco
- Environnement Jupyter Notebook
Les idées s'appliquent à différents ensembles de données ainsi qu'à d'autres IDE et éditeurs Python.
Importer et afficher les données
Téléchargez l'ensemble de données et copiez le chemin du dossier. À l'aide de la bibliothèque Pandas, importez et stockez le Building_Permits.csv données dans une variable :
import pandas as pd
data = pd.read_csv('<path to Building_Permits.csv>')
Pour confirmer que les données ont été correctement importées, exécutez :
data.head()
La commande affiche les premières lignes des données sous forme de tableau :
La présence de NaN indique qu'il manque des données dans cet ensemble de données.
Rechercher les valeurs manquantes
Trouvez combien de valeurs manquantes il y a par colonne en exécutant :
data.isnull().sum()
Les chiffres donnent plus de sens lorsqu'ils sont affichés en pourcentages. Pour afficher les sommes sous forme de pourcentage, divisez le nombre par la longueur totale de l'ensemble de données :
data.isnull().sum()/len(data)
Pour afficher en premier les colonnes avec le pourcentage le plus élevé de données manquantes, ajoutez .sort_values(ascending=False)
à la ligne de code précédente :
data.isnull().sum().sort_values(ascending = False)/len(data)
Avant de supprimer ou de modifier des valeurs, consultez la documentation pour connaître les raisons pour lesquelles des données sont manquantes. Par exemple, la colonne Conformité TIDF contient presque toutes les données manquantes. Cependant, la documentation indique qu'il s'agit d'une nouvelle exigence légale, il est donc logique que la plupart des valeurs soient manquantes.
Marquer les valeurs manquantes
Affichez les données statistiques générales d'un jeu de données en exécutant :
data.describe()
Selon le type de données et la connaissance du domaine, certaines valeurs ne correspondent pas logiquement. Par exemple, un numéro de rue ne peut pas être zéro. Cependant, la valeur minimale affiche zéro, indiquant des valeurs manquantes probables dans la colonne du numéro de rue.
Pour voir combien de numéro de rue les valeurs sont 0, exécutez :
(data['Street Number'] == 0).sum()
À l'aide de la bibliothèque NumPy, échangez la valeur contre NaN pour indiquer l'information manquante :
import numpy as np
data['Street Number'] = data['Street Number'].replace(0, np.nan)
La vérification des données statistiques mises à jour indique maintenant que le numéro de rue minimum est 1.
De même, la somme des valeurs NaN indique désormais qu'il manque des données dans la colonne du numéro de rue.
D'autres valeurs de la colonne Numéro de rue changent également, telles que le nombre et la moyenne. La différence n'est pas énorme car seules quelques valeurs sont égales à 0. Cependant, avec des quantités plus importantes de données mal étiquetées, les différences de métriques sont également plus visibles.
Supprimer les valeurs manquantes
Le moyen le plus simple de gérer les valeurs manquantes en Python consiste à supprimer les lignes ou les colonnes où il manque des informations.
Bien que cette approche soit la plus rapide, la perte de données n'est pas l'option la plus viable. Si possible, d'autres méthodes sont préférables.
Supprimer les lignes avec des valeurs manquantes
Pour supprimer les lignes avec des valeurs manquantes, utilisez le dropna
fonction :
data.dropna()
Lorsqu'elle est appliquée à l'exemple de jeu de données, la fonction a supprimé toutes les lignes de données, car chaque ligne de données en contient au moins une Valeur NaN.
Supprimer les colonnes avec des valeurs manquantes
Pour supprimer les colonnes avec des valeurs manquantes, utilisez le dropna
fonction et fournir l'axe :
data.dropna(axis = 1)
Le jeu de données contient désormais 11 colonnes contre 43 initialement disponibles.
Imputer les valeurs manquantes
L'imputation est une méthode pour remplir les valeurs manquantes avec des nombres en utilisant une stratégie spécifique. Voici quelques options à envisager pour l'imputation :
- Une valeur moyenne, médiane ou modale de cette colonne.
- Une valeur distincte, telle que 0 ou -1.
- Une valeur sélectionnée au hasard dans l'ensemble existant.
- Valeurs estimées à l'aide d'un modèle prédictif
Le module Pandas DataFrame fournit une méthode pour remplir les valeurs NaN en utilisant diverses stratégies. Par exemple, pour remplacer toutes les valeurs NaN par 0 :
data.fillna(0)
Le fillna
La fonction fournit différentes méthodes pour remplacer les valeurs manquantes. Le remplissage est une méthode courante qui remplit l'information manquante avec la valeur qui la suit :
data.fillna(method = 'bfill')
Si la dernière valeur est manquante, remplissez tous les NaN restants avec la valeur souhaitée. Par exemple, pour remplir toutes les valeurs possibles et remplir le reste avec 0, utilisez :
data.fillna(method = 'bfill', axis = 0).fillna(0)
De même, utilisez ffill pour remplir les valeurs vers l'avant. Les méthodes de remplissage vers l'avant et vers l'arrière fonctionnent lorsque les données ont un ordre logique.
Algorithmes prenant en charge les valeurs manquantes
Il existe des algorithmes d'apprentissage automatique qui sont robustes avec des données manquantes. Voici quelques exemples :
- kNN (k-Voisin le plus proche)
- Bayes naïf
D'autres algorithmes, tels que les arbres de classification ou de régression, utilisent les informations non disponibles comme identifiant unique.