Manipuler des données dans un DataFrame
1. Sélection et accès aux données dans un DataFrame
a) Sélection de colonnes
Tu peux sélectionner une ou plusieurs colonnes d’un DataFrame.
-
Sélectionner une colonne :
-
Sélectionner plusieurs colonnes :
b) Sélection de lignes
Il existe plusieurs méthodes pour sélectionner des lignes dans un DataFrame :
-
Sélection par index (iloc) : Pour sélectionner par position.
-
Sélection par étiquette (loc) : Pour sélectionner par nom d’index.
-
Sélection par condition : Pour filtrer des lignes selon une condition.
c) Accéder à des sous-ensembles de données (slicing)
-
Sélectionner une plage de lignes :
-
Sélectionner des lignes et colonnes spécifiques :
2. Modification des données dans un DataFrame
a) Ajouter une nouvelle colonne
Tu peux ajouter une nouvelle colonne en assignant des valeurs à celle-ci.
b) Modifier des valeurs dans un DataFrame
Tu peux directement modifier des valeurs dans un DataFrame en accédant à une cellule spécifique.
-
Modifier une cellule :
-
Modifier une colonne entière :
c) Supprimer des colonnes ou des lignes
Pandas permet de supprimer des colonnes ou des lignes avec la méthode drop()
.
-
Supprimer une colonne :
-
Supprimer une ligne :
3. Manipulation des chaînes de caractères
a) Opérations de base sur les colonnes de type chaîne
Pandas permet de manipuler facilement des colonnes contenant des chaînes de caractères en utilisant la propriété .str
.
-
Mettre en majuscules :
-
Vérifier la présence d’un motif :
-
Remplacer une sous-chaîne :
4. Gestion des valeurs manquantes
Les valeurs manquantes sont courantes dans les jeux de données. Pandas fournit plusieurs méthodes pour les gérer.
a) Détecter les valeurs manquantes
Pour vérifier si une colonne ou un DataFrame contient des valeurs manquantes (NaN) :
b) Remplacer les valeurs manquantes
Tu peux remplacer les valeurs manquantes par une autre valeur, comme 0 ou la moyenne de la colonne.
-
Remplacer par une valeur spécifique :
-
Remplacer par la moyenne :
c) Supprimer les lignes avec des valeurs manquantes
Si tu veux supprimer les lignes contenant des valeurs manquantes :
5. Fusionner et combiner des DataFrames
Tu peux combiner des DataFrames avec des méthodes comme merge()
, concat()
, et join()
.
a) Concaténer des DataFrames
Concaténer deux DataFrames verticalement ou horizontalement.
b) Fusionner des DataFrames
Pour effectuer une jointure (similaire à SQL), utilise merge()
.
6. GroupBy et agrégation
a) Regrouper les données par une colonne
La méthode groupby()
permet de regrouper les données selon une ou plusieurs colonnes et d’effectuer des calculs d’agrégation.
b) Appliquer plusieurs fonctions d’agrégation
Tu peux appliquer plusieurs fonctions d’agrégation à la fois (comme la somme, la moyenne, le maximum, etc.).
7. Trier les données
Pandas permet de trier un DataFrame par une ou plusieurs colonnes avec sort_values()
.
-
Trier par une colonne :
-
Trier par plusieurs colonnes :
8. Appliquer des fonctions personnalisées avec apply()
La méthode apply()
permet d’appliquer des fonctions personnalisées à des colonnes ou des lignes de DataFrame.
a) Appliquer une fonction sur une colonne
b) Appliquer une fonction sur les lignes
Si tu veux appliquer une fonction à chaque ligne, utilise l’argument axis=1
.
9. Pivot tables
Une pivot table est un outil puissant pour résumer et réorganiser les données dans un DataFrame.
a) Créer une pivot table
Conclusion : Manipulation des données avec Pandas
En résumé, voici les principales compétences de manipulation des données que tu devrais maîtriser :
- Sélectionner et filtrer des colonnes et des lignes.
- Ajouter, modifier ou supprimer des colonnes et des lignes.
- Gérer les valeurs manquantes.
- Fusionner et concaténer des DataFrames.
- Grouper et agréger les données avec
groupby()
. - Appliquer des fonctions personnalisées avec
apply()
. - Créer et utiliser des tables pivots.