Introduction à Pandas
1. Introduction à Pandas
Pandas est une bibliothèque Python utilisée pour la manipulation et l’analyse des données, principalement via ses deux structures de données principales :
Series
: Une colonne de données.DataFrame
: Une table de données à deux dimensions (lignes et colonnes).
Pour installer Pandas :
Ensuite, importe la bibliothèque :
2. Création de DataFrames
Un DataFrame est une structure bidimensionnelle avec des axes (lignes et colonnes). Chaque colonne peut contenir des types de données différents (entiers, chaînes, flottants, etc.).
a) À partir d’un dictionnaire
La manière la plus simple de créer un DataFrame est d’utiliser un dictionnaire où les clés sont les noms des colonnes et les valeurs sont les listes de données correspondantes.
Cela produira un DataFrame comme ceci :
b) À partir d’une liste de listes
Un autre moyen est d’utiliser une liste de listes et de spécifier les noms de colonnes.
c) À partir d’un fichier CSV
Il est très courant de charger des données à partir d’un fichier CSV. Pandas facilite cette opération.
3. Exploration d’un DataFrame
Une fois le DataFrame créé, voici quelques fonctions couramment utilisées pour l’explorer.
a) Afficher les premières lignes
Pour voir les premières ou dernières lignes d’un DataFrame :
b) Obtenir des informations générales
Pour obtenir une vue d’ensemble de la structure des données, Pandas propose des méthodes comme :
df.shape
: Retourne le nombre de lignes et de colonnes.df.info()
: Affiche des informations sur le type de données de chaque colonne.df.describe()
: Donne des statistiques descriptives pour les colonnes numériques (moyenne, écart-type, etc.).
4. Accéder aux données dans un DataFrame
a) Accès aux colonnes
Tu peux accéder à une colonne d’un DataFrame de différentes manières :
b) Accès aux lignes
Pour accéder aux lignes d’un DataFrame, tu peux utiliser les méthodes loc
(basé sur les labels) et iloc
(basé sur les indices).
c) Filtrage des données
Le filtrage des lignes selon des conditions est très pratique avec Pandas. Utilise des conditions pour filtrer les données.
5. Modification des données
a) Ajouter des colonnes
Tu peux ajouter une nouvelle colonne en assignant des valeurs à celle-ci.
b) Supprimer des colonnes ou des lignes
Utilise drop()
pour supprimer des colonnes ou des lignes.
c) Remplacer les valeurs manquantes (NaN)
Les valeurs manquantes sont souvent présentes dans les jeux de données réels. Pandas offre plusieurs méthodes pour gérer ces valeurs.
d) Modification en place
Il est souvent nécessaire de modifier les données existantes, par exemple pour mettre à jour les valeurs d’une colonne :
6. Opérations sur les données
a) GroupBy
La méthode groupby()
est utilisée pour grouper les données selon une ou plusieurs colonnes et appliquer des opérations d’agrégation (somme, moyenne, etc.).
b) Tri
Tu peux trier les données d’un DataFrame avec la méthode sort_values()
:
7. Opérations sur les chaînes de caractères
Pandas permet de manipuler les chaînes de caractères dans les colonnes de type texte via la propriété str
.
8. Opérations avec les dates
Pandas permet également de travailler avec les dates de manière efficace. Il est souvent nécessaire de convertir une colonne en format datetime pour effectuer des opérations temporelles.
9. Sauvegarder un DataFrame
Après avoir manipulé et analysé un DataFrame, il est courant de vouloir l’exporter dans un fichier.
a) Sauvegarder en CSV
b) Sauvegarder en Excel
10. Conclusion : Apprendre les DataFrames avec Pandas
Pandas DataFrames sont des structures extrêmement puissantes pour manipuler des données tabulaires en Python. Leur souplesse et l’énorme gamme de fonctions qu’ils offrent pour l’exploration, la modification, et l’analyse de données en font un outil indispensable pour la science des données, le machine learning, et le traitement de données à grande échelle.
Points clés à retenir :
- Création et exploration des DataFrames : Manipuler des données sous forme de tableaux à deux dimensions.
- Accès aux données : Utilisation des méthodes
loc
etiloc
pour accéder aux lignes et colonnes. - Filtrage, tri et agrégation : Application d’opérations pour nettoyer et transformer les données.
- Manipulation de chaînes et dates : Outils intégrés pour gérer efficacement les données textuelles et temporelles.
En maîtrisant les DataFrames, tu auras les bases solides pour aborder l’analyse de données avancée et travailler sur des projets de machine learning ou des études statistiques.