Usage basique de Pandas
1. Introduction à Pandas
Pandas est une bibliothèque Python qui permet de manipuler et d’analyser facilement des données structurées (en tableaux). Les deux structures de données principales de Pandas sont :
- Series : un tableau à une dimension (similaire à une colonne dans une feuille Excel).
- DataFrame : un tableau à deux dimensions (lignes et colonnes), similaire à une feuille de calcul.
2. Installation et importation de Pandas
Avant de commencer, assure-toi que Pandas est installé sur ton environnement. Si ce n’est pas le cas, installe-le avec :
Ensuite, importe Pandas dans ton script Python :
3. Création de Series et DataFrames
a) Créer une Series
Une Series est un tableau à une seule dimension avec des étiquettes d’index associées à chaque valeur.
Sortie :
b) Créer un DataFrame
Un DataFrame est une table de données à deux dimensions, similaire à une feuille de calcul avec des lignes et des colonnes.
Sortie :
4. Lecture et écriture de fichiers CSV
Pandas est couramment utilisé pour lire et écrire des fichiers CSV. Voici les opérations de base :
a) Lire un fichier CSV
Pour charger un fichier CSV dans un DataFrame :
b) Écrire un DataFrame dans un fichier CSV
Après avoir manipulé ou analysé des données, tu peux enregistrer le DataFrame dans un fichier CSV :
5. Exploration des données dans un DataFrame
a) Obtenir des informations de base
Pandas permet d’explorer rapidement la structure de tes données avec des méthodes comme :
df.head()
: Affiche les premières lignes.df.tail()
: Affiche les dernières lignes.df.info()
: Donne des informations sur la structure du DataFrame (colonnes, types de données, mémoire).df.describe()
: Retourne des statistiques descriptives pour les colonnes numériques (moyenne, écart-type, etc.).
Exemple :
b) Accéder aux colonnes et lignes
Tu peux accéder à des colonnes spécifiques ou filtrer certaines lignes du DataFrame :
-
Accéder à une colonne :
-
Accéder à plusieurs colonnes :
-
Accéder à une ligne spécifique : Utilise
loc
pour accéder à une ligne par son label ouiloc
pour y accéder par son index. ```python print(df.loc[0]) # Première ligne (par label) print(df.iloc[2]) # Troisième ligne (par index)
c) Filtrage des lignes selon des conditions
Pandas permet de filtrer les lignes qui respectent une condition.
Exemple : Filtrer les lignes où l’âge est supérieur à 30 :
6. Manipulation des données dans un DataFrame
a) Ajouter une colonne
Tu peux facilement ajouter une nouvelle colonne au DataFrame en assignant une série de valeurs.
b) Supprimer des colonnes ou des lignes
Utilise drop()
pour supprimer des colonnes ou des lignes.
- Supprimer une colonne :
- Supprimer une ligne :
c) Remplacer des valeurs manquantes (NaN)
Les jeux de données réels contiennent souvent des valeurs manquantes (NaN). Pandas propose des méthodes pour les gérer :
7. Opérations courantes avec Pandas
a) GroupBy et agrégation
Tu peux regrouper les données selon une ou plusieurs colonnes, puis effectuer des calculs d’agrégation sur les groupes (somme, moyenne, etc.).
Exemple : Calculer la moyenne d’âge par ville :
b) Tri des données
Tu peux trier les données d’un DataFrame selon une colonne :
c) Manipulation des chaînes de caractères
Pandas facilite la manipulation des chaînes dans les colonnes de texte à l’aide de la propriété str
.
8. Sauvegarde et exportation des données
a) Sauvegarder dans un fichier CSV
Après avoir manipulé tes données, tu peux sauvegarder le DataFrame dans un fichier CSV.
b) Sauvegarder dans un fichier Excel
Tu peux également sauvegarder un DataFrame dans un fichier Excel.
9. Conclusion : Apprendre l’usage de base de Pandas
Voici un résumé des principales fonctionnalités de Pandas que tu devrais maîtriser dans un premier temps pour être efficace :
- Lecture de fichiers CSV : Importer et exporter des fichiers CSV pour travailler avec des données réelles.
- Création de DataFrames : Créer des tableaux structurés à partir de différentes sources de données (listes, dictionnaires, fichiers).
- Exploration des données : Utiliser des méthodes comme
head()
,info()
, etdescribe()
pour obtenir des informations utiles sur tes données. - Accès aux lignes et colonnes : Manipuler les données de manière ciblée, filtrer les lignes selon des conditions.
- Modification des données : Ajouter ou supprimer des colonnes, remplacer des valeurs manquantes.
- GroupBy et tri : Agréger et trier les données pour des analyses plus poussées.
Pandas est une bibliothèque puissante et flexible, et cette introduction te donne les bases pour explorer et manipuler des données efficacement.