📂 POSTULER MAINTENANT pour trouver votre alternance avec NEXA Digital School 🎓🚀

Statistiques descriptives avec Pandas

table { border-collapse: collapse; width: 100%; margin: 20px 0; } th, td...

🎓 Leçon 2.2 — Statistiques descriptives avec Pandas


📊 Objectif :

Analyser rapidement les caractéristiques d’un jeu de données à l’aide de mesures statistiques simples et de visualisations.

🔸 1. Mesures de tendance centrale

Ces mesures indiquent où se situent les données dans l’ensemble
Mesure Définition Code Pandas
Moyenne Somme des valeurs ÷ nombre total df["colonne"].mean()
Médiane Valeur centrale df["colonne"].median()
Mode Valeur(s) la/les plus fréquente(s) df["colonne"].mode()

🔸 2. Mesures de dispersion

Ces mesures montrent comment les données sont réparties autour de la moyenne :

Mesure Définition Code Pandas
Variance Moyenne des carrés des écarts df["colonne"].var()
Écart-type Racine carrée de la variance df["colonne"].std()
Amplitude Différence entre max et min df["colonne"].max() - df["colonne"].min()

🔸 3. Distribution & histogrammes

Les histogrammes permettent de visualiser la fréquence des valeurs d’une variable.

Code d’exemple :

				
					import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("donnees.csv")
df["revenu"].hist(bins=10)
plt.title("Distribution des revenus")
plt.xlabel("Revenu")
plt.ylabel("Fréquence")
plt.show()

				
			

✅ À retenir :

  • Ces statistiques permettent d’avoir une vue rapide et globale sur les données.
  • Pandas est un outil puissant pour les obtenir en une ligne de code.
  • Matplotlib permet de représenter ces mesures graphiquement.