Fondationsdébutant

Probabilités & Statistiques

“Le langage de l'incertitude — distributions de probabilité, MLE et raisonnement bayésien”

Distributions de probabilité, MLE, théorème de Bayes, tests d'hypothèse et théorème de la limite centrale — le langage de l'incertitude.

50 min

9 diagrammes

7 Concepts Couverts

Prérequis

→Calculus & Optimization

Concepts Couverts

Normal DistributionMLEBayes Theoremp-valuesCLTHypothesis TestingConfidence Intervals

Précédent: Calcul & Optimisation Suivant: Théorie de l'Information

∑Formules Clés

Théorème de Bayes

Mettre à jour la croyance a priori P(H) avec une preuve E pour obtenir le posterior P(H|E)

EMV

Trouver les paramètres rendant les données observées les plus probables — équivalent à minimiser le NLL

Densité de Probabilité Normale

Courbe en cloche — entièrement spécifiée par la moyenne μ et l'écart-type σ

Théorème Central Limite

La somme de n variables i.i.d. converge vers la Normale quand n→∞ — pourquoi la distribution normale est partout

▶Simulation Interactive

Loading visualization…

🎯

L'Incertitude Est Partout en ML

motivation

Le machine learning est fondamentalement une question de prédictions dans l'incertitude. La classification produit des probabilités (pas seulement des étiquettes). Les modèles bayésiens maintiennent des distributions complètes sur les paramètres. Sans théorie des probabilités, vous ne pouvez pas raisonner sur : si un modèle est faussement confiant, si votre découpage train/test donne une estimation fiable, ou si deux modèles sont réellement différents.

La log loss (entropie croisée) est la log-vraisemblance négative d'une distribution de Bernoulli. Minimiser l'entropie croisée, c'est faire de l'estimation du maximum de vraisemblance.

💡

Les Distributions — Les Plus Importantes

intuition

**Normale (Gaussienne) :** En cloche, symétrique. Omniprésente par le TCL. Paramétrée par μ (localisation) et σ (dispersion). **Binomiale :** Nombre de succès en n essais binaires avec probabilité p. **Poisson :** Nombre d'événements dans un intervalle fixe. **Bernoulli :** Essai binaire unique. **Student-t :** Comme la Normale mais avec des queues plus lourdes — pour les tests sur petits échantillons. Comprendre quelle distribution utiliser pour votre problème est une compétence essentielle.

Si X₁, X₂, …, Xₙ sont i.i.d. avec moyenne μ et variance finie σ², alors √n(X̄-μ)/σ → N(0,1). C'est pourquoi presque tout est gaussien après avoir fait la moyenne de suffisamment d'échantillons.

⚙️

Estimation du Maximum de Vraisemblance (EMV)

algorithm

Choisir un modèle de probabilité p(x|θ) pour vos données (ex. : Normale, Binomiale).

Écrire la vraisemblance : L(θ) = ∏ᵢ p(xᵢ|θ) — probabilité des données observées sous θ.

Prendre le log : ℓ(θ) = Σᵢ log p(xᵢ|θ) — la log-vraisemblance est plus facile à optimiser (somme vs produit).

Dériver ∂ℓ/∂θ, égaler à zéro, résoudre pour θ̂_EMV.

Pour la Normale : θ̂_EMV = (μ̂=x̄, σ̂²=Σ(xᵢ-x̄)²/n) — moyenne et variance biaisée empiriques.

Pour la régression logistique : pas de forme fermée → utiliser la descente de gradient sur la log-perte = -ℓ(θ).

</>

Probabilité avec SciPy & NumPy

code

python62 lines

import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

# ── Distribution normale ───────────────────────────────────────────────────────
mu, sigma = 170, 10          # tailles en cm
dist_norm = stats.norm(mu, sigma)

x = np.linspace(135, 205, 500)
pdf = dist_norm.pdf(x)

# Probabilités
p_grand = 1 - dist_norm.cdf(190)                     # P(X > 190)
p_intervalle = dist_norm.cdf(180) - dist_norm.cdf(160)  # P(160 < X < 180)
print(f"P(taille > 190cm) = {p_grand:.4f}")
print(f"P(160 < taille < 180) = {p_intervalle:.4f}")

# Règle 68-95-99.7
for k in [1, 2, 3]:
    p = dist_norm.cdf(mu + k*sigma) - dist_norm.cdf(mu - k*sigma)
    print(f"P(μ ± {k}σ) = {p:.4f}")  # ≈ 0.68, 0.95, 0.997

# ── EMV — ajustement d'une distribution normale ──────────────────────────────
donnees = np.random.normal(170, 10, size=100)
mu_mle, sigma_mle = donnees.mean(), donnees.std()
print(f"\nAjustement EMV : μ̂={mu_mle:.2f}, σ̂={sigma_mle:.2f}")

mu_fit, sigma_fit = stats.norm.fit(donnees)
print(f"Ajustement SciPy : μ={mu_fit:.2f}, σ={sigma_fit:.2f}")

# ── Théorème de Bayes ────────────────────────────────────────────────────────
# Test de maladie : prévalence 1%, sensibilité 99%, spécificité 95%
p_maladie = 0.01
p_pos_sachant_maladie = 0.99     # sensibilité
p_neg_sachant_sain = 0.95        # spécificité → P(pos|sain) = 0.05

p_sain = 1 - p_maladie
p_pos_sachant_sain = 1 - p_neg_sachant_sain

# P(positif) = P(pos|maladie)*P(maladie) + P(pos|sain)*P(sain)
p_pos = p_pos_sachant_maladie * p_maladie + p_pos_sachant_sain * p_sain

# Bayes : P(maladie | test positif)
p_maladie_sachant_pos = (p_pos_sachant_maladie * p_maladie) / p_pos
print(f"\nP(maladie | test positif) = {p_maladie_sachant_pos:.4f}")  # ~16.4% !
# Contre-intuitif : malgré 99% de précision, seulement 16% de chance avec +
# dû au faible taux de base (prior) — biais du taux de base

# ── Test d'hypothèse ─────────────────────────────────────────────────────────
groupe_a = np.random.normal(5.0, 1.5, 50)
groupe_b = np.random.normal(5.5, 1.5, 50)

t_stat, p_valeur = stats.ttest_ind(groupe_a, groupe_b)
print(f"\nt-test : t={t_stat:.3f}, p={p_valeur:.4f}")
print("Significatif à α=0.05 :", p_valeur < 0.05)

# Intervalle de confiance bootstrap (sans hypothèse de distribution)
np.random.seed(42)
moyennes_boot = [np.random.choice(groupe_a, size=len(groupe_a), replace=True).mean()
                 for _ in range(10000)]
ic_bas, ic_haut = np.percentile(moyennes_boot, [2.5, 97.5])
print(f"IC 95% groupe A : [{ic_bas:.3f}, {ic_haut:.3f}]")

⚠️

Les p-valeurs Ne Sont Pas Ce Que Vous Croyez

pitfall

Une p-valeur < 0.05 ne signifie PAS 'il y a 95% de chances que l'effet soit réel.' Elle signifie : 'si l'hypothèse nulle était vraie, nous verrions des données aussi extrêmes moins de 5% du temps.' Pièges spécifiques au ML : (1) Comparaisons multiples : si vous testez 20 configurations et rapportez la meilleure, corrigez avec Bonferroni. (2) Confondre la signification statistique avec la signification pratique. (3) Data dredging : tester de nombreuses divisions jusqu'à en trouver une où votre modèle 'bat significativement' la ligne de base.

La taille de l'effet (d de Cohen = (μ₁-μ₂)/σ) vous indique si une différence est pratiquement importante. Un p=0.0001 avec d=0.02 est statistiquement significatif mais pratiquement sans intérêt.

?Vérification des Connaissances

La progression est sauvegardée dans votre navigateur — aucun compte requis.

Calcul & Optimisation

Théorie de l'Information

Besoin d'un ingénieur IA ou data scientist ?

Je conçois des modèles ML sur mesure, des agents IA, de la vision par ordinateur et de l'automatisation — de l'idée à la production.

Me contacter Voir les services