Fondationsdébutant

Calcul & Optimisation

“Des dérivées à la descente de gradient — le moteur qui entraîne chaque réseau de neurones”

Dérivées, dérivées partielles, règle de la chaîne (= rétropropagation) et descente de gradient. Puis Adam, momentum, scheduling — comment les réseaux apprennent vraiment.

45 min

8 diagrammes

8 Concepts Couverts

Prérequis

→Linear Algebra

Concepts Couverts

DerivativesChain RuleGradientGradient DescentAdamMomentumLearning RateConvexity

Précédent: Algèbre Linéaire pour le ML Suivant: Probabilités & Statistiques

∑Formules Clés

Gradient

Vecteur des dérivées partielles — pointe dans la direction de la montée la plus raide

Règle de la Chaîne

La colonne vertébrale de la rétropropagation — composer les dérivées à travers les couches

Descente de Gradient

Se déplacer itérativement dans le sens opposé au gradient pour minimiser la perte L

Mise à Jour Adam

Descente de gradient avec taux d'apprentissage adaptatifs par paramètre (moments 1 et 2 corrigés du biais)

▶Simulation Interactive

Loading visualization…

🎯

L'Optimisation Fait Apprendre les Modèles

motivation

Entraîner un modèle ML est un problème d'optimisation : trouver les paramètres θ qui minimisent la fonction de perte L(θ). La descente de gradient est l'algorithme de base qui résout cela pour des problèmes avec des millions de paramètres où les solutions en forme fermée n'existent pas. La règle de la chaîne permet de calculer les gradients à travers des compositions arbitrairement profondes de fonctions — c'est la rétropropagation.

Un modèle GPT a ~175 milliards de paramètres. La descente de gradient met à jour TOUS simultanément en une seule passe arrière grâce à la règle de la chaîne.

💡

Le Gradient comme Direction dans l'Espace des Paramètres

intuition

Imaginez la fonction de perte comme un paysage vallonné et vos paramètres comme votre position. Le gradient ∇L(θ) est une flèche pointant vers le haut. Aller dans la direction OPPOSÉE (−η∇L) descend — vers une perte plus faible. Le taux d'apprentissage η contrôle la taille du pas : trop grand et vous rebondissez (divergence), trop petit et l'entraînement prend une éternité. Adam résout cela en maintenant un taux d'apprentissage séparé pour chaque paramètre basé sur son historique de gradients.

Intuition pour la règle de la chaîne : si le changement de température affecte la pression, et que la pression affecte le volume, comment la température affecte-t-elle le volume ? Multipliez les sensibilités individuelles.

⚙️

Optimiseur Adam — Étape par Étape

algorithm

Initialiser : θ, m₀=0 (1er moment), v₀=0 (2e moment), t=0, β₁=0.9, β₂=0.999, ε=1e-8

Calculer le gradient : g_t = ∇_θ L(θ_{t-1})

Mettre à jour le 1er moment biaisé (momentum) : m_t = β₁·m_{t-1} + (1-β₁)·g_t

Mettre à jour le 2e moment biaisé (échelle adaptative) : v_t = β₂·v_{t-1} + (1-β₂)·g_t²

Correction du biais : m̂_t = m_t/(1-β₁ᵗ), v̂_t = v_t/(1-β₂ᵗ)

Mise à jour des paramètres : θ_t = θ_{t-1} - η·m̂_t / (√v̂_t + ε)

Intuition : m̂_t est une moyenne mobile des gradients (momentum). √v̂_t normalise par la magnitude — les variables à grands gradients reçoivent des taux d'apprentissage plus petits.

</>

Descente de Gradient de Zéro

code

python80 lines

import numpy as np
import matplotlib.pyplot as plt

# ── Dérivées numériques (éducatif) ────────────────────────────────────────────
def gradient_numerique(f, x, h=1e-5):
    """Approximation par différence centrale : (f(x+h) - f(x-h)) / 2h"""
    grad = np.zeros_like(x, dtype=float)
    for i in range(len(x)):
        x_plus  = x.copy(); x_plus[i]  += h
        x_minus = x.copy(); x_minus[i] -= h
        grad[i] = (f(x_plus) - f(x_minus)) / (2 * h)
    return grad

# ── 1. Descente de gradient sur une quadratique simple ────────────────────────
def perte(theta):
    return (theta[0] - 3)**2 + (theta[1] + 1)**2  # minimum en (3,-1)

def grad_perte(theta):
    return np.array([2*(theta[0]-3), 2*(theta[1]+1)])

theta = np.array([0., 0.])
lr = 0.1
historique = [theta.copy()]

for etape in range(50):
    g = grad_perte(theta)
    theta -= lr * g
    historique.append(theta.copy())
    if np.linalg.norm(g) < 1e-6:
        print(f"Convergé à l'étape {etape}")
        break

print(f"θ final : {theta.round(4)}")  # ≈ [3, -1]

# ── 2. Optimiseur Adam ────────────────────────────────────────────────────────
def adam(fn_grad, theta_init, lr=0.01, n_etapes=100, b1=0.9, b2=0.999, eps=1e-8):
    theta = theta_init.copy().astype(float)
    m, v = np.zeros_like(theta), np.zeros_like(theta)
    historique = [theta.copy()]
    for t in range(1, n_etapes+1):
        g = fn_grad(theta)
        m = b1*m + (1-b1)*g
        v = b2*v + (1-b2)*g**2
        m_hat = m / (1 - b1**t)
        v_hat = v / (1 - b2**t)
        theta -= lr * m_hat / (np.sqrt(v_hat) + eps)
        historique.append(theta.copy())
    return theta, historique

theta_adam, hist_adam = adam(grad_perte, np.array([0., 0.]), lr=0.1)
print(f"θ Adam : {theta_adam.round(4)}")

# ── 3. Règle de la chaîne en action (rétropropagation manuelle) ───────────────
# f(x) = (2x + 1)^2. df/dx = 2 * (2x+1) * 2 = 4*(2x+1)
x = 3.0
# Passe avant
u = 2*x + 1    # u = 7
f = u**2       # f = 49

# Passe arrière (règle de la chaîne)
df_du = 2*u    # = 14
du_dx = 2      # constante
df_dx = df_du * du_dx   # = 28
print(f"df/dx en x=3 : {df_dx}")  # analytique : 4*(2*3+1) = 28 ✓

# ── 4. Sensibilité au taux d'apprentissage ────────────────────────────────────
fig, axes = plt.subplots(1, 3, figsize=(12,3))
for ax, lr_val in zip(axes, [0.01, 0.1, 0.9]):
    theta = np.array([0.])
    pertes = []
    for _ in range(100):
        g = 2*(theta[0] - 5)
        theta[0] -= lr_val * g
        pertes.append((theta[0]-5)**2)
    ax.semilogy(pertes)
    ax.set_title(f"lr = {lr_val}")
    ax.set_xlabel("Étapes")
    ax.set_ylabel("Perte")
plt.tight_layout()
plt.show()  # lr=0.01 : lent, lr=0.1 : parfait, lr=0.9 : oscille

⚠️

Minima Locaux vs Points Selles — Ce qui Ralentit Vraiment l'Entraînement

pitfall

Dans les paysages de perte de haute dimension (les réseaux modernes ont des millions de paramètres), les vrais minima locaux sont rares — la plupart des points 'bloqués' sont des points selles. La descente de gradient avec bruit (SGD) échappe naturellement aux points selles. Les problèmes pratiques plus importants sont : (1) Gradients explosifs dans les réseaux profonds — utilisez le clipping. (2) Gradients évanescents dans les RNN — utilisez LSTM/GRU. (3) Mauvais conditionnement — utilisez la normalisation par lots ou l'initialisation des poids.

Pour les problèmes convexes (régression linéaire, régression logistique, SVM), la descente de gradient est garantie de trouver le minimum global. Pour les réseaux de neurones, elle trouve un 'bon' bassin.

?Vérification des Connaissances

La progression est sauvegardée dans votre navigateur — aucun compte requis.

Algèbre Linéaire pour le ML

Probabilités & Statistiques

Besoin d'un ingénieur IA ou data scientist ?

Je conçois des modèles ML sur mesure, des agents IA, de la vision par ordinateur et de l'automatisation — de l'idée à la production.

Me contacter Voir les services