Appliquéintermédiaire

Prévision de Séries Temporelles

“Quand l'ordre des observations compte — apprendre du passé pour prédire l'avenir”

Décomposition tendance-saisonnalité-résidu, features de lag, statistiques glissantes, TimeSeriesSplit, ARIMA et gradient boosting pour la prévision tabulaire.

50 min

11 diagrammes

7 Concepts Couverts

Prérequis

→Probability & Statistics

→Gradient Boosting

Concepts Couverts

DecompositionLag FeaturesRolling StatisticsTimeSeriesSplitACF/PACFARIMAFourier Features

Précédent: Dépendance Partielle & Courbes ICE Suivant: Réseaux de Neurones — Propagation Avant & Rétro

∑Formules Clés

Décomposition

Additif : tendance + saisonnalité + résidus. Multiplicatif : T × S × R quand les amplitudes s'adaptent

Modèle AR(p)

Autorégressif : la valeur actuelle est une combinaison linéaire de p valeurs passées

Fonction d'Autocorrélation

FCA — à quel point la série est-elle corrélée avec son décalage de k pas ?

MAPE

Erreur Absolue Moyenne en Pourcentage — métrique de prévision sans échelle

▶Simulation Interactive

Loading visualization…

🎯

Les Séries Temporelles Sont Partout

motivation

Cours boursiers, demande d'électricité, charge CPU des serveurs, trafic web, cas de COVID, météo, ventes — toutes sont des séries temporelles. La différence fondamentale avec le ML standard : les observations sont ordonnées et corrélées. Utiliser les données de demain pour prédire hier viole la causalité. Utiliser une division train/test standard (mélange aléatoire) contamine votre évaluation car les données de test apparaissent dans la période d'entraînement. Les séries temporelles nécessitent une validation croisée temporelle et un ingénierie de caractéristiques temporelles.

Prophet (Meta) et ARIMA sont les standards industriels pour la prévision. Mais le gradient boosting avec des caractéristiques de décalage soigneuses et la validation croisée TimeSeriesSplit surpasse souvent les deux sur les séries temporelles tabulaires.

💡

Décomposition : Séparer le Signal du Bruit

intuition

La plupart des séries temporelles du monde réel ont trois composantes : Tendance (la direction à long terme — les ventes augmentant sur des années), Saisonnalité (les motifs répétitifs — ventes plus élevées en décembre), et Résidus (bruit aléatoire après la suppression de la tendance et de la saisonnalité). La décomposition additive fonctionne quand l'amplitude saisonnière est constante ; multiplicative quand elle croît avec la tendance. STL (décomposition Saisonnalité-Tendance utilisant LOESS) est l'approche moderne robuste — gère plusieurs périodes de saisonnalité et les anomalies.

🔬

Créer des Caractéristiques à partir du Temps

deepdive

Les séries temporelles peuvent être traitées comme du ML supervisé en créant des caractéristiques de décalage et des statistiques glissantes. Caractéristiques de décalage : y_{t-1}, y_{t-2}, ..., y_{t-p} capturent l'autocorrélation. Statistiques glissantes : rolling_mean(window=7), rolling_std, rolling_max capturent la tendance et la volatilité récentes. Caractéristiques calendaires : heure_du_jour, jour_semaine, mois, est_vacances capturent la saisonnalité. Caractéristiques de Fourier : sin(2πt/période), cos(2πt/période) encodent les motifs saisonniers doux.

Créer les décalages : df['lag_1'] = df['y'].shift(1)

Statistiques glissantes : df['roll_mean_7'] = df['y'].rolling(7).mean()

Caractéristiques calendaires : df['jour_semaine'] = df.index.dayofweek

Saisonnalité de Fourier : paires sin/cos pour chaque période saisonnière

Toujours utiliser TimeSeriesSplit — ne jamais mélanger les séries temporelles pour la VC

Écart entre train/validation : ajouter gap= pour éviter la fuite par autocorrélation

⚙️

TimeSeriesSplit : Validation Croisée Correcte

algorithm

Pli 1 : Train=[t₁…t₃₀₀], Val=[t₃₀₁…t₄₀₀]

Pli 2 : Train=[t₁…t₄₀₀], Val=[t₄₀₁…t₅₀₀]

Pli 3 : Train=[t₁…t₅₀₀], Val=[t₅₀₁…t₆₀₀]

La fenêtre d'entraînement se termine toujours avant la validation — pas de fuite du futur

Option : gap=k entre la fin du train et le début de la val (évite la fuite par autocorrélation)

Option : max_train_size=N pour une fenêtre glissante (seulement les N derniers points en train)

</>

Prévision avec sklearn + LightGBM

code

python52 lines

import pandas as pd
import numpy as np
import lightgbm as lgb
from sklearn.model_selection import TimeSeriesSplit
from sklearn.metrics import mean_absolute_error

# ── Série temporelle journalière d'exemple ────────────────────────────
dates = pd.date_range('2022-01-01', periods=365, freq='D')
np.random.seed(42)
tendance    = np.linspace(100, 200, 365)
saisonnalite = 20 * np.sin(2 * np.pi * np.arange(365) / 7)
bruit = np.random.randn(365) * 5
df = pd.DataFrame({'ventes': tendance + saisonnalite + bruit}, index=dates)

def creer_caracteristiques(df, col_cible, decalages, fenetres):
    """Créer des caractéristiques de décalage et glissantes pour la prévision supervisée."""
    df = df.copy()
    for lag in decalages:
        df[f'lag_{lag}'] = df[col_cible].shift(lag)
    for f in fenetres:
        df[f'roll_mean_{f}'] = df[col_cible].shift(1).rolling(f).mean()
        df[f'roll_std_{f}']  = df[col_cible].shift(1).rolling(f).std()
    # Caractéristiques calendaires
    df['jour_semaine']  = df.index.dayofweek
    df['mois']          = df.index.month
    df['est_weekend']   = df['jour_semaine'] >= 5
    # Saisonnalité de Fourier (hebdomadaire=7, annuelle=365)
    for k in range(1, 3):
        df[f'sin_sem_{k}'] = np.sin(2*np.pi*k * df.index.dayofyear / 7)
        df[f'cos_sem_{k}'] = np.cos(2*np.pi*k * df.index.dayofyear / 7)
    return df.dropna()

df_feat = creer_caracteristiques(df, 'ventes', decalages=[1,2,3,7,14,28], fenetres=[7,14,28])
X = df_feat.drop('ventes', axis=1)
y = df_feat['ventes']

# ── Validation croisée TimeSeriesSplit ────────────────────────────
tscv = TimeSeriesSplit(n_splits=5, gap=7)  # gap de 7 jours
eam_scores = []

for idx_train, idx_val in tscv.split(X):
    X_tr, X_val = X.iloc[idx_train], X.iloc[idx_val]
    y_tr, y_val = y.iloc[idx_train], y.iloc[idx_val]

    modele = lgb.LGBMRegressor(n_estimators=500, learning_rate=0.05,
                                num_leaves=31, min_child_samples=20)
    modele.fit(X_tr, y_tr,
               eval_set=[(X_val, y_val)],
               callbacks=[lgb.early_stopping(50, verbose=False)])
    eam_scores.append(mean_absolute_error(y_val, modele.predict(X_val)))

print(f"CV EAM : {np.mean(eam_scores):.2f} ± {np.std(eam_scores):.2f}")

⚠️

Pièges des Séries Temporelles

pitfall

Utiliser une division train/test aléatoire sur les données de séries temporelles est l'erreur n°1 — votre modèle s'entraîne sur les données futures, résultant en une évaluation follement optimiste. Toujours utiliser TimeSeriesSplit ou une division temporelle unique. Deuxième : ne pas ajouter d'écart entre les fenêtres train et validation — l'autocorrélation rend le dernier point d'entraînement et le premier point de validation hautement corrélés. Troisième : fuite de caractéristiques — utiliser une moyenne glissante de y sans décalage approprié signifie que les valeurs futures contaminent les caractéristiques actuelles. Toujours shift(1) avant le rolling.

Pour la prévision en production, ré-entraîner votre modèle au fur et à mesure de l'arrivée de nouvelles données. Les modèles précis il y a 6 mois peuvent avoir dérivé avec l'évolution de la distribution de la série temporelle.

?Vérification des Connaissances

La progression est sauvegardée dans votre navigateur — aucun compte requis.

Dépendance Partielle & Courbes ICE

Réseaux de Neurones — Propagation Avant & Rétro

Besoin d'un ingénieur IA ou data scientist ?

Je conçois des modèles ML sur mesure, des agents IA, de la vision par ordinateur et de l'automatisation — de l'idée à la production.

Me contacter Voir les services