Prévision Historique de la Demande de Produits
Benchmark de 19 modèles : TS classique → ML → DL → ensemble. CatBoost R²=0,7125 (meilleur). ML écrase TS classique (SMAPE 115–130% vs 35–40% pour TS, mais R² négatif pour TS). CV walk-forward avec Optuna.
DataCo SCMS : plus de 215K lignes, 36 caractéristiques, CV walk-forward
CV walk-forward → 19 modèles : TS baselines → ML → DL (LSTM/TFT/N-BEATS) → ensemble
Benchmark complet de prévision de la demande — 19 modèles sur la chaîne d'approvisionnement DataCo.
Jeu de données
- ▸Plus de 215K lignes, 36 features après engineering
- ▸Validation croisée walk-forward (fenêtre expansive)
- ▸Test ADF : stationnaire (p<0,0001)
Les 19 Modèles — Résultats Clés
| Modèle | MAE | SMAPE | R² |
|---|---|---|---|
| Naïf (dernière valeur) | 1 145K | 99,4% | -3,09 |
| TS Classique (meilleur : Theta) | 536K | 35,0% | -0,07 |
| Prophet | 523K | 34,8% | +0,11 |
| CatBoost | 9,5K | 121,3% | +0,713 |
| XGBoost (Optuna) | 9,4K | 115,2% | +0,707 |
| Régression Ridge | 9,4K | 133,6% | +0,707 |
| Régression Quantile (P50) | 8,5K | 75,3% | +0,700 |
| LSTM | 554K | 36,2% | -0,08 |
| TFT | 602K | 38,0% | -0,28 |
| N-BEATS | 652K | 39,2% | -0,66 |
Le Paradoxe ML vs TS Classique
- ▸TS Classique : bonne échelle (SMAPE 35%), mauvais motifs (R²<0)
- ▸ML : bons motifs (R²=0,71), grandes erreurs absolues (SMAPE 115%)
- ▸Cause racine : le ML prédit par produit avec features lag → petite erreur absolue sur la plupart, échoue sur l'échelle agrégée
- ▸La Régression Quantile P50 équilibre mieux : MAE=8,5K, SMAPE=75,3%, R²=0,70
Pourquoi le Deep Learning Échoue Ici LSTM/TFT/N-BEATS tous R²<0 — pire que Prophet. Les données de demande ont une structure discrète produit-catégorie que les arbres modélisent parfaitement ; les dépendances séquentielles exploitées par LSTM sont faibles ici.