Les 15 techniques
1. Target encoding (avec lissage)
smoothed = (count * category_mean + global_mean * smoothing) / (count + smoothing)
2. Frequency encoding
Remplacez la valeur catégorielle par sa fréquence dans l'ensemble d'entraînement.
3. Caractéristiques de décalage (lag)
Pour les séries temporelles : valeurs lag-1, lag-7, lag-30 de la cible.
4. Statistiques glissantes
Moyenne, écart-type, min, max sur des fenêtres glissantes.
5. Termes d'interaction
Multipliez ou divisez deux caractéristiques numériques ayant un sens métier.
6. Composants de date
Extrayez année, mois, jour, heure, jour de semaine, trimestre, is_weekend.
7. Caractéristiques de rang
Classement au sein d'un groupe — utile pour normaliser l'échelle.
8. Caractéristiques d'agrégation
Groupez par entité (utilisateur, carte, magasin) et calculez des statistiques.