Retour au Blog
Machine Learning 5 mars 2025 10 min de lecture

Playbook de Feature Engineering pour les compétitions ML tabulaires

Les 15 techniques de feature engineering que j'utilise dans chaque compétition Kaggle tabulaire.

Les 15 techniques

1. Target encoding (avec lissage)

smoothed = (count * category_mean + global_mean * smoothing) / (count + smoothing)

2. Frequency encoding

Remplacez la valeur catégorielle par sa fréquence dans l'ensemble d'entraînement.

3. Caractéristiques de décalage (lag)

Pour les séries temporelles : valeurs lag-1, lag-7, lag-30 de la cible.

4. Statistiques glissantes

Moyenne, écart-type, min, max sur des fenêtres glissantes.

5. Termes d'interaction

Multipliez ou divisez deux caractéristiques numériques ayant un sens métier.

6. Composants de date

Extrayez année, mois, jour, heure, jour de semaine, trimestre, is_weekend.

7. Caractéristiques de rang

Classement au sein d'un groupe — utile pour normaliser l'échelle.

8. Caractéristiques d'agrégation

Groupez par entité (utilisateur, carte, magasin) et calculez des statistiques.

9-15. La suite dans l'article complet...

Feature EngineeringTabular DataKaggleTarget EncodingCompetition
O

Ossama Elhakki

Ingénieur IA & Systèmes ML — Maroc