Tous les Projets
Détection de FraudeEn Vedette
Détection de Fraude sur la Blockchain Ethereum
Détection de fraude blockchain sur 9 841 adresses Ethereum. XGBoost+LightGBM+CatBoost+Stacking avec Optuna HPO (40 essais) et SHAP. AUC 0,9973, F1 0,9658 au seuil optimal 0,85.
0.9973
Stacking AUC
0.9658
F1 Score (Fraud)
0.85
Optimal threshold
0.9992
Optuna best AUC
Jeu de Données
9 841 adresses Ethereum, 51 caractéristiques comportementales on-chain
Approche
Baseline → SMOTE + Optuna HPO + ensemble de stacking + ajustement de seuil
Stack Technique
PythonXGBoostLightGBMCatBoostOptunaSHAPSMOTE (imbalanced-learn)
Mots-clés
XGBoostLightGBMCatBoostSMOTEOptunaSHAPBlockchain
Visualisations6 Graphiques
Analyse Approfondie
Pipeline en deux étapes pour détecter les adresses Ethereum frauduleuses à partir de caractéristiques comportementales on-chain.
Données
- ▸9 841 adresses : 7 662 légitimes (77,9%) + 2 179 fraudes (22,1%)
- ▸51 caractéristiques : patterns ERC20, montants envoyés/reçus, adresses uniques, timing
- ▸829 valeurs manquantes dans les caractéristiques ERC20 → imputation par médiane
Ingénierie des caractéristiques
- ▸Ratio envoi/réception, fréquence des transactions, valeur moyenne par transaction
- ▸Agrégation d'activité ERC20 (tokens uniques, vélocité des transactions)
- ▸Transformations log sur les distributions de montants asymétriques (56 caractéristiques après ingénierie)
Étape 1 — Baseline
| Modèle | AUC | Notes |
|---|---|---|
| Logistic Regression | 0.8419 | Faible sur les patterns comportementaux |
| Random Forest | 0.9973 | Déjà excellent |
Étape 2 — Pipeline avancé
- ▸Surééchantillonnage SMOTE → équilibre 50/50 (11 070 échantillons d'entraînement)
- ▸Optuna HPO — XGBoost, 40 essais → Meilleur CV AUC : 0.9992
- ▸Entraînement XGBoost + LightGBM + CatBoost
- ▸Méta-learner de stacking (Logistic Regression)
- ▸Réglage de seuil → maximiser F1
Résultats finaux
| Modèle | AUC | F1 (Fraude) |
|---|---|---|
| XGBoost | 0.9971 | 0.9659 |
| LightGBM | 0.9972 | 0.9569 |
| CatBoost | 0.9969 | 0.9584 |
| Stacking | 0.9973 | — |
Seuil optimal : 0,85 → F1 : 0,9658
Principaux indicateurs SHAP de fraude Nombre d'envois ERC20, diversité d'adresses uniques, total ether reçu, irrégularité temporelle, diversité de tokens ERC20