Tous les Projets
Détection de FraudeEn Vedette

Détection de Fraude sur la Blockchain Ethereum

Détection de fraude blockchain sur 9 841 adresses Ethereum. XGBoost+LightGBM+CatBoost+Stacking avec Optuna HPO (40 essais) et SHAP. AUC 0,9973, F1 0,9658 au seuil optimal 0,85.

0.9973
Stacking AUC
0.9658
F1 Score (Fraud)
0.85
Optimal threshold
0.9992
Optuna best AUC
Jeu de Données

9 841 adresses Ethereum, 51 caractéristiques comportementales on-chain

Approche

Baseline → SMOTE + Optuna HPO + ensemble de stacking + ajustement de seuil

Stack Technique
PythonXGBoostLightGBMCatBoostOptunaSHAPSMOTE (imbalanced-learn)
Mots-clés
XGBoostLightGBMCatBoostSMOTEOptunaSHAPBlockchain
Visualisations6 Graphiques
Analyse Approfondie

Pipeline en deux étapes pour détecter les adresses Ethereum frauduleuses à partir de caractéristiques comportementales on-chain.

Données

  • 9 841 adresses : 7 662 légitimes (77,9%) + 2 179 fraudes (22,1%)
  • 51 caractéristiques : patterns ERC20, montants envoyés/reçus, adresses uniques, timing
  • 829 valeurs manquantes dans les caractéristiques ERC20 → imputation par médiane

Ingénierie des caractéristiques

  • Ratio envoi/réception, fréquence des transactions, valeur moyenne par transaction
  • Agrégation d'activité ERC20 (tokens uniques, vélocité des transactions)
  • Transformations log sur les distributions de montants asymétriques (56 caractéristiques après ingénierie)

Étape 1 — Baseline

ModèleAUCNotes
Logistic Regression0.8419Faible sur les patterns comportementaux
Random Forest0.9973Déjà excellent

Étape 2 — Pipeline avancé

  1. Surééchantillonnage SMOTE → équilibre 50/50 (11 070 échantillons d'entraînement)
  2. Optuna HPO — XGBoost, 40 essais → Meilleur CV AUC : 0.9992
  3. Entraînement XGBoost + LightGBM + CatBoost
  4. Méta-learner de stacking (Logistic Regression)
  5. Réglage de seuil → maximiser F1

Résultats finaux

ModèleAUCF1 (Fraude)
XGBoost0.99710.9659
LightGBM0.99720.9569
CatBoost0.99690.9584
Stacking0.9973

Seuil optimal : 0,85 → F1 : 0,9658

Principaux indicateurs SHAP de fraude Nombre d'envois ERC20, diversité d'adresses uniques, total ether reçu, irrégularité temporelle, diversité de tokens ERC20