Tous les Projets
IA Médicale

Classification du Cancer du Sein (Wisconsin)

Benchmark de 14 modèles sur le dataset Wisconsin (569 échantillons). Voting Ensemble : 99,12% de précision. CatBoost : AUC 0,9990. Extra Trees : 98,25%. RF + SVM ajustés via RandomizedSearchCV/GridSearchCV. SHAP : concave_points_worst domine.

99.12%
Voting Ensemble Acc
0.9990
CatBoost AUC-ROC
98.25%
Extra Trees / Tuned SVM
14
Models benchmarked
Jeu de Données

Cancer du sein Wisconsin : 569 échantillons, 30 caractéristiques, 2 classes

Approche

Benchmark de 14 modèles → HPO RandomizedSearchCV/GridSearchCV → interprétabilité SHAP

Stack Technique
PythonCatBoostXGBoostLightGBMScikit-learnSHAP
Mots-clés
CatBoostXGBoostLightGBMSHAPSVMExtra TreesHealthcare
Visualisations6 Graphiques
Analyse Approfondie

Pipeline ML complet pour la classification binaire du cancer du sein sur le dataset Wisconsin Diagnostic.

Jeu de données

  • 569 échantillons : 357 bénins (62,7%) + 212 malins (37,3%)
  • 30 features : 10 mesures × 3 statistiques (moyenne, ET, pire)
  • Aucune valeur manquante. Découpage stratifié 80/20 (455 entraînement / 114 test)
  • 6 features engineerées : proxies de densité, ratios de forme, progression pire/moyenne

Benchmark Complet 14 Modèles

ModèlePrécisionAUC-ROC
Naïve Bayes92,11%0,9891
Decision Tree92,11%0,9448
KNN (k=5)95,61%0,9823
Gradient Boosting95,61%0,9970
LDA96,49%0,9970
Régression Logistique96,49%0,9960
XGBoost96,49%0,9954
LightGBM96,49%0,9970
CatBoost96,49%0,9990
AdaBoost97,37%0,9861
SVM (RBF)97,37%0,9947
Random Forest97,37%0,9944
Stacking97,37%0,9950
Extra Trees98,25%0,9987
SVM ajusté98,25%0,9960
Voting Ensemble99,12%0,9950

Réglage des Hyperparamètres

  • RF (RandomizedSearchCV, 40 essais) : n_estimators=500, features log2
  • SVM (GridSearchCV) : C=10, gamma=0,01, noyau RBF → 98,25%

Top Indicateurs SHAP de Malignité

  1. concave_points_worst — discriminateur dominant
  2. perimeter_worst — irrégularité des contours
  3. area_worst — taille de la pire cellule
  4. radius_worst — rayon de la plus grande cellule

Focus Clinique Optimisé pour le rappel — un diagnostic malin manqué est bien plus dangereux qu'un faux positif en dépistage clinique.