Tous les Projets
IA Médicale
Classification du Cancer du Sein (Wisconsin)
Benchmark de 14 modèles sur le dataset Wisconsin (569 échantillons). Voting Ensemble : 99,12% de précision. CatBoost : AUC 0,9990. Extra Trees : 98,25%. RF + SVM ajustés via RandomizedSearchCV/GridSearchCV. SHAP : concave_points_worst domine.
99.12%
Voting Ensemble Acc
0.9990
CatBoost AUC-ROC
98.25%
Extra Trees / Tuned SVM
14
Models benchmarked
Jeu de Données
Cancer du sein Wisconsin : 569 échantillons, 30 caractéristiques, 2 classes
Approche
Benchmark de 14 modèles → HPO RandomizedSearchCV/GridSearchCV → interprétabilité SHAP
Stack Technique
PythonCatBoostXGBoostLightGBMScikit-learnSHAP
Mots-clés
CatBoostXGBoostLightGBMSHAPSVMExtra TreesHealthcare
Visualisations6 Graphiques
Analyse Approfondie
Pipeline ML complet pour la classification binaire du cancer du sein sur le dataset Wisconsin Diagnostic.
Jeu de données
- ▸569 échantillons : 357 bénins (62,7%) + 212 malins (37,3%)
- ▸30 features : 10 mesures × 3 statistiques (moyenne, ET, pire)
- ▸Aucune valeur manquante. Découpage stratifié 80/20 (455 entraînement / 114 test)
- ▸6 features engineerées : proxies de densité, ratios de forme, progression pire/moyenne
Benchmark Complet 14 Modèles
| Modèle | Précision | AUC-ROC |
|---|---|---|
| Naïve Bayes | 92,11% | 0,9891 |
| Decision Tree | 92,11% | 0,9448 |
| KNN (k=5) | 95,61% | 0,9823 |
| Gradient Boosting | 95,61% | 0,9970 |
| LDA | 96,49% | 0,9970 |
| Régression Logistique | 96,49% | 0,9960 |
| XGBoost | 96,49% | 0,9954 |
| LightGBM | 96,49% | 0,9970 |
| CatBoost | 96,49% | 0,9990 |
| AdaBoost | 97,37% | 0,9861 |
| SVM (RBF) | 97,37% | 0,9947 |
| Random Forest | 97,37% | 0,9944 |
| Stacking | 97,37% | 0,9950 |
| Extra Trees | 98,25% | 0,9987 |
| SVM ajusté | 98,25% | 0,9960 |
| Voting Ensemble | 99,12% | 0,9950 |
Réglage des Hyperparamètres
- ▸RF (RandomizedSearchCV, 40 essais) : n_estimators=500, features log2
- ▸SVM (GridSearchCV) : C=10, gamma=0,01, noyau RBF → 98,25%
Top Indicateurs SHAP de Malignité
- ▸
concave_points_worst— discriminateur dominant - ▸
perimeter_worst— irrégularité des contours - ▸
area_worst— taille de la pire cellule - ▸
radius_worst— rayon de la plus grande cellule
Focus Clinique Optimisé pour le rappel — un diagnostic malin manqué est bien plus dangereux qu'un faux positif en dépistage clinique.