كل المشاريع
ذكاء اصطناعي طبي

تصنيف سرطان الثدي (ويسكونسن)

معيار 14 نموذجاً على مجموعة بيانات ويسكونسن (569 عينة). Voting Ensemble: 99.12% دقة. CatBoost: AUC 0.9990. Extra Trees: 98.25%. RF + SVM مضبوطان عبر RandomizedSearchCV/GridSearchCV. SHAP: concave_points_worst يهيمن.

99.12%
Voting Ensemble Acc
0.9990
CatBoost AUC-ROC
98.25%
Extra Trees / Tuned SVM
14
Models benchmarked
مجموعة البيانات

سرطان الثدي ويسكونسن: 569 عينة، 30 ميزة، فئتان

المنهجية

معيار 14 نموذجاً → HPO RandomizedSearchCV/GridSearchCV → تفسيرية SHAP

المكدس التقني
PythonCatBoostXGBoostLightGBMScikit-learnSHAP
الكلمات المفتاحية
CatBoostXGBoostLightGBMSHAPSVMExtra TreesHealthcare
المرئيات6 مخططات
التعمق

خط أنابيب ML شامل لتصنيف ثنائي لسرطان الثدي على مجموعة بيانات ويسكونسن التشخيصية.

مجموعة البيانات

  • 569 عينة: 357 حميدة (62.7%) + 212 خبيثة (37.3%)
  • 30 ميزة: 10 قياسات × 3 إحصاءات (متوسط، انحراف معياري، الأسوأ)
  • لا قيم مفقودة. تقسيم طبقي 80/20 (455 تدريب / 114 اختبار)
  • 6 ميزات مهندَسة: وكلاء الكثافة، نسب الشكل، تطور الأسوأ/المتوسط

معيار 14 نموذجاً الكامل

النموذجالدقةAUC-ROC
Naive Bayes92.11%0.9891
Decision Tree92.11%0.9448
KNN (k=5)95.61%0.9823
Gradient Boosting95.61%0.9970
LDA96.49%0.9970
الانحدار اللوجستي96.49%0.9960
XGBoost96.49%0.9954
LightGBM96.49%0.9970
CatBoost96.49%0.9990
AdaBoost97.37%0.9861
SVM (RBF)97.37%0.9947
Random Forest97.37%0.9944
Stacking97.37%0.9950
Extra Trees98.25%0.9987
SVM مضبوط98.25%0.9960
Voting Ensemble99.12%0.9950

ضبط المعاملات الفائقة

  • RF (RandomizedSearchCV، 40 تجربة): n_estimators=500، ميزات log2
  • SVM (GridSearchCV): C=10، gamma=0.01، نواة RBF → 98.25%

أبرز مؤشرات الخباثة في SHAP

  1. concave_points_worst — المميز الرئيسي
  2. perimeter_worst — عدم انتظام الحدود
  3. area_worst — حجم أسوأ خلية
  4. radius_worst — نصف قطر أكبر خلية

التركيز السريري محسَّن للاسترجاع (الحساسية) — تشخيص فائت لخباثة أخطر بكثير من إيجابي كاذب في الفحص السريري.