ذكاء اصطناعي طبي

تصنيف سرطان الثدي (ويسكونسن)

معيار 14 نموذجاً على مجموعة بيانات ويسكونسن (569 عينة). Voting Ensemble: 99.12% دقة. CatBoost: AUC 0.9990. Extra Trees: 98.25%. RF + SVM مضبوطان عبر RandomizedSearchCV/GridSearchCV. SHAP: concave_points_worst يهيمن.

عرض على كاغل

99.12%

Voting Ensemble Acc

0.9990

CatBoost AUC-ROC

98.25%

Extra Trees / Tuned SVM

Models benchmarked

مجموعة البيانات

سرطان الثدي ويسكونسن: 569 عينة، 30 ميزة، فئتان

المنهجية

معيار 14 نموذجاً → HPO RandomizedSearchCV/GridSearchCV → تفسيرية SHAP

المكدس التقني

PythonCatBoostXGBoostLightGBMScikit-learnSHAP

الكلمات المفتاحية

CatBoostXGBoostLightGBMSHAPSVMExtra TreesHealthcare

المرئيات6 مخططات

التعمق

خط أنابيب ML شامل لتصنيف ثنائي لسرطان الثدي على مجموعة بيانات ويسكونسن التشخيصية.

مجموعة البيانات

◂569 عينة: 357 حميدة (62.7%) + 212 خبيثة (37.3%)
◂30 ميزة: 10 قياسات × 3 إحصاءات (متوسط، انحراف معياري، الأسوأ)
◂لا قيم مفقودة. تقسيم طبقي 80/20 (455 تدريب / 114 اختبار)
◂6 ميزات مهندَسة: وكلاء الكثافة، نسب الشكل، تطور الأسوأ/المتوسط

معيار 14 نموذجاً الكامل

النموذج	الدقة	AUC-ROC
Naive Bayes	92.11%	0.9891
Decision Tree	92.11%	0.9448
KNN (k=5)	95.61%	0.9823
Gradient Boosting	95.61%	0.9970
LDA	96.49%	0.9970
الانحدار اللوجستي	96.49%	0.9960
XGBoost	96.49%	0.9954
LightGBM	96.49%	0.9970
CatBoost	96.49%	0.9990
AdaBoost	97.37%	0.9861
SVM (RBF)	97.37%	0.9947
Random Forest	97.37%	0.9944
Stacking	97.37%	0.9950
Extra Trees	98.25%	0.9987
SVM مضبوط	98.25%	0.9960
Voting Ensemble	99.12%	0.9950

ضبط المعاملات الفائقة

◂RF (RandomizedSearchCV، 40 تجربة): n_estimators=500، ميزات log2
◂SVM (GridSearchCV): C=10، gamma=0.01، نواة RBF → 98.25%

أبرز مؤشرات الخباثة في SHAP

◂concave_points_worst — المميز الرئيسي
◂perimeter_worst — عدم انتظام الحدود
◂area_worst — حجم أسوأ خلية
◂radius_worst — نصف قطر أكبر خلية

التركيز السريري محسَّن للاسترجاع (الحساسية) — تشخيص فائت لخباثة أخطر بكثير من إيجابي كاذب في الفحص السريري.

العودة إلى المشاريع توظيفي