تطبيقيمتوسط

أهمية الميزات والاختيار

“اعرف الميزات التي يعتمد عليها نموذجك فعلاً — ثم ثق به أكثر (أو أقل)”

أهمية التبديل مقابل أهمية عدم النقاء ونسب SHAP الموحدة — كيف تُفسر نموذجك وتكتشف أي الميزات تُحدث فعلاً فارقاً في التنبؤات.

35 min

6 مخططات

6 المفاهيم المغطاة

المتطلبات الأساسية

←Random Forest

←Gradient Boosting

المفاهيم المغطاة

Permutation ImportanceGini ImportanceSHAPDrop-ColumnFeature SelectionCorrelation Bias

السابق: ضبط المعاملات الفائقة التالي: الاعتماد الجزئي ومنحنيات ICE

∑الصيغ الرئيسية

أهمية التبديل

انخفاض الدقة عند خلط الميزة j عشوائياً — مستقل عن النموذج، يعمل بعد التدريب

أهمية شوائب جيني

تناقص الشوائب الموزون عبر جميع تقسيمات الميزة j — سريع لكن متحيز نحو الأساس

SHAP (النواة)

قيمة Shapley: المساهمة الهامشية المتوسطة لكل ميزة عبر جميع تحالفات الميزات

أهمية حذف العمود

المعيار الذهبي لكنه مكلف — إعادة تدريب مرة واحدة لكل ميزة

▶محاكاة تفاعلية

Loading visualization…

🎯

لماذا أهمية الميزات غير قابلة للتفاوض

motivation

نماذج التعلم الآلي غالباً ما تكون صناديق سوداء — تنتج مخرجات لكنها تخفي منطقها. تكشف أساليب أهمية الميزات عن هذا الغموض. تجيب على: ما المدخلات التي يعتمد عليها النموذج أكثر؟ يهم هذا لثلاثة أسباب: (1) التصحيح: إذا كان نموذجك يعتمد بشدة على 'bruit_aléatoire' فلديك مشكلة تسرب بيانات. (2) الثقة: يجب أن يفهم المنظمون والأطباء ومسؤولو الائتمان قرارات النموذج — تفرض المادة 22 من GDPR قابلية التفسير للقرارات الآلية. (3) اختيار الميزات: تُوجّه درجات الأهمية تخفيض الأبعاد. حذف الميزات غير المهمة يقلل تكلفة الاستدلال ويمنع الإفراط في التخصيص.

نموذج تسجيل الائتمان الذي يعتمد بشدة على الرمز_البريدي قد يبدو عادلاً على بيانات التدريب لكنه يُعدّ وكيلاً للعرق — تحليل الأهمية يكشف ذلك قبل النشر.

💡

فلسفتان: ماذا يعني 'المهم'؟

intuition

هناك مدرستان أساسيتان: (أ) الأهمية البنيوية تسأل «كم ساعدت هذه الميزة في بناء النموذج؟» — أهمية شوائب الأشجار هي المثال النموذجي، تُحسب من إحصاءات التقسيم خلال التدريب. إنها سريعة لكن لديها تحيز معروف: تُضخّم أهمية الميزات ذات الأساس الكبير كالرمز_البريدي. (ب) الأهمية الوظيفية تسأل «كم تتدهور تنبؤات النموذج إذا كسرت هذه الميزة؟» — تخلط أهمية التبديل كل ميزة باستقلالية وتقيس الانخفاض في الدقة. إنها مستقلة عن النموذج وتُسند أهمية قريبة من الصفر للميزات العشوائية. غالباً ما يختلف المقربتان — وهذا الاختلاف مفيد.

إذا قالت أهمية الشوائب أن الرمز_البريدي مهم لكن أهمية التبديل تقول شبه صفر، فالنموذج تعلّم ارتباطات زائفة من الأساس بدلاً من الإشارة.

⚙️

أهمية التبديل: خطوة بخطوة

algorithm

درّب نموذجك على (X_train, y_train). احسب المقياس الأساسي (مثل الدقة) على X_val.

لكل ميزة j في {1، …، p}: اخلط العمود j في X_val (استبدله بتبديل عشوائي)، احسب المقياس على البيانات المخلوطة، أعد العمود j.

أهمية j = المقياس الأساسي − المقياس المخلوط. انخفاض كبير = ميزة مهمة.

كرر K مرات (افتراضياً K=5 في sklearn) وحسب المتوسط لتقليل التباين من الخلطات العشوائية.

رتّب الميزات حسب درجة الأهمية. الميزات ذات الدرجات السالبة (يتحسن النموذج عند خلطها) تشير إلى ميزات ضارة أو مسرِّبة للبيانات.

</>

أهمية الميزات: التبديل والشوائب

code

python66 lines

from sklearn.ensemble import RandomForestClassifier
from sklearn.inspection import permutation_importance
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np

# ── Synthetic tabular dataset ──────────────────────────────────────────────────
np.random.seed(42)
n = 1000
X = pd.DataFrame({
    "income":         np.random.normal(50, 15, n),
    "age":            np.random.randint(18, 70, n),
    "credit_score":   np.random.normal(650, 80, n),
    "loan_amount":    np.random.normal(20, 8, n),
    "employment_yrs": np.random.exponential(5, n),
    "num_accounts":   np.random.poisson(3, n),
    "random_noise":   np.random.randn(n),           # truly useless
    "zip_code":       np.random.randint(0, 10000, n), # high-cardinality noise
})
y = (
    0.4 * (X["income"] > 55)
    + 0.3 * (X["credit_score"] > 660)
    + 0.2 * (X["age"] > 35)
    + 0.1 * np.random.rand(n)
) > 0.5

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# ── 1. Train Random Forest ─────────────────────────────────────────────────────
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

# ── 2. Impurity (Gini) importance — fast, built-in ────────────────────────────
impurity_imp = pd.Series(rf.feature_importances_, index=X.columns)
print("Impurity importance:")
print(impurity_imp.sort_values(ascending=False).round(3))
# WARNING: zip_code (high cardinality) may appear inflated here

# ── 3. Permutation importance — model-agnostic, honest ───────────────────────
perm = permutation_importance(
    rf, X_val, y_val,
    n_repeats=10,          # shuffle 10 times, take mean ± std
    scoring="accuracy",
    random_state=42,
    n_jobs=-1
)
perm_imp = pd.DataFrame({
    "mean": perm.importances_mean,
    "std":  perm.importances_std,
}, index=X.columns).sort_values("mean", ascending=False)

print("\nPermutation importance:")
print(perm_imp.round(3))
# random_noise and zip_code will be near zero or negative

# ── 4. Compare the two methods ────────────────────────────────────────────────
comparison = pd.DataFrame({
    "impurity": impurity_imp,
    "permutation": perm.importances_mean,
}).sort_values("permutation", ascending=False)
print("\nComparison (sorted by permutation):")
print(comparison.round(3))

# ── 5. Feature selection using permutation importance ────────────────────────
selected = perm_imp[perm_imp["mean"] > 0.01].index.tolist()
print(f"\nSelected features ({len(selected)}): {selected}")

∑

SHAP: إسناد الميزات الموحد

math

تُوحّد SHAP (SHapley Additive exPlanations) تقنيات LIME وأهمية الميزات وآليات الانتباه تحت إطار بديهي واحد. يُحلَّل كل تنبؤ إلى مجموع مساهمات لكل ميزة (ϕ_j) زائد قيمة أساسية. بخلاف أهمية التبديل الإجمالية، تعمل SHAP محلياً — تشرح التنبؤات الفردية. تحسب TreeSHAP قيم Shapley الدقيقة لمجموعات الأشجار في وقت متعدد الحدود باستخدام خوارزمية مبنية على المسارات، مما يجعلها عملية للغابات العشوائية وXGBoost في الإنتاج.

⚠️

الميزات المرتبطة تقسم الأهمية بشكل غير عادل

pitfall

عندما تكون ميزتان مرتبطتان ارتباطاً وثيقاً (مثل الدخل ودرجة الائتمان)، تُقلّل أهمية التبديل من تقدير كلتيهما. خلط الدخل يترك درجة الائتمان سليمة، فيسترد النموذج معظم الإشارة. الأهمية المشتركة الحقيقية مقسّمة بينهما لكن كل أهمية فردية تبدو صغيرة. الحل: استخدم أهمية حذف العمود أو SHAP مع التجميع الواعي بالارتباطات. انتبه أيضاً أن أهمية التبديل تعتمد على مجموعة التحقق — تتغير الدرجات مع تقسيمات مختلفة.

لا تفسّر أبداً أهمية التبديل شبه الصفرية على أنها 'عديمة الفائدة' للميزات المرتبطة دون التحقق أولاً من الارتباطات الزوجية.

?اختبار المعرفة

يتم حفظ التقدم في متصفحك — لا حاجة لحساب.

ضبط المعاملات الفائقة

الاعتماد الجزئي ومنحنيات ICE

تحتاج مهندس ذكاء اصطناعي أو عالم بيانات؟

أبني نماذج تعلم آلي مخصصة، ووكلاء ذكاء اصطناعي، ورؤية حاسوب، وأتمتة — من الفكرة إلى الإنتاج.

تواصل معي الخدمات