الأسسمتوسط

نظرية المعلومات

“الإنتروبيا والإنتروبيا المتقاطعة وتباعد KL — الرياضيات وراء سبب عمل دوال الخسارة”

الإنتروبيا وخسارة الإنتروبيا التقاطعية وتباين KL والمعلومات المتبادلة — العمود الرياضي الفقري الذي يُفسر عمل الإنتروبيا التقاطعية دالةً للخسارة وعمل المحولات.

35 min

7 مخططات

7 المفاهيم المغطاة

المتطلبات الأساسية

←Probability & Statistics

المفاهيم المغطاة

EntropyCross-EntropyKL DivergenceMutual InformationInformation GainLog LossBits

السابق: الاحتمالات والإحصاء التالي: الانحدار الخطي واللوجستي

∑الصيغ الرئيسية

الإنتروبيا

متوسط 'المفاجأة' بالبتات — أقصى قيمة عند تساوي الاحتمالات، صفر عند اليقين

خسارة الإنتروبيا التقاطعية

البتات المتوقعة لترميز عينات من p باستخدام رمز مصمم لـ q — خسارة التصنيف

تباين KL

بتات إضافية لترميز p بكود مُحسَّن لـ q. دائماً ≥ 0، يساوي 0 فقط إذا p=q

المعلومات المشتركة

كم يُقلل معرفة Y من الغموض حول X — يُستخدم في اختيار الميزات وتعلم التمثيل

▶محاكاة تفاعلية

Loading visualization…

🎯

لماذا نظرية المعلومات تدعم دوال الخسارة في تعلم الآلة

motivation

عندما تدرب مصنفاً بخسارة الإنتروبيا التقاطعية، تقلل عدد 'البتات' اللازمة للتعبير عن التسميات الحقيقية باستخدام توزيع النموذج المتنبأ به. عندما يقلل VAE الـELBO، حد التنظيم هو تباين KL. عندما تقيس انقسام شجرة القرار بمكسب المعلومات، تحسب تقليص الإنتروبيا. الرابط بنظرية المعلومات ليس صدفة.

الإنتروبيا التقاطعية H(p,q) = الإنتروبيا H(p) + KL(p‖q). بما أن H(p) ثابتة، تقليل الإنتروبيا التقاطعية يساوي تقليل تباين KL من q إلى p.

💡

الإنتروبيا: قياس المفاجأة

intuition

فكر في الإنتروبيا كالمفاجأة المتوسطة في توزيع احتمالي. عملة معدنية متوازنة (50/50) لها إنتروبيا H = 1 بت — تكسب بت واحد بالضبط من المعلومات في كل قلب. عملة متحيزة (99/1) لها إنتروبيا شبه صفرية — نادراً ما تفاجأ. تطبيق التعلم الآلي: تنبؤات النموذج المعاير جيداً على حدود الفئات لها إنتروبيا عالية (غير متأكد)، وتنبؤاته على الأمثلة الواضحة لها إنتروبيا شبه صفرية (واثق).

مبدأ الإنتروبيا الأعظمية: بالنظر إلى القيود، اختر التوزيع الذي يعظم الإنتروبيا. هذا يعطي التوزيع الطبيعي لقيود المتوسط والتباين.

</>

الإنتروبيا، الإنتروبيا التقاطعية وتباين KL عملياً

code

python65 lines

import numpy as np
from scipy.special import xlogy    # handles 0 * log(0) = 0 safely
from scipy.stats import entropy as scipy_entropy
import matplotlib.pyplot as plt

def entropy(p: np.ndarray, base: float = 2) -> float:
    """Shannon entropy H(p) in bits (base=2) or nats (base=e)"""
    p = np.asarray(p, dtype=float)
    p = p[p > 0]                  # 0 * log(0) = 0 by convention
    return -np.sum(p * np.log(p) / np.log(base))

def cross_entropy(p: np.ndarray, q: np.ndarray, eps: float = 1e-12) -> float:
    """H(p, q) = -sum p * log(q)"""
    p, q = np.asarray(p, dtype=float), np.asarray(q, dtype=float)
    return -np.sum(p * np.log(q + eps))

def kl_divergence(p: np.ndarray, q: np.ndarray, eps: float = 1e-12) -> float:
    """KL(p||q) — NOT symmetric"""
    p, q = np.asarray(p, dtype=float), np.asarray(q, dtype=float)
    mask = p > 0
    return np.sum(p[mask] * np.log((p[mask] + eps) / (q[mask] + eps)))

# ── 1. Entropy of various distributions ──────────────────────────────────────
print("Entropy examples (bits):")
print(f"  Fair coin [0.5, 0.5]:        {entropy([0.5, 0.5]):.4f}")  # 1.0 bit
print(f"  Biased coin [0.99, 0.01]:    {entropy([0.99, 0.01]):.4f}")  # ≈ 0.08 bits
print(f"  Uniform 8 classes:           {entropy([1/8]*8):.4f}")  # 3.0 bits
print(f"  Certain [1.0, 0.0]:          {entropy([1.0, 0.0]):.4f}")  # 0.0 bits

# ── 2. Cross-entropy loss (classification) ────────────────────────────────────
# Ground truth (one-hot): cat
p_true = np.array([1., 0., 0.])       # cat
# Model predictions:
q_good = np.array([0.8, 0.1, 0.1])   # confident & correct
q_bad  = np.array([0.1, 0.8, 0.1])   # confident & wrong
q_uncertain = np.array([0.4, 0.3, 0.3])  # uncertain & correct lean

print("\nCross-entropy losses:")
print(f"  Good prediction:    {cross_entropy(p_true, q_good):.4f}")   # low
print(f"  Bad prediction:     {cross_entropy(p_true, q_bad):.4f}")    # high
print(f"  Uncertain but ok:   {cross_entropy(p_true, q_uncertain):.4f}")

# H(p,q) = H(p) + KL(p||q). Since H(p)=0 for one-hot: CE = KL(p||q)
print(f"  KL(p_true||q_good) = {kl_divergence(p_true, q_good):.4f}")

# ── 3. KL divergence: asymmetry ───────────────────────────────────────────────
p = np.array([0.6, 0.3, 0.1])
q = np.array([0.3, 0.5, 0.2])
print(f"\nKL(p||q) = {kl_divergence(p,q):.4f}")
print(f"KL(q||p) = {kl_divergence(q,p):.4f}")  # different — not a distance

# ── 4. Information gain in decision trees ─────────────────────────────────────
def information_gain(parent, left, right):
    n = len(parent)
    n_l, n_r = len(left), len(right)
    h_p = scipy_entropy(np.bincount(parent) / n, base=2)
    h_l = scipy_entropy(np.bincount(left)   / n_l, base=2) if n_l > 0 else 0
    h_r = scipy_entropy(np.bincount(right)  / n_r, base=2) if n_r > 0 else 0
    return h_p - (n_l/n * h_l + n_r/n * h_r)

# 10 samples: 6 class-0, 4 class-1. Split: left=[0,0,0,0,1], right=[0,0,1,1,1]
parent = np.array([0,0,0,0,0,0,1,1,1,1])
left   = np.array([0,0,0,0,1])
right  = np.array([0,0,1,1,1])
print(f"\nInformation gain: {information_gain(parent, left, right):.4f} bits")

🔭

تباين KL في تعلم الآلة الحديث

insight

يظهر تباين KL في كل مكان في التعلم الآلي الحديث: (1) خسارة VAE = خسارة إعادة البناء + KL(q(z|x) ‖ p(z)). (2) RL السياسة — TRPO/PPO تقيد KL بين السياسة القديمة والجديدة. (3) تقطير المعرفة — تقليل KL بين مخرجات الطالب والمعلم. (4) RLHF — عقوبة KL تمنع النموذج من الانحراف بعيداً عن النموذج الأساسي.

KL الأمامي (تغطية الأوضاع) مقابل KL العكسي (البحث عن الأوضاع) خيار تصميم أساسي في النماذج التوليدية — تستخدم VAEs الأمامي، وتستخدم GANs العكسي ضمنياً.

?اختبار المعرفة

يتم حفظ التقدم في متصفحك — لا حاجة لحساب.

الاحتمالات والإحصاء

الانحدار الخطي واللوجستي

تحتاج مهندس ذكاء اصطناعي أو عالم بيانات؟

أبني نماذج تعلم آلي مخصصة، ووكلاء ذكاء اصطناعي، ورؤية حاسوب، وأتمتة — من الفكرة إلى الإنتاج.

تواصل معي الخدمات