الأسسمبتدئ

حساب التفاضل والتكامل والتحسين

“من المشتقات إلى الانحدار التدريجي — المحرك الذي يدرّب كل شبكة عصبية”

المشتقات والمشتقات الجزئية وقاعدة السلسلة (الانتشار العكسي) والانحدار التدرجي — ثم Adam والزخم وجدولة معدل التعلم. القصة الكاملة لكيفية تعلم الشبكات العصبية.

45 min

8 مخططات

8 المفاهيم المغطاة

المتطلبات الأساسية

←Linear Algebra

المفاهيم المغطاة

DerivativesChain RuleGradientGradient DescentAdamMomentumLearning RateConvexity

السابق: الجبر الخطي لتعلم الآلة التالي: الاحتمالات والإحصاء

∑الصيغ الرئيسية

التدرج

متجه المشتقات الجزئية — يشير إلى اتجاه أشد صعود

قاعدة السلسلة

العمود الفقري للانتشار الخلفي — تركيب المشتقات عبر الطبقات

الانحدار التدرجي

التحرك بشكل متكرر عكس التدرج لتقليل الخسارة L

تحديث آدم

انحدار تدرجي مع معدلات تعلم تكيفية لكل معامل (العزمات الأولى والثانية المصحَّحة)

▶محاكاة تفاعلية

Loading visualization…

🎯

التحسين هو ما يجعل النماذج تتعلم

motivation

تدريب نموذج التعلم الآلي هو مشكلة تحسين: إيجاد المعاملات θ التي تقلل دالة الخسارة L(θ). الانحدار التدرجي هو الخوارزمية الأساسية التي تحل هذا لمشاكل بملايين المعاملات حيث لا توجد حلول بصيغة مغلقة. قاعدة السلسلة تجعل حساب التدرجات عبر تركيبات عميقة من الدوال ممكناً — هذا هو الانتشار الخلفي.

نموذج GPT يحتوي على ~175 مليار معامل. الانحدار التدرجي يُحدّث جميعها في آنٍ واحد في تمرير خلفي واحد بفضل قاعدة السلسلة.

💡

التدرج كاتجاه في فضاء المعاملات

intuition

تخيل دالة الخسارة كمنظر تلالي وموقعك هو معاملاتك. التدرج ∇L(θ) سهم يشير إلى الأعلى. التحرك في الاتجاه المعاكس (−η∇L) ينزل — نحو خسارة أقل. معدل التعلم η يتحكم في حجم الخطوة: كبير جداً فترتد (التشتت)، صغير جداً فيستغرق التدريب أبداً. يحل Adam هذا بالحفاظ على معدل تعلم منفصل لكل معامل بناءً على تاريخ تدرجاته.

الحدس لقاعدة السلسلة: إذا كان تغيير درجة الحرارة يؤثر على الضغط، والضغط يؤثر على الحجم، فكيف تؤثر درجة الحرارة على الحجم؟ اضرب الحساسيات الفردية.

⚙️

محسِّن آدم — خطوة بخطوة

algorithm

التهيئة: θ، m₀=0 (العزم الأول)، v₀=0 (العزم الثاني)، t=0، β₁=0.9، β₂=0.999، ε=1e-8

حساب التدرج: g_t = ∇_θ L(θ_{t-1})

تحديث العزم الأول المتحيز (الزخم): m_t = β₁·m_{t-1} + (1-β₁)·g_t

تحديث العزم الثاني المتحيز (المقياس التكيفي): v_t = β₂·v_{t-1} + (1-β₂)·g_t²

تصحيح التحيز: m̂_t = m_t/(1-β₁ᵗ)، v̂_t = v_t/(1-β₂ᵗ)

تحديث المعاملات: θ_t = θ_{t-1} - η·m̂_t / (√v̂_t + ε)

الحدس: m̂_t متوسط متحرك للتدرجات (زخم). √v̂_t يُطبّع حسب الحجم — المتغيرات ذات التدرجات الكبيرة تحصل على معدلات تعلم أصغر.

</>

الانحدار التدرجي من الصفر

code

python80 lines

import numpy as np
import matplotlib.pyplot as plt

# ── Numerical derivatives (educational) ──────────────────────────────────────
def numerical_grad(f, x, h=1e-5):
    """Central difference approximation: (f(x+h) - f(x-h)) / 2h"""
    grad = np.zeros_like(x, dtype=float)
    for i in range(len(x)):
        x_plus  = x.copy(); x_plus[i]  += h
        x_minus = x.copy(); x_minus[i] -= h
        grad[i] = (f(x_plus) - f(x_minus)) / (2 * h)
    return grad

# ── 1. Gradient Descent on simple quadratic ───────────────────────────────────
def loss(theta):
    return (theta[0] - 3)**2 + (theta[1] + 1)**2  # minimum at (3,-1)

def grad_loss(theta):
    return np.array([2*(theta[0]-3), 2*(theta[1]+1)])

theta = np.array([0., 0.])
lr = 0.1
history = [theta.copy()]

for step in range(50):
    g = grad_loss(theta)
    theta -= lr * g
    history.append(theta.copy())
    if np.linalg.norm(g) < 1e-6:
        print(f"Converged at step {step}")
        break

print(f"Final θ: {theta.round(4)}")  # ≈ [3, -1]

# ── 2. Adam optimizer ────────────────────────────────────────────────────────
def adam(grad_fn, theta_init, lr=0.01, n_steps=100, b1=0.9, b2=0.999, eps=1e-8):
    theta = theta_init.copy().astype(float)
    m, v = np.zeros_like(theta), np.zeros_like(theta)
    history = [theta.copy()]
    for t in range(1, n_steps+1):
        g = grad_fn(theta)
        m = b1*m + (1-b1)*g
        v = b2*v + (1-b2)*g**2
        m_hat = m / (1 - b1**t)
        v_hat = v / (1 - b2**t)
        theta -= lr * m_hat / (np.sqrt(v_hat) + eps)
        history.append(theta.copy())
    return theta, history

theta_adam, hist_adam = adam(grad_loss, np.array([0., 0.]), lr=0.1)
print(f"Adam θ: {theta_adam.round(4)}")

# ── 3. Chain rule in action (manual backprop) ─────────────────────────────────
# f(x) = (2x + 1)^2. df/dx = 2 * (2x+1) * 2 = 4*(2x+1)
x = 3.0
# Forward pass
u = 2*x + 1    # u = 7
f = u**2       # f = 49

# Backward pass (chain rule)
df_du = 2*u    # = 14
du_dx = 2      # constant
df_dx = df_du * du_dx   # = 28
print(f"df/dx at x=3: {df_dx}")  # analytical: 4*(2*3+1) = 28 ✓

# ── 4. Learning rate sensitivity ─────────────────────────────────────────────
fig, axes = plt.subplots(1, 3, figsize=(12,3))
for ax, lr_val in zip(axes, [0.01, 0.1, 0.9]):
    theta = np.array([0.])
    losses = []
    for _ in range(100):
        g = 2*(theta[0] - 5)
        theta[0] -= lr_val * g
        losses.append((theta[0]-5)**2)
    ax.semilogy(losses)
    ax.set_title(f"lr = {lr_val}")
    ax.set_xlabel("Steps")
    ax.set_ylabel("Loss")
plt.tight_layout()
plt.show()  # lr=0.01: slow, lr=0.1: perfect, lr=0.9: oscillates

⚠️

الحد الأدنى المحلي مقابل نقاط السرج — ما يبطئ التدريب فعلاً

pitfall

في أسطح الخسارة عالية الأبعاد، الحدود الدنيا المحلية الحقيقية نادرة — معظم النقاط 'العالقة' هي نقاط سرج. الانحدار التدرجي مع الضوضاء (SGD) يهرب من نقاط السرج بشكل طبيعي. المشاكل العملية الأكبر هي: (1) انفجار التدرجات في الشبكات العميقة — استخدم قص التدرج. (2) اختفاء التدرجات في الشبكات التكررية — استخدم LSTM/GRU. (3) سوء التكييف — استخدم تطبيع الدُفعات أو تهيئة الأوزان.

للمشاكل المحدبة (الانحدار الخطي، اللوجستي، SVM)، الانحدار التدرجي مضمون للعثور على الحد الأدنى العالمي. للشبكات العصبية، يجد حوضاً 'جيداً بما يكفي'.

?اختبار المعرفة

يتم حفظ التقدم في متصفحك — لا حاجة لحساب.

الجبر الخطي لتعلم الآلة

الاحتمالات والإحصاء

تحتاج مهندس ذكاء اصطناعي أو عالم بيانات؟

أبني نماذج تعلم آلي مخصصة، ووكلاء ذكاء اصطناعي، ورؤية حاسوب، وأتمتة — من الفكرة إلى الإنتاج.

تواصل معي الخدمات