الحيل العشر
1. الدقة المختلطة (AMP)
scaler = torch.cuda.amp.GradScaler()
with torch.autocast(device_type='cuda'):
loss = model(x)
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()
التسريع: 1.8-2.5x على وحدات GPU الحديثة
2. Gradient Checkpointing
model.gradient_checkpointing_enable()
الذاكرة: -40%، السرعة: -15% — يستحق العناء للنماذج الكبيرة
3. DataLoader الأمثل
DataLoader(dataset, num_workers=4, pin_memory=True, persistent_workers=True)
4. torch.compile() (PyTorch 2.0+)
model = torch.compile(model)
التسريع: 1.2-2x حسب النموذج