التنبؤ بتفشي كوفيد-19
خط أنابيب بدون تسرب على 188 سجلاً يومياً (يناير-يوليو 2020). الهدف = الحالات اليومية الجديدة (ثابتة). CV Walk-forward TimeSeriesSplit. نموذج SEIR + ARIMA + XGBoost + LSTM + Transformer. يصحح تسرب البيانات التراكمية.
188 يوماً من بيانات كوفيد-19 العالمية (يناير-يوليو 2020)
دلتا يومي ثابت + CV walk-forward + SEIR + ARIMA + LSTM + Transformer
التنبؤ بالحالات اليومية الجديدة لكوفيد-19 مع إصلاحات حيوية لتسرب البيانات الموجود في معظم الحلول المنشورة.
4 إصلاحات حيوية مقارنة بـ v1
| المشكلة | الإصلاح |
|---|---|
| ML مدرب على أعداد تراكمية (تسرب) | الهدف = الحالات اليومية الجديدة (ثابت) |
| حضانة SEIR ~يوم واحد (مستحيل بيولوجياً) | قيود: حضانة 5-14 يوماً |
| تقسيم عشوائي (بيانات مستقبلية في التدريب) | Walk-forward TimeSeriesSplit CV |
| Transformers قليل التدريب | حقب أكثر + cosine LR |
مجموعة البيانات
- ◂188 سجلاً يومياً: 2020-01-22 → 2020-07-27
- ◂الميزات: مؤكد، وفيات، متعافٍ، نشط (إجمالي عالمي)
النماذج المقارنة SEIR (تحسين scipy)، ARIMA، Gradient Boosting، XGBoost (Optuna)، LSTM، Transformer
نموذج SEIR 4 مقسّمات: S→E→I→R. بقيود: β∈[0.1,1.0]، σ∈[1/14,1/5]، γ∈[1/14,1/7].
CV Walk-Forward نافذة توسعية — كل طية تتدرب على جميع البيانات السابقة وتتنبأ بخطوة واحدة للأمام. التقييم الوحيد الصحيح للسلاسل الزمنية.