كل المشاريع
سلاسل زمنية

التنبؤ بتفشي كوفيد-19

خط أنابيب بدون تسرب على 188 سجلاً يومياً (يناير-يوليو 2020). الهدف = الحالات اليومية الجديدة (ثابتة). CV Walk-forward TimeSeriesSplit. نموذج SEIR + ARIMA + XGBoost + LSTM + Transformer. يصحح تسرب البيانات التراكمية.

مجموعة البيانات

188 يوماً من بيانات كوفيد-19 العالمية (يناير-يوليو 2020)

المنهجية

دلتا يومي ثابت + CV walk-forward + SEIR + ARIMA + LSTM + Transformer

المكدس التقني
PythonScikit-learnTensorFlowscipy (SEIR)statsmodels
الكلمات المفتاحية
SEIRLSTMTransformerEpidemiologyWalk-forwardARIMATimeSeriesSplit
المرئيات6 مخططات
التعمق

التنبؤ بالحالات اليومية الجديدة لكوفيد-19 مع إصلاحات حيوية لتسرب البيانات الموجود في معظم الحلول المنشورة.

4 إصلاحات حيوية مقارنة بـ v1

المشكلةالإصلاح
ML مدرب على أعداد تراكمية (تسرب)الهدف = الحالات اليومية الجديدة (ثابت)
حضانة SEIR ~يوم واحد (مستحيل بيولوجياً)قيود: حضانة 5-14 يوماً
تقسيم عشوائي (بيانات مستقبلية في التدريب)Walk-forward TimeSeriesSplit CV
Transformers قليل التدريبحقب أكثر + cosine LR

مجموعة البيانات

  • 188 سجلاً يومياً: 2020-01-22 → 2020-07-27
  • الميزات: مؤكد، وفيات، متعافٍ، نشط (إجمالي عالمي)

النماذج المقارنة SEIR (تحسين scipy)، ARIMA، Gradient Boosting، XGBoost (Optuna)، LSTM، Transformer

نموذج SEIR 4 مقسّمات: S→E→I→R. بقيود: β∈[0.1,1.0]، σ∈[1/14,1/5]، γ∈[1/14,1/7].

CV Walk-Forward نافذة توسعية — كل طية تتدرب على جميع البيانات السابقة وتتنبأ بخطوة واحدة للأمام. التقييم الوحيد الصحيح للسلاسل الزمنية.