ترجمة آلية عصبية من الإنجليزية إلى الفرنسية
ترجمة آلية عصبية فعّالة في الذاكرة على مجموعة بيانات 6 جيجابايت دون تعطل RAM. Seq2Seq مخصص + ضبط دقيق لـ HuggingFace mBART/Helsinki-NLP. إصلاح 5 أخطاء حرجة (GradientTape، تجاوز tokenizer، API منتهية الصلاحية).
مجموعة بيانات موازية إنجليزي-فرنسي بحجم 6 جيجابايت
تحميل مجزأ موفر للذاكرة + Seq2Seq أساسي مخصص + ضبط دقيق لنماذج HuggingFace المدربة مسبقاً
ترجمة آلية عصبية موفرة للذاكرة تتعامل مع مجموعة بيانات موازية بحجم 6 جيجابايت ضمن حد ذاكرة 33 جيجابايت في كاغل دون تعطل.
استراتيجية الذاكرة قراءة مجزأة → أخذ عينات → حذف البيانات الخام → تدريب على مجموعة فرعية → مسح بين النماذج.
5 أخطاء حرجة تم إصلاحها
| الخطأ | السبب الجذري | الإصلاح المطبق |
|---|---|---|
| تعطل الأوزان الصفرية | GradientTape مستهلك مرتين | إعادة هيكلة نطاق tape |
| TypeError عند الاستدعاء | Encoder/Decoder.call() يفتقد إلى وسيط training= | إضافة الـ kwarg الصريح |
| AttributeError | as_target_tokenizer() محذوف في transformers≥4.36 | استخدام API context manager |
| وسيط منتهي الصلاحية | evaluation_strategy أُعيد تسميته إلى eval_strategy | تحديث اسم الوسيط |
| تجاوز العدد الصحيح | مصفوفة int16 في المُجزئ تجاوزت القيمة القصوى | التحويل إلى int32 |
النماذج المنفذة
| النموذج | الإطار | الأسلوب |
|---|---|---|
| Seq2Seq مخصص | TF 2.19 | LSTM مشفر-فك تشفير + انتباه Bahdanau |
| mBART | PyTorch 2.9 | ضبط دقيق لـ facebook/mbart-large-cc25 |
| Helsinki-NLP | PyTorch 2.9 | ضبط دقيق لـ opus-mt-en-fr |
| MarianMT | PyTorch 2.9 | استراتيجية MarianMT البديلة |
رؤية رئيسية النماذج متعددة اللغات المدربة مسبقاً (mBART المدرب على 25 لغة) تتفوق بشكل كبير على Seq2Seq من الصفر. خط الأساس LSTM يتحقق من بنية خط الأنابيب؛ النماذج المدربة مسبقاً تُظهر فجوة نقل التعلم.