كل المشاريع
معالجة اللغات⭐ مميز

ترجمة آلية عصبية من الإنجليزية إلى الفرنسية

ترجمة آلية عصبية فعّالة في الذاكرة على مجموعة بيانات 6 جيجابايت دون تعطل RAM. Seq2Seq مخصص + ضبط دقيق لـ HuggingFace mBART/Helsinki-NLP. إصلاح 5 أخطاء حرجة (GradientTape، تجاوز tokenizer، API منتهية الصلاحية).

مجموعة البيانات

مجموعة بيانات موازية إنجليزي-فرنسي بحجم 6 جيجابايت

المنهجية

تحميل مجزأ موفر للذاكرة + Seq2Seq أساسي مخصص + ضبط دقيق لنماذج HuggingFace المدربة مسبقاً

المكدس التقني
PythonTensorFlow 2.19PyTorch 2.9HuggingFace Transformers 4.36+mBART
الكلمات المفتاحية
Seq2SeqmBARTMarianMTHuggingFaceNMTTensorFlowPyTorch
المرئيات4 مخططات
التعمق

ترجمة آلية عصبية موفرة للذاكرة تتعامل مع مجموعة بيانات موازية بحجم 6 جيجابايت ضمن حد ذاكرة 33 جيجابايت في كاغل دون تعطل.

استراتيجية الذاكرة قراءة مجزأة → أخذ عينات → حذف البيانات الخام → تدريب على مجموعة فرعية → مسح بين النماذج.

5 أخطاء حرجة تم إصلاحها

الخطأالسبب الجذريالإصلاح المطبق
تعطل الأوزان الصفريةGradientTape مستهلك مرتينإعادة هيكلة نطاق tape
TypeError عند الاستدعاءEncoder/Decoder.call() يفتقد إلى وسيط training=إضافة الـ kwarg الصريح
AttributeErroras_target_tokenizer() محذوف في transformers≥4.36استخدام API context manager
وسيط منتهي الصلاحيةevaluation_strategy أُعيد تسميته إلى eval_strategyتحديث اسم الوسيط
تجاوز العدد الصحيحمصفوفة int16 في المُجزئ تجاوزت القيمة القصوىالتحويل إلى int32

النماذج المنفذة

النموذجالإطارالأسلوب
Seq2Seq مخصصTF 2.19LSTM مشفر-فك تشفير + انتباه Bahdanau
mBARTPyTorch 2.9ضبط دقيق لـ facebook/mbart-large-cc25
Helsinki-NLPPyTorch 2.9ضبط دقيق لـ opus-mt-en-fr
MarianMTPyTorch 2.9استراتيجية MarianMT البديلة

رؤية رئيسية النماذج متعددة اللغات المدربة مسبقاً (mBART المدرب على 25 لغة) تتفوق بشكل كبير على Seq2Seq من الصفر. خط الأساس LSTM يتحقق من بنية خط الأنابيب؛ النماذج المدربة مسبقاً تُظهر فجوة نقل التعلم.