العودة إلى المدونة
NLP 8 مارس 2025 6 min للقراءة

نماذج تضمين النص في 2025: أيها تستخدم لـ RAG؟

معيار قياس نماذج التضمين من OpenAI و Cohere و E5 و BGE و Jina على مهام الاسترجاع.

نتائج معيار MTEB (2025)

النموذجمتوسط الدرجةالأبعادالتكلفة
text-embedding-3-large64.63072$0.13/M tokens
Cohere embed-v364.51024$0.10/M tokens
BGE-M363.81024مجاني
E5-mistral-7b66.64096مجاني
Jina-embeddings-v365.21024مجاني

للغات المتعددة (AR/FR/EN)

يوفّر BGE-M3 وJina-v3 أفضل تغطية متعددة اللغات بتكلفة صفرية.

مكدّسي

# Free, local, multilingual
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('BAAI/bge-m3')
embeddings = model.encode(texts, normalize_embeddings=True)
EmbeddingsRAGMTEBMultilingualSemantic Search
O

Ossama Elhakki

مهندس ذكاء اصطناعي وأنظمة ML — المغرب