Retour au Blog
NLP 8 mars 2025 6 min de lecture

Modèles d'embedding de texte en 2025 : lequel utiliser pour le RAG ?

Benchmarking des embeddings OpenAI, Cohere, E5, BGE et Jina sur des tâches de récupération.

Résultats du benchmark MTEB (2025)

ModèleScore moyenDimCoût
text-embedding-3-large64.63072$0.13/M tokens
Cohere embed-v364.51024$0.10/M tokens
BGE-M363.81024Gratuit
E5-mistral-7b66.64096Gratuit
Jina-embeddings-v365.21024Gratuit

Pour le multilingue (AR/FR/EN)

BGE-M3 et Jina-v3 offrent la meilleure couverture multilingue à coût nul.

Ma stack

# Free, local, multilingual
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('BAAI/bge-m3')
embeddings = model.encode(texts, normalize_embeddings=True)
EmbeddingsRAGMTEBMultilingualSemantic Search
O

Ossama Elhakki

Ingénieur IA & Systèmes ML — Maroc