NLP 8 mars 2025 6 min de lecture

Modèles d'embedding de texte en 2025 : lequel utiliser pour le RAG ?

Benchmarking des embeddings OpenAI, Cohere, E5, BGE et Jina sur des tâches de récupération.

Résultats du benchmark MTEB (2025)

Modèle	Score moyen	Dim	Coût
text-embedding-3-large	64.6	3072	$0.13/M tokens
Cohere embed-v3	64.5	1024	$0.10/M tokens
BGE-M3	63.8	1024	Gratuit
E5-mistral-7b	66.6	4096	Gratuit
Jina-embeddings-v3	65.2	1024	Gratuit

Pour le multilingue (AR/FR/EN)

BGE-M3 et Jina-v3 offrent la meilleure couverture multilingue à coût nul.

Ma stack

# Free, local, multilingual
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('BAAI/bge-m3')
embeddings = model.encode(texts, normalize_embeddings=True)

EmbeddingsRAGMTEBMultilingualSemantic Search

Ossama Elhakki

Ingénieur IA & Systèmes ML — Maroc

À propos →Contact →