Retour au Blog
AI Agents 18 avril 2025 7 min de lecture

Exécuter des LLMs localement avec Ollama : guide de production

Configuration d'Ollama pour la production — sélection de modèle, intégration API, optimisation des performances.

Pourquoi des LLMs locaux

  1. Confidentialité des données — les données métier sensibles ne quittent jamais votre serveur
  2. Coût — coût par token nul après l'investissement matériel
  3. Latence — sous les 100ms sur du bon matériel
  4. Personnalisation — fine-tuning sur données propriétaires

Installation

# Install
curl -fsSL https://ollama.ai/install.sh | sh

# Pull model
ollama pull llama3.1:8b
ollama pull mistral:7b

# Serve (exposes REST API on port 11434)
ollama serve

Intégration Python

import requests

def chat(prompt, model='llama3.1:8b'):
    response = requests.post(
        'http://localhost:11434/api/chat',
        json={
            'model': model,
            'messages': [{'role': 'user', 'content': prompt}],
            'stream': False
        }
    )
    return response.json()['message']['content']

Recommandations de modèles

Cas d'usageModèleVRAM
Réponses rapidesMistral 7B8GB
RaisonnementLlama 3.1 8B8GB
Tâches complexesLlama 3.1 70B48GB
CodeQwen2.5-Coder 7B8GB
OllamaLLMLocal AILlamaPrivacy
O

Ossama Elhakki

Ingénieur IA & Systèmes ML — Maroc