Exécuter des LLMs localement avec Ollama : guide de production

Pourquoi des LLMs locaux

Confidentialité des données — les données métier sensibles ne quittent jamais votre serveur
Coût — coût par token nul après l'investissement matériel
Latence — sous les 100ms sur du bon matériel
Personnalisation — fine-tuning sur données propriétaires

Installation

# Install
curl -fsSL https://ollama.ai/install.sh | sh

# Pull model
ollama pull llama3.1:8b
ollama pull mistral:7b

# Serve (exposes REST API on port 11434)
ollama serve

Intégration Python

import requests

def chat(prompt, model='llama3.1:8b'):
    response = requests.post(
        'http://localhost:11434/api/chat',
        json={
            'model': model,
            'messages': [{'role': 'user', 'content': prompt}],
            'stream': False
        }
    )
    return response.json()['message']['content']

Recommandations de modèles

Cas d'usage	Modèle	VRAM
Réponses rapides	Mistral 7B	8GB
Raisonnement	Llama 3.1 8B	8GB
Tâches complexes	Llama 3.1 70B	48GB
Code	Qwen2.5-Coder 7B	8GB