Pourquoi des LLMs locaux
- Confidentialité des données — les données métier sensibles ne quittent jamais votre serveur
- Coût — coût par token nul après l'investissement matériel
- Latence — sous les 100ms sur du bon matériel
- Personnalisation — fine-tuning sur données propriétaires
Installation
# Install
curl -fsSL https://ollama.ai/install.sh | sh
# Pull model
ollama pull llama3.1:8b
ollama pull mistral:7b
# Serve (exposes REST API on port 11434)
ollama serve
Intégration Python
import requests
def chat(prompt, model='llama3.1:8b'):
response = requests.post(
'http://localhost:11434/api/chat',
json={
'model': model,
'messages': [{'role': 'user', 'content': prompt}],
'stream': False
}
)
return response.json()['message']['content']
Recommandations de modèles
| Cas d'usage | Modèle | VRAM |
|---|
| Réponses rapides | Mistral 7B | 8GB |
| Raisonnement | Llama 3.1 8B | 8GB |
| Tâches complexes | Llama 3.1 70B | 48GB |
| Code | Qwen2.5-Coder 7B | 8GB |