تشغيل نماذج اللغة الكبيرة محلياً باستخدام Ollama: دليل الإنتاج

لماذا النماذج المحلية

خصوصية البيانات — البيانات التجارية الحساسة لا تغادر خادمك أبداً
التكلفة — تكلفة صفرية لكل رمز بعد استثمار العتاد
الكمون — أقل من 100 مللي ثانية على عتاد جيد
التخصيص — ضبط دقيق على بيانات خاصة

الإعداد

# Install
curl -fsSL https://ollama.ai/install.sh | sh

# Pull model
ollama pull llama3.1:8b
ollama pull mistral:7b

# Serve (exposes REST API on port 11434)
ollama serve

تكامل Python

import requests

def chat(prompt, model='llama3.1:8b'):
    response = requests.post(
        'http://localhost:11434/api/chat',
        json={
            'model': model,
            'messages': [{'role': 'user', 'content': prompt}],
            'stream': False
        }
    )
    return response.json()['message']['content']

توصيات النماذج

حالة الاستخدام	النموذج	VRAM
ردود سريعة	Mistral 7B	8GB
الاستدلال	Llama 3.1 8B	8GB
مهام معقدة	Llama 3.1 70B	48GB
البرمجة	Qwen2.5-Coder 7B	8GB