العودة إلى المدونة
AI Agents 18 أبريل 2025 7 min للقراءة

تشغيل نماذج اللغة الكبيرة محلياً باستخدام Ollama: دليل الإنتاج

إعداد Ollama للاستخدام الإنتاجي — اختيار النموذج، تكامل API، وتشغيل Llama 3.1 محلياً.

لماذا النماذج المحلية

  1. خصوصية البيانات — البيانات التجارية الحساسة لا تغادر خادمك أبداً
  2. التكلفة — تكلفة صفرية لكل رمز بعد استثمار العتاد
  3. الكمون — أقل من 100 مللي ثانية على عتاد جيد
  4. التخصيص — ضبط دقيق على بيانات خاصة

الإعداد

# Install
curl -fsSL https://ollama.ai/install.sh | sh

# Pull model
ollama pull llama3.1:8b
ollama pull mistral:7b

# Serve (exposes REST API on port 11434)
ollama serve

تكامل Python

import requests

def chat(prompt, model='llama3.1:8b'):
    response = requests.post(
        'http://localhost:11434/api/chat',
        json={
            'model': model,
            'messages': [{'role': 'user', 'content': prompt}],
            'stream': False
        }
    )
    return response.json()['message']['content']

توصيات النماذج

حالة الاستخدامالنموذجVRAM
ردود سريعةMistral 7B8GB
الاستدلالLlama 3.1 8B8GB
مهام معقدةLlama 3.1 70B48GB
البرمجةQwen2.5-Coder 7B8GB
OllamaLLMLocal AILlamaPrivacy
O

Ossama Elhakki

مهندس ذكاء اصطناعي وأنظمة ML — المغرب