ChatGPT עולה $20 לחודש. Claude Pro עולה $20 לחודש. אבל מה אם תוכלו לקבל חוויה דומה — בחינם לחלוטין, עם פרטיות מלאה, ומבלי לשלוח נתונים לאף שרת? Ollama הופך את זה לאפשרי.
למה להריץ AI מקומי?
שלוש סיבות עיקריות:
- פרטיות: מסמכים רגישים, נתוני לקוחות, קוד פרטי — הכל נשאר אצלכם
- חינם לגמרי: לאחר הורדה, כל שיחה חינמית ללא הגבלה
- אופליין: עובד במטוס, ביערות, בכל מקום
מה זה Ollama?
Ollama הוא כלי קוד פתוח שמאפשר להוריד ולהריץ מודלי AI גדולים (LLMs) על המחשב האישי. הוא מנהל את ההורדה, האחסון, ומספק ממשק פשוט להרצת מודלים.
בשונה מהרצת מודלים "ידנית" עם Python, Ollama:
- פשוט להתקנה (כמו כל תוכנה רגילה)
- מנהל אוטומטית את ה-VRAM / RAM
- מספק API תואם ל-OpenAI API
- תומך ב-50+ מודלים מובילים
דרישות מערכת
| רכיב | מינימום | מומלץ |
|---|---|---|
| RAM | 8GB | 16GB+ |
| אחסון פנוי | 10GB | 50GB+ |
| GPU | אופציונלי | NVIDIA 8GB VRAM |
| מעבד | Intel/AMD מודרני | Apple Silicon (M1+) |
Apple Silicon (M1–M4) הוא הפלטפורמה הטובה ביותר ל-Ollama — GPU משותף עם RAM מאפשר ביצועים מצוינים גם ב-8GB.
שלבי התקנה — Mac
דרך 1 — הורדה ישירה
- היכנסו ל-ollama.com ולחצו "Download for Mac"
- גררו את Ollama.app לתיקיית Applications
- פתחו — תראו אייקון בשורת התפריט
- פתחו Terminal והריצו את הפקודה הראשונה:
ollama pull llama3.2
דרך 2 — Homebrew (למי שמכיר)
brew install ollama
לאחר ההתקנה הפעילו את ה-daemon:
ollama serve
שלבי התקנה — Windows
- הורידו מ-ollama.com את installer ל-Windows
- הריצו כמנהל מערכת
- Ollama מותקן כ-Windows Service
- פתחו PowerShell והריצו:
ollama pull llama3.2
המודלים הטובים ביותר
| מודל | גודל | מצוין ב | מחשבים נתמכים |
|---|---|---|---|
| llama3.2:3b | 2GB | שיחות מהירות | כל Mac, כל PC |
| llama3.2:8b | 5GB | הכל-תכליתי | 16GB RAM |
| mistral:7b | 4.1GB | הוראות, קוד | 8GB RAM |
| codellama:13b | 7.4GB | כתיבת קוד | 16GB RAM |
| phi3:mini | 2.3GB | מהיר מאוד, מחשבים חלשים | 4GB RAM |
| gemma2:9b | 5.4GB | שפות רבות, כולל עברית | 16GB RAM |
ביצועים מה לצפות?
הציפיות חשובות — Ollama מהיר, אבל לא תמיד במהירות ChatGPT:
- Apple M3 Pro (18GB RAM): ~40 tokens/שנייה — מהיר מאוד לקריאה
- MacBook Air M2 (8GB): ~15 tokens/שנייה — בסדר גמור
- PC עם NVIDIA 3080: ~50+ tokens/שנייה — מצוין
- PC ללא GPU ייעודי: 3-8 tokens/שנייה — איטי אך שמיש
ממשק גרפי — Open WebUI
הריצו את הפקודה (דורש Docker):
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
גשו ל-localhost:3000 — ממשק ChatGPT מלא לחלוטין, מקומי. הדגל --restart always מבטיח שהממשק יקום מחדש אוטומטית לאחר הפעלת המחשב.
Ollama עם n8n — אוטומציה מקומית
אחד השימושים המגניבים: חיבור Ollama ל-n8n (כלי אוטומציה). תוכלו לבנות workflows AI שרצים לגמרי מקומית — ללא API, ללא תשלום.
פקודות CLI שימושיות
# רשימת מודלים מותקנים
ollama list
# מחיקת מודל
ollama rm mistral
# מידע על מודל
ollama show llama3.2
# הרצה עם פרמטרים
ollama run llama3.2 --verbose
שאלות נפוצות
מה זה Ollama ולמה זה שימושי?
Ollama הוא כלי קוד פתוח שמאפשר להריץ מודלי AI על המחשב שלך — ללא אינטרנט, ללא עלות חודשית, עם פרטיות מלאה. מושלם למי שעובד עם מידע רגיש או רוצה AI בחינם.
האם צריך מחשב חזק להריץ Ollama?
מודלים קטנים (7B פרמטרים) רצים על 8GB RAM. מודלים גדולים דורשים 16GB+. כרטיס גרפיקה מאיץ משמעותית אך אינו חובה. Mac M1/M2/M3 עובד מצוין.
איזה מודל AI עדיף להוריד ב-Ollama?
למתחילים: llama3.2:3b אם יש 8GB RAM, llama3.2:8b אם יש 16GB. לקוד: codellama. למחשבים חלשים: phi3:mini (4GB RAM בלבד).