מה אם הייתם יכולים להריץ מודל AI חזק כמו Llama 3 או Mistral ישירות על המחשב שלכם, ללא תשלום, ללא שמירת נתונים בענן, וללא תלות בשרתים חיצוניים? Ollama הופך את זה לאפשרי — ובצורה פשוטה להפתיע.

למה להריץ AI מקומי?

  • פרטיות מלאה: שיחות לא עוזבות את המחשב שלכם — מושלם למסמכים רגישים
  • חינם לגמרי: לאחר הורדת המודל — אין מנוי, אין מגבלות
  • ללא אינטרנט: עובד גם אופליין
  • ניסוי וטעייה: פרמטרים, פרומפטים, כל מה שרוצים
  • מפתחים: אינטגרציה מקומית ללא עלויות API

פרסומת
דרישות מערכת

לפני שמתחילים, בדקו שהמחשב שלכם עומד בדרישות המינימום:

רכיבמינימוםמומלץ
RAM8GB16GB+
אחסון פנוי10GB50GB+
GPUאופציונליNVIDIA 8GB VRAM
מעבדIntel/AMD מודרניApple Silicon (M1+)

הערה: Apple Silicon (M1, M2, M3, M4) הוא הפלטפורמה הטובה ביותר ל-Ollama — GPU משותף עם RAM מאפשר ביצועים מצוינים גם ב-8GB RAM.

התקנה על Mac

שתי דרכים: מהאתר הרשמי, או דרך Homebrew.

דרך 1 — הורדה ישירה (קלה יותר)

  1. היכנסו ל-ollama.com
  2. לחצו "Download for Mac"
  3. פתחו את קובץ ה-.dmg ועשו Drag and Drop לתיקיית Applications
  4. פתחו את Ollama — תראו אייקון בשורת המשימות

דרך 2 — Homebrew (למי שמכיר)

brew install ollama

לאחר ההתקנה, הפעילו את ה-daemon:

ollama serve

פרסומת
התקנה על Windows

  1. היכנסו ל-ollama.com
  2. לחצו "Download for Windows"
  3. הורידו והריצו את קובץ ה-installer
  4. עקבו אחרי ה-wizard — זה כמו התקנת תוכנה רגילה
  5. Ollama ירוץ כשירות ברקע אוטומטית

Windows + NVIDIA GPU: Ollama מזהה אוטומטית כרטיסי Nvidia ומשתמש ב-CUDA לתאוצה. ודאו שהדרייברים מעודכנים.

הורדת מודל ראשון

פתחו Terminal (Mac) או PowerShell (Windows) והריצו:

ollama pull llama3.2

זה יוריד את Llama 3.2 של Meta — מודל חזק מאוד. גודל: ~2GB לגרסת 3B, ~5GB לגרסת 8B.

מודלים נוספים שמומלץ להוריד:

ollama pull mistral
ollama pull phi3
ollama pull gemma2

פרסומת
שיחה ראשונה

לאחר ההורדה, הריצו:

ollama run llama3.2

תקבלו prompt אינטראקטיבי. תכתבו שאלה בעברית:

>>> מה זה בינה מלאכותית? הסבר בפשטות

לסיום השיחה, הקלידו /bye

ממשק גרפי — Open WebUI

שורת הפקודה נהדרת, אבל לחוויה כמו ChatGPT, התקינו Open WebUI — ממשק גרפי יפה מאוד שעובד על Ollama.

דרישה: Docker מותקן. לאחר מכן:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

פתחו את הדפדפן ב-localhost:3000 — תראו ממשק דומה ל-ChatGPT.

פרסומת
איזה מודל להוריד? השוואה

מודלגודלמצוין בRAM נדרש
llama3.2:3b2GBשיחות כלליות, מהיר8GB
llama3.2:8b5GBהכל-סובב, איכות גבוהה16GB
mistral:7b4.1GBהוראות, קוד, אנגלית8GB
phi3:mini2.3GBמהיר מאוד, מחשבים חלשים4GB
gemma2:9b5.5GBשפות מרובות, כולל עברית16GB
codellama:7b3.8GBכתיבת קוד8GB

המלצה למתחילים: llama3.2:3b אם יש לכם 8GB RAM, llama3.2:8b אם יש 16GB.

פקודות שימושיות

# רשימת מודלים מותקנים
ollama list

# מחיקת מודל
ollama rm mistral

# מידע על מודל
ollama show llama3.2

# הרצה עם פרמטרים
ollama run llama3.2 --verbose

שאלות נפוצות על Ollama

מה זה Ollama ולמה זה שימושי?

Ollama הוא כלי קוד פתוח שמאפשר להריץ מודלי AI על המחשב שלך — ללא אינטרנט, ללא עלות חודשית, עם פרטיות מלאה. מושלם למי שעובד עם מידע רגיש או רוצה AI בחינם.

האם צריך מחשב חזק להריץ Ollama?

מודלים קטנים (7B פרמטרים) רצים על 8GB RAM. מודלים גדולים דורשים 16GB+. כרטיס גרפיקה מאיץ משמעותית אך אינו חובה. Mac M1/M2/M3 עובד מצוין.

איזה מודל AI עדיף להוריד ב-Ollama?

למתחילים: llama3.2 (8B) — מהיר ואיכותי. לעבודה עם קוד: codellama. לעברית: mistral עם פרומפט בעברית עובד סבירות. לביצועים מקסימליים: llama3.1:70b (דורש 40GB+ RAM).

פרסומת