→ חזרה

ChatGPT עולה $20 לחודש. Claude Pro עולה $20 לחודש. Gemini Advanced עולה סכום דומה. אבל מה אם תוכלו לקבל חוויה דומה — בחינם לחלוטין, עם פרטיות מלאה, ומבלי לשלוח נתונים לאף שרת? Ollama הופך את זה לאפשרי. במדריך הזה נלמד בדיוק איך להתקין, להגדיר ולהפיק את המרב מ-Ollama — הכלי שמשנה את הדרך שבה אנשים משתמשים בבינה מלאכותית.

למה להריץ AI מקומי?

לפני שנצלול לתוך Ollama עצמו, חשוב להבין למה בכלל כדאי להריץ מודלי שפה גדולים (LLMs) על המחשב האישי במקום להשתמש בשירותי ענן. הנה הסיבות העיקריות:

מה זה Ollama?

Ollama הוא כלי קוד פתוח שמאפשר להוריד ולהריץ מודלי AI גדולים (LLMs) על המחשב האישי. הוא מנהל את ההורדה, האחסון, ומספק ממשק פשוט להרצת מודלים. הפרויקט הושק בתחילת 2024 וצבר במהירות מאות אלפי משתמשים ברחבי העולם, הודות לפשטות השימוש וליכולת להריץ מודלים מתקדמים בפקודה אחת בלבד.

Ollama בנוי על llama.cpp — ספריית C++ מותאמת שמריצה מודלי שפה ביעילות גם על מעבדים רגילים (CPU) וגם על כרטיסי מסך (GPU). הוא תומך בפורמט GGUF לכימות מודלים, מה שמאפשר להפעיל מודלים ענקיים על חומרה ביתית.

בשונה מהרצת מודלים "ידנית" עם Python ו-frameworks כמו Transformers של Hugging Face, Ollama:

דרישות מערכת

לפני שמתקינים, ודאו שהמחשב שלכם עומד בדרישות. הטבלה הבאה מפרטת את המינימום והמומלץ:

רכיבמינימוםמומלץ
RAM8GB16GB+
אחסון פנוי10GB50GB+
GPUאופציונליNVIDIA 8GB+ VRAM / Apple Silicon
מעבדIntel/AMD מודרני (AVX2)Apple Silicon (M1+)
מערכת הפעלהmacOS 11+, Windows 10+, LinuxmacOS 14+ / Ubuntu 22.04+

Apple Silicon (M1–M4) הוא הפלטפורמה הטובה ביותר ל-Ollama — ארכיטקטורת Unified Memory מאפשרת ל-GPU ול-CPU לחלוק את אותו זיכרון, כך שמודלים גדולים רצים בביצועים מצוינים גם ב-8GB. למעשה, Mac עם M3 Pro ו-18GB RAM מריץ מודלים באיכות שדורשת כרטיס NVIDIA ב-$800+ על PC.

לגבי כרטיסי NVIDIA — כל כרטיס מסדרת RTX 2000 ומעלה נתמך. ככל שיש יותר VRAM, ניתן להריץ מודלים גדולים יותר. הנה פירוט:

כרטיסי AMD נתמכים באופן חלקי — סדרת RX 7000 עובדת עם ROCm, אך הביצועים נמוכים יותר מ-NVIDIA בדרך כלל.

שלבי התקנה — Mac

דרך 1 — הורדה ישירה

  1. היכנסו ל-ollama.com ולחצו "Download for Mac"
  2. גררו את Ollama.app לתיקיית Applications
  3. פתחו — תראו אייקון בשורת התפריט (menubar). לחיצה עליו תראה שהשרת פעיל
  4. פתחו Terminal (ניתן למצוא דרך Spotlight עם Command+Space)
  5. הריצו את הפקודה הראשונה שמורידה ומפעילה מודל:
ollama pull llama3.2

ההורדה תיקח כמה דקות (תלוי במהירות האינטרנט). לאחר מכן הריצו:

ollama run llama3.2

וזהו — אתם כבר משוחחים עם AI מקומי. הקלידו כל שאלה ותקבלו תשובה.

דרך 2 — Homebrew (למי שמכיר)

brew install ollama

לאחר ההתקנה הפעילו את ה-daemon (השרת שרץ ברקע):

ollama serve

שימו לב: אם התקנתם דרך Homebrew, תצטרכו להפעיל את ollama serve ידנית בכל פעם, או להגדיר אותו כ-launchd service שיעלה אוטומטית עם המחשב.

שלבי התקנה — Windows

  1. הורידו מ-ollama.com את ה-installer ל-Windows
  2. הריצו כמנהל מערכת (לחצו ימני ← Run as administrator)
  3. Ollama מותקן כ-Windows Service — כלומר הוא רץ אוטומטית ברקע
  4. פתחו PowerShell (או Command Prompt) והריצו:
ollama pull llama3.2

טיפ חשוב ל-Windows: אם יש לכם כרטיס NVIDIA, ודאו שמותקנים דרייברים עדכניים (גרסה 525+). Ollama יזהה אוטומטית את הכרטיס וישתמש בו. ניתן לבדוק עם הפקודה:

nvidia-smi

שלבי התקנה — Linux

Linux הוא הפלטפורמה המועדפת על מפתחים רבים, ו-Ollama תומך בה באופן מלא. ההתקנה פשוטה במיוחד:

curl -fsSL https://ollama.com/install.sh | sh

הסקריפט מזהה אוטומטית את הפצת הלינוקס, מוריד את הגרסה המתאימה, ומגדיר את Ollama כ-systemd service. לאחר ההתקנה:

# בדיקה שהשרת רץ
systemctl status ollama

# הורדת מודל ראשון
ollama pull llama3.2

# התחלת שיחה
ollama run llama3.2

עבור שרתים עם כרטיסי NVIDIA, ודאו שמותקנים CUDA drivers (גרסה 11.7+) ו-nvidia-container-toolkit אם אתם משתמשים גם ב-Docker.

המודלים הטובים ביותר

אחד היתרונות הגדולים של Ollama הוא המבחר הרחב של מודלים זמינים. הנה המודלים המומלצים לשימושים שונים:

מודלגודלמצוין במחשבים נתמכים
llama3.2:3b2GBשיחות מהירות, סיכומיםכל Mac, כל PC
llama3.2:8b5GBהכל-תכליתי, מאוזן16GB RAM
llama3.1:70b40GBאיכות מקסימלית, מחקר64GB RAM / RTX 4090
mistral:7b4.1GBהוראות, קוד, עברית סבירה8GB RAM
codellama:13b7.4GBכתיבת קוד16GB RAM
deepseek-coder:6.7b3.8GBקוד — Python, JS, TypeScript8GB RAM
phi3:mini2.3GBמהיר מאוד, מחשבים חלשים4GB RAM
gemma2:9b5.4GBשפות רבות, כולל עברית16GB RAM
qwen2:7b4.4GBשפות אסיאתיות, מתמטיקה8GB RAM
llava:7b4.7GBניתוח תמונות (multimodal)8GB RAM

להורדת מודל, פשוט הריצו ollama pull שם-המודל. למשל, ollama pull gemma2:9b. שימו לב שמודלים כמו DeepSeek זמינים גם ב-Ollama ומספקים ביצועים מרשימים בהרצה מקומית.

Ollama מול שירותי ענן — השוואה מקיפה

שואלים את עצמכם מה עדיף — ChatGPT בענן או AI מקומי עם Ollama? הנה השוואה מפורטת:

קריטריוןOllama (מקומי)ChatGPT / Claude (ענן)
עלותחינם לחלוטין$20/חודש (Pro/Plus)
פרטיותמלאה — נתונים לא עוזבים את המחשבנתונים נשלחים לשרתי החברה
חיבור אינטרנטלא נדרש (אחרי ההורדה)נדרש תמיד
איכות תשובותטובה עד טובה מאוד (תלוי במודל)מצוינת (GPT-4o, Claude Opus)
מהירותתלוי בחומרה (10-50 tokens/שנייה)מהיר ועקבי (~80 tokens/שנייה)
הגבלת שימושאין הגבלהמגבלת הודעות בשעה
התאמה אישיתמלאה — Modelfile, פרמטרים, system promptמוגבלת
תמיכה בעבריתסבירה עד טובה (Gemma2, Llama3)מצוינת
עדכניות מידעמוגבלת לתאריך אימון המודלחיפוש אינטרנט בזמן אמת
ניתוח תמונותLLaVA, BakllavaGPT-4o Vision, Claude Vision
יצירת תמונותלא נתמךDALL-E, Imagen

השורה התחתונה: Ollama מושלם למשימות יומיומיות, עבודה עם מידע רגיש, ולמי שרוצה AI בחינם. לעומת זאת, שירותי ענן עדיפים למשימות מורכבות שדורשות את המודלים הכי גדולים, חיפוש אינטרנט, או prompt engineering מתקדם עם המודלים החזקים ביותר.

ביצועים — מה לצפות?

הציפיות חשובות — Ollama מהיר, אבל לא תמיד במהירות ChatGPT. הנה מדדי ביצועים ריאליסטיים עם מודל llama3.2:8b:

להשוואה: קריאה נוחה של טקסט בעברית דורשת כ-5 tokens/שנייה. כלומר גם מחשבים חלשים יחסית מספקים חוויה סבירה. מעל 20 tokens/שנייה, התחושה כמעט זהה ל-ChatGPT.

יצירת מודל מותאם אישית עם Modelfile

אחד הפיצ'רים החזקים של Ollama הוא היכולת ליצור מודלים מותאמים אישית. אתם יכולים להגדיר system prompt, טמפרטורה, ופרמטרים נוספים בקובץ פשוט שנקרא Modelfile.

דוגמה — יצירת עוזר כתיבה בעברית:

FROM llama3.2:8b

SYSTEM """
אתה עוזר כתיבה מקצועי בשפה העברית. אתה כותב בסגנון ברור,
מקצועי ונעים לקריאה. אתה תמיד עונה בעברית, גם אם השאלה
נשאלת באנגלית. אתה מומחה ב-SEO, שיווק דיגיטלי וכתיבת תוכן.
"""

PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096

שמרו את הקובץ כ-Modelfile והריצו:

ollama create hebrew-writer -f Modelfile

עכשיו תוכלו להפעיל את המודל המותאם:

ollama run hebrew-writer

אפשר ליצור מודלים לכל מטרה: עוזר קוד שמתמחה ב-Python, יועץ משפטי, מורה למתמטיקה, או כל תפקיד אחר. הגדרת ה-system prompt משפיעה משמעותית על איכות התשובות — בדיוק כמו Prompt Engineering בשירותי ענן.

ממשק גרפי — Open WebUI

שורת הפקודה מצוינת, אבל רוב המשתמשים מעדיפים ממשק גרפי נוח. Open WebUI הוא הפתרון המושלם — ממשק וובי שנראה בדיוק כמו ChatGPT, רץ מקומית, ומתחבר ל-Ollama.

הריצו את הפקודה (דורש Docker):

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

גשו ל-localhost:3000 — ממשק ChatGPT מלא לחלוטין, מקומי. הדגל --restart always מבטיח שהממשק יקום מחדש אוטומטית לאחר הפעלת המחשב.

Open WebUI תומך בפיצ'רים מתקדמים:

אם אין לכם Docker, חלופה פופולרית היא Enchanted — אפליקציית macOS ילידית ש-מתחברת ל-Ollama ומספקת ממשק יפה בלי תלות ב-Docker.

שימוש ב-API של Ollama

Ollama מספק REST API שתואם לפורמט של OpenAI, מה שמקל מאוד על אינטגרציה עם כלים קיימים. ה-API רץ על localhost:11434 כברירת מחדל.

דוגמה לשליחת בקשה עם curl:

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "user", "content": "מה הבירה של צרפת?"}
  ]
}'

או בפורמט תואם OpenAI:

curl http://localhost:11434/v1/chat/completions -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "user", "content": "כתוב שיר קצר בעברית"}
  ]
}'

הנקודה החשובה: כל כלי שתומך ב-OpenAI API יכול לעבוד עם Ollama — פשוט שנו את ה-endpoint ל-http://localhost:11434/v1 ואת ה-API key לכל ערך שתרצו (Ollama לא דורש מפתח). זה פותח דלת לשימוש ב-Ollama עם עשרות כלים: כלי Vibe Coding, IDE plugins, סקריפטים של אוטומציה ועוד.

Ollama עם n8n — אוטומציה מקומית

אחד השימושים המגניבים ביותר: חיבור Ollama ל-n8n (כלי אוטומציה ויזואלי). תוכלו לבנות workflows AI שרצים לגמרי מקומית — ללא API, ללא תשלום. דוגמאות לתהליכים:

ב-n8n, הוסיפו node מסוג "HTTP Request" או השתמשו ב-node הייעודי של Ollama, הגדירו את ה-endpoint ל-http://localhost:11434, ובחרו את המודל הרצוי. כל העיבוד קורה על המחשב שלכם.

שילוב Ollama עם כלי פיתוח

למפתחים, Ollama הוא כלי רב-עוצמה שמשתלב עם סביבת העבודה. הנה הדרכים הפופולריות:

פקודות CLI שימושיות

הנה מדריך מקיף לכל הפקודות החשובות:

# הורדת מודל
ollama pull llama3.2

# הרצת מודל (מוריד אוטומטית אם לא קיים)
ollama run llama3.2

# רשימת מודלים מותקנים
ollama list

# מחיקת מודל (לפנות מקום)
ollama rm mistral

# מידע מפורט על מודל
ollama show llama3.2

# הרצה עם מצב verbose (מציג ביצועים)
ollama run llama3.2 --verbose

# העתקת מודל בשם חדש
ollama cp llama3.2 my-custom-model

# עדכון מודל לגרסה אחרונה
ollama pull llama3.2

# הפעלת השרת ידנית
ollama serve

# בדיקת גרסת Ollama
ollama --version

טיפ: ניתן לשלוח prompt ישירות מהפקודה בלי להיכנס למצב אינטראקטיבי:

ollama run llama3.2 "תרגם לאנגלית: שלום עולם"

טיפים לשיפור ביצועים

כדי להפיק את המרב מ-Ollama, הנה כמה טיפים שיכולים לשפר משמעותית את המהירות והאיכות:

  1. בחרו את גודל המודל הנכון: אל תריצו מודל 70B על מחשב עם 16GB RAM. מודל 7-8B שרץ מהר עדיף על מודל גדול שזוחל
  2. סגרו תוכנות כבדות: Chrome עם 50 טאבים אוכל RAM. סגרו מה שלא צריך לפני הפעלת Ollama
  3. השתמשו בכימות מתאים: מודלים מגיעים בכימויים שונים (Q4, Q5, Q8). Q4 מהיר יותר וקטן יותר, Q8 איכותי יותר אך כבד
  4. הגדירו את num_ctx: גודל חלון ההקשר (context window) משפיע על צריכת הזיכרון. אם לא צריכים שיחות ארוכות, הקטינו ל-2048
  5. Mac — העדיפו Apple Silicon: M1 ומעלה מריצים מודלים בצורה מצוינת בזכות Unified Memory
  6. Windows — עדכנו דרייברים: דרייברי NVIDIA עדכניים יכולים לשפר ביצועים ב-20-30%
  7. הפעילו GPU offloading: ב-Ollama, כל השכבות שנכנסות ל-VRAM רצות מהר יותר. ודאו שה-GPU מנוצל

פתרון בעיות נפוצות

נתקלתם בבעיה? הנה הפתרונות למקרים הנפוצים ביותר:

שימושים מעשיים ל-Ollama

מעבר לצ'אט רגיל, Ollama פותח עולם שלם של שימושים:

Ollama ותמיכה בעברית

שאלה שעולה הרבה: האם מודלים מקומיים יודעים עברית? התשובה: כן, ברמה סבירה עד טובה, תלוי במודל. הנה הדירוג שלנו:

טיפ חשוב: גם אם המודל לא מושלם בעברית, ניתן לכתוב prompts באנגלית ולבקש תשובה בעברית — זה בדרך כלל משפר את האיכות.

שאלות נפוצות

מה זה Ollama ולמה זה שימושי?

Ollama הוא כלי קוד פתוח שמאפשר להריץ מודלי AI על המחשב שלך — ללא אינטרנט, ללא עלות חודשית, עם פרטיות מלאה. מושלם למי שעובד עם מידע רגיש או רוצה AI בחינם.

האם צריך מחשב חזק להריץ Ollama?

מודלים קטנים (7B פרמטרים) רצים על 8GB RAM. מודלים גדולים דורשים 16GB+. כרטיס גרפיקה מאיץ משמעותית אך אינו חובה. Mac M1/M2/M3/M4 עובד מצוין בזכות Unified Memory.

איזה מודל AI עדיף להוריד ב-Ollama?

למתחילים: llama3.2:3b אם יש 8GB RAM, llama3.2:8b אם יש 16GB. לקוד: codellama או deepseek-coder. למחשבים חלשים: phi3:mini (4GB RAM בלבד). לעברית: gemma2:9b.

האם Ollama תומך בעברית?

מודלים כמו Gemma 2, Llama 3 ו-Mistral תומכים בעברית ברמה סבירה עד טובה. לתוצאות טובות יותר, כתבו את ה-prompt באנגלית ובקשו תשובה בעברית, או השתמשו ב-Gemma2 שמתמחה בשפות מרובות.

מה ההבדל בין Ollama ל-ChatGPT?

ChatGPT הוא שירות ענן של OpenAI ($20/חודש) ששולח נתונים לשרתים חיצוניים ודורש אינטרנט. Ollama רץ על המחשב שלך, חינמי, עובד אופליין ושומר על פרטיות מלאה — אבל המודלים קטנים יותר ופחות חכמים מ-GPT-4o.

האם אפשר להשתמש ב-Ollama לעבודה עם קוד?

בהחלט. מודלים כמו CodeLlama ו-DeepSeek Coder מתמחים בכתיבת קוד. ניתן לשלב אותם עם VS Code באמצעות Continue.dev ולקבל השלמת קוד מקומית בחינם — בדיוק כמו GitHub Copilot.

כמה מקום אחסון Ollama תופס?

Ollama עצמו תופס מעט מקום, אבל כל מודל תופס בין 2GB ל-40GB. מומלץ לשמור לפחות 50GB פנויים אם מתכננים להתקין מספר מודלים. ניתן למחוק מודלים שלא בשימוש עם הפקודה ollama rm.

האם Ollama בטוח לשימוש?

כן. Ollama הוא קוד פתוח שניתן לבדיקה על ידי כל אחד. כברירת מחדל, השרת מאזין רק על localhost ולא חשוף לאינטרנט. הנתונים נשארים על המחשב שלך ולא נשלחים לשום מקום.

סיכום — למי Ollama מתאים?

Ollama הוא כלי שכל מי שמתעניין בבינה מלאכותית צריך להכיר. הוא מתאים במיוחד ל:

התחילו עם ollama pull llama3.2, נסו כמה שיחות, ותגלו שעולם ה-AI המקומי קרוב הרבה יותר ממה שחשבתם. ואם אתם רוצים להעמיק, קראו את המדריכים שלנו על כתיבת prompts אפקטיביים ועל השוואת מודלי AI מובילים.

יניב סוראני

יניב סוראני

מפתח ומומחה כלי בינה מלאכותית | מייסד בינה.co.il

20+ שנות ניסיון בטכנולוגיה. בוחן ומשתמש בכלי AI מדי יום. כל תוכן באתר נכתב, נבדק ועורך ידנית.