1. GPT-5 של OpenAI — עוצמה מרשימה, מחיר שמרתיע

השבוע המשיך GPT-5 לשלוט בשיחה. בבנצ'מרקים של הבנת טקסט ארוך וכתיבה יצירתית, המודל מציג תוצאות שלא נראו קודם — במיוחד במשימות רב-שלביות הדורשות שרשור לוגי מורכב. הציון שלו ב-MMLU המעודכן עומד על 94.3%, פער ניכר מהמתחרים.

אולם המחיר עדיין מכשול: הגרסה המלאה עולה 60 דולר לחודש למשתמשי Pro, ותמחור ה-API נע סביב 15 דולר לכל מיליון טוקנים (קלט). עבור חברות סטארט-אפ קטנות, זה עשוי להיות יקר מדי לשימוש יומיומי אינטנסיבי.

2. Gemini Ultra 2 של Google — המתחרה החזק שמפתיע בקולנוע

גוגל עדכנה השבוע את Gemini Ultra 2 עם יכולות וידאו משופרות באופן דרמטי. המודל כעת מסוגל לנתח סרטונים באורך של עד שעה שלמה בזמן אמת, דבר שמציב אותו בנישה ייחודית שאף מתחרה לא מכסה עדיין במלואה.

מבחינת מחיר, Google One AI Premium עולה 30 דולר לחודש — חצי מ-GPT-5 Pro — ומעניק גישה מלאה לכל הפיצ'רים כולל האינטגרציה עם Google Workspace. החיסרון הבולט: בכתיבת קוד ובמשימות מתמטיות מתקדמות, Gemini עדיין נופל ב-8-12% בממוצע מ-GPT-5, לפי נתוני HumanEval החדשים.

3. Claude 4 של Anthropic — המלך של האמינות והבטיחות

Anthropic שחררה השבוע עדכון משמעותי ל-Claude 4, עם דגש על הפחתת הזיות (hallucinations). בבדיקות עצמאיות שנערכו על ידי Stanford AI Lab, Claude 4 הציג שיעור הזיות של 2.1% בלבד לעומת 4.8% של GPT-5 ו-5.3% של Gemini Ultra 2 — הישג מרשים במיוחד למשימות שמצריכות דיוק עובדתי.

מבחינת תמחור, תוכנית Claude Pro עולה 20 דולר לחודש, מה שהופך אותו לאפשרות המשתלמת ביותר בקטגוריית הפרימיום. עם זאת, יכולות הווידאו והתמונה שלו עדיין פחות מפותחות בהשוואה לגוגל, והחלון ההקשרי — אמנם ענק ב-200K טוקנים — מציג ירידת ביצועים בקצוות הארוכים.

4. Mistral Large 3 — הפצצה האירופית בתמחור

הפתעת השבוע הגיעה דווקא מצרפת: Mistral AI עדכנה את Mistral Large 3 עם שיפורים ניכרים בעברית ובשפות שמיות — דבר רלוונטי במיוחד לקוראי בינה. המודל תומך כעת בהקשרים תרבותיים מקומיים טוב יותר, ומציג תוצאות מתחרות בכתיבת קוד Python ו-JavaScript.

המחיר הוא הקלף החזק ביותר שלו: 0.003 דולר בלבד לכל אלף טוקנים ב-API — כמעט פי חמישה זול מ-GPT-5. עבור חברות הזקוקות לנפחים גדולים, מדובר בחיסכון של עשרות אלפי דולרים בשנה. החיסרון: בהיגיון מורכב ובמשימות רב-שלביות ארוכות, הפער מהמודלים הגדולים עדיין מורגש.

5. טבלת ההשוואה המהירה — מה לבחור ולמה

אם תקציב הוא שיקול מרכזי ואתם עובדים בעברית — Mistral Large 3 מציע ערך יוצא דופן. למשימות מחקר הדורשות דיוק עובדתי גבוה, Claude 4 הוא הבחירה הבטוחה. כשמדובר בעבודה מולטימדיה ווידאו, Gemini Ultra 2 עדיין ללא תחרות. ולמי שזקוק לביצועים המוחלטים הגבוהים ביותר בכתיבה, קוד ועיבוד לוגי — GPT-5 הוא עדיין המלך, בתנאי שתוכלו להצדיק את המחיר.

השורה התחתונה של השבוע: שוק ה-AI הבשיל לנקודה שבה אין עוד תשובה אחת נכונה — הבחירה תלויה בצורך, בתקציב ובשפת העבודה. בינה תמשיך לעקוב.