הדור הבא כבר כאן: עולם הבינה המלאכותית רשם אמש (חמישי) קפיצת מדרגה משמעותית עם הכרזתה של OpenAI על GPT-5.4 - מודל שפה מהפכני שנועד להפוך מ"צ'אטבוט שעונה על שאלות" ל"סוכן אוטונומי שעובד עבורכם".
המודל החדש, שהושק תחת המותג GPT-5.4 Thinking, לא רק מציג שיפור דרמטי באמינות ודיוק עובדתי (עם 33% פחות טעויות מהדור הקודם), אלא מביא איתו יכולת חסרת תקדים של Computer Use - היכולת להפעיל מחשב באופן עצמאי, להזיז את העכבר ולבצע משימות משרדיות ופיננסיות מורכבות ישירות בתוך תוכנות כמו אקסל ודפדפני אינטרנט.
סוכן במשרה מלאה
זה המודל הראשון של OpenAI שבאמת יודע "להפעיל מחשב". הוא לא רק עונה לשאלות, הוא יכול להסתכל על צילומי מסך, להזיז את העכבר, להקליד ולבצע פעולות בתוך תוכנות ואתרים. דמיינו עוזר אישי שפותח מייל, מוריד קובץ, מעבד אותו באקסל ומעלה למערכת אחרת - לבד.
בנוסף, ב-OpenAI מבטיחים שהמודל הזה הרבה יותר אמין. על פי נתוני החברה, יש ירידה של 33% בטעויות עובדתיות לעומת הדור הקודם. הוא פשוט פחות נוטה להמציא דברים כששואלים אותו שאלות מורכבות.
מפלצת של זיכרון
עם "חלון הקשר" של מיליון טוקנים, אתם יכולים לזרוק עליו ספרים שלמים, פרויקטים ענקיים של קוד או עשרות מסמכים פיננסיים, והוא לא יאבד את הקשר. בנוסף, המודל החדש מתחבר ישירות ל-Excel ול-Google Sheets. הוא יודע לבנות מודלים פיננסיים ברמה של אנליסט אנושי (ואפילו עקף את הביצועים של בני אדם בחלק מהמבחנים).
ההשקה הזו היא תשובה ישירה ל-Claude for Financial Services של חברת אנתרופיק ולמודל החדש והנוצץ של גוגל. הענקיות האלו נלחמות עכשיו על הכיס של המגזר העסקי - אלו שמוכנים לשלם הרבה כסף כדי שה-AI יחסוך להם שעות של עבודה משרדית.
כמה זה עולה לנו?
התענוג לא זול. גרסת ה-Pro של המודל, שמיועדת למשימות הכבדות באמת, יקרה משמעותית מהדור הקודם ב-API. אבל, בגלל שהמודל הפך ל"חכם" יותר בצריכת המשאבים שלו (הוא יודע לחפש כלים רק כשצריך), OpenAI טוענת שבשורה התחתונה העלות של משימות מסוימות עשויה דווקא לרדת.
בגזרה הביצועית, GPT-5.4 מציג קפיצת מדרגה במבחני ה-GDPval המקצועיים, שם הוא עוקף בביצועיו אנשי מקצוע אנושיים ב-44 תחומים שונים עם ציון של 83% (לעומת כ-71% בדור הקודם). היכולת הזו מתבססת על שילוב עמוק של יכולות הקידוד של GPT-5.3-Codex ישירות לתוך המודל הראשי, מה שמאפשר לו לפתור בעיות תוכנה מורכבות במבחן ה-SWE-Bench Pro בשיעור הצלחה של 57.7%.
בנוסף, מצב ה-/fast החדש מאפשר למפתחים להאיץ את קצב יצירת הטוקנים פי 1.5, מה שמקצר משמעותית את זמני ההמתנה בזמן כתיבת קוד או הרצת סקריפטים.
בפן התפעולי, המודל מציג את טכנולוגיית ה-Tool Search שמשנה את כללי המשחק בניהול משאבים: במקום לטעון את כל הגדרות הכלים מראש (מה שחוסך כ-47% בצריכת טוקנים), המודל שולף רק את מה שנדרש בזמן אמת. זה משתלב עם יכולת ה-Computer Use המובנית, שמאפשרת לו לצלוח את מבחן ה-OSWorld-Verified עם 75% הצלחה - נתון גבוה מהממוצע האנושי (72.4%).
השילוב הזה הופך אותו למודל ה"עובדתי" ביותר של OpenAI עד כה, עם צמצום של 18% בשגיאות בתשובות ארוכות ומורכבות.
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו
