אנתרופיק משיקה: המודל החדש והמשודרג של קלוד

קלוד של אנתרופיק. צילום: GettyImages

אנתרופיק, חברת הבינה המלאכותית האמריקנית, הכריזה אתמול (שלישי) על Claude Sonnet 4.6 - המודל החדש שמחליף את קודמו כברירת מחדל לכלל המנויים, כולל שכבת החינם, מבלי לשנות את המחיר. הצעד הבולט ביותר בגרסה החדשה הוא השיפור ביכולת ה"שימוש במחשב". המודל מסוגל לנווט בממשקי תוכנה גרפיים, ללחוץ על כפתורים, למלא טפסים ולנהל חלונות דפדפן - כפי שאדם היה עושה, ללא תלות בממשקי תכנות ייעודיים.

לפי מבחן OSWorld-Verified, שמדמה מאות משימות בסביבת מחשב מבוקרת, המודל השיג ציון של 72.5% - לעומת 61.4% ברגרסה הקודמת ו-14.9% בלבד לפני כשנה וחצי.

חשוב להדגיש: MED OSWorld הוא סביבת מבחן מבוקרת, לא מראה של עבודה אמיתית. הנהלות IT ומפתחים שמתכוונים להסתמך על יכולת זו יידרשו לבחון אותה בפועל. בסביבות מורכבות יותר - עם הרשאות מוגבלות, מסמכים בשפות שאינן אנגלית, ותנאי שגיאה - הביצועים עשויים להיות שונים לחלוטין.

בתחום קוד, MED נתוני החברה מצביעים על כך שמפתחים שניסו את המודל מוקדם העדיפו אותו בכ-70% מהמקרים על פני גרסתו הקודמת. הם ציינו עקביות גבוהה יותר, נטייה פחותה ל"הנדסת יתר" ופחות טעויות שקריות. אלה דיווחים עצמאיים של משתמשים שגויסו על ידי החברה עצמה, לא מחקר עצמאי.

יכולת חדשה נוספת, הנמצאת בגרסת בטא, היא חלון ההקשר של מיליון טוקנים - שיכולת עיבוד של כמות מידע המקבילה לעשרות ספרים בבקשה אחת. עם זאת, מועד היציאה מגרסת הבטא אינו ידוע, ויכולות עיבוד ארוך-הקשר מוכרות כאחד הנושאים שבהם פערים בין מבחן למציאות הם גדולים במיוחד.

קלוד סונט 4.6, צילום: ללא

בנושא אבטחה: אנתרופיק מדווחת על שיפור בהגנה מפני מה שמכונה "הזרקת הנחיות" - ניסיון של גורמים עוינים להטמין הוראות מוסוות בדפי אינטרנט שהמודל מבקר בהם.

לפי החברה, Sonnet 4.6 עמיד בצורה משמעותית יותר מקודמו, ומקביל לביצועי הדגם הבכיר שלה. עבור ארגונים המשתמשים ב-Microsoft Excel, התוסף Claude for Excel מקבל תמיכה בחיבורים חיצוניים מסוג MCP, מה שמאפשר לשלוף נתונים ממאגרים כמו PitchBook, FactSet ו-S&P Global ישירות לגיליון, ללא מעבר בין אפליקציות.

תזכורת: 'לוד אינו מודל אחד אלא משפחה שלמה. אנתרופיק מחלקת את הקו שלה לשלוש שכבות: Opus לביצועים המאתגרים ביותר, Sonnet לעבודה היומיומית, ו-Haiku למשימות מהירות ובעלות נמוכה. Opus 4.6, שיצא שבועיים לפני Sonnet 4.6, מיועד לביצוע משימות מורכבות במיוחד כמו ניהול מספר סוכני AI בו-זמנית.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו