לתכנת 30 שעות ברצף: הכירו את המודל החדש של קלוד

"Claude Sonnet 4.5 הוא מודל התכנות הטוב ביותר בעולם". צילום: אנתרופיק

חברת אנתרופיק השיקה אתמול (שני) את Claude Sonnet 4.5, מודל הבינה המלאכותית החדש שלה, שלטענתה מציב רף חדש בביצועי תכנות. המודל החדש, שמחליף את Claude Sonnet 4, מציע את אותו התמחור למפתחים - שלושה דולר למיליון טוקנים של קלט ו-15 דולר למיליון טוקנים של פלט.

"Claude Sonnet 4.5 הוא מודל התכנות הטוב ביותר בעולם", נכתב בהודעת החברה. "זהו המודל החזק ביותר לבניית סוכנים מורכבים. זהו המודל הטוב ביותר בשימוש במחשבים. והוא מציג שיפורים משמעותיים בחשיבה ובמתמטיקה".

המודל החדש זמין כעת בכל המקומות - דרך ה-API של Claude (ממשק תכנות יישומים המאפשר למפתחים לשלב את היכולות באפליקציות שלהם), באפליקציות Claude, וב-Claude Code. מפתחים יכולים להשתמש בו פשוט על ידי שימוש ב-claude-sonnet-4-5 דרך ה-API.

על פי נתוני החברה, Claude Sonnet 4.5 מוביל בהערכת SWE-bench Verified, שמודדת יכולות תכנות תוכנה בעולם האמיתי. באופן מעשי, החברה מדווחת שהמודל הצליח לשמור על ריכוז במשך יותר מ-30 שעות במשימות מורכבות ורב-שלביות.

בנוסף, המודל מציג קפיצה משמעותית ביכולת השימוש במחשב. בבנצ'מרק OSWorld, שבודק מודלי AI במשימות מחשב בעולם האמיתי, Sonnet 4.5 מוביל כעת עם 61.4 אחוז. רק לפני ארבעה חודשים, Sonnet 4 החזיק בהובלה עם 42.2 אחוז.

החברה מדגישה: המודל בטוח ואמין יותר מקודמיו

מעבר להיותו המודל המתקדם ביותר של החברה, אנתרופיק מדגישה ש-Claude Sonnet 4.5 הוא גם המודל הבטוח והאמין ביותר שלה עד כה. החברה מדווחת על הפחתה משמעותית בהתנהגויות בעייתיות כמו חנופה, הונאה, ניסיונות להשיג יותר שליטה והשפעה, והנטייה לחזק אמונות שגויות אצל משתמשים.

החברה גם הצליחה לדבריה לשפר משמעותית את ההגנה מפני מניפולציות בפרומפט (הוראות שנותנים למודל) - מצב שבו משתמש זדוני מנסה לגרום למודל לעקוף את מגבלות הבטיחות שלו על ידי הוספת הוראות מוסתרות או מטעות בשיחה.

לצד המודל החדש, אנתרופיק משיקה גם את Claude Agent SDK - אותה תשתית שמפעילה את Claude Code, שכעת זמינה למפתחים לבניית סוכנים משלהם. בנוסף, החברה משיקה תצוגה מקדימה למחקר בשם "Imagine with Claude", שבה המודל יוצר תוכנות בזמן אמת בתגובה לבקשות המשתמש, ללא קוד או פונקציות שנכתבו מראש.

על פי אתר TechCrunch, דייוויד הרשי, חוקר AI באנתרופיק, מספר שבניסויים מוקדמים עם לקוחות ארגוניים, הוא ראה את Claude Sonnet 4.5 מתכנת באופן אוטונומי למשך עד 30 שעות. בזמן הזה, מודל ה-AI לא רק בנה אפליקציה, אלא גם הקים שירותי מסד נתונים, רכש שמות דומיין, וביצע ביקורת SOC 2 כדי לוודא שהמוצר מאובטח. החברה למעשה טוענת שהמודל מסוגל לבנות אפליקציות "מוכנות לייצור" ולא רק אבי-טיפוס.

מייקל טרואל, מנכ"ל Cursor, אמר בהצהרה ש-Claude Sonnet 4.5 מייצג ביצועי תכנות מהשורה הראשונה, במיוחד במשימות לטווח ארוך יותר. ג'ף וואנג, מנכ"ל Windsurf, אמר ש-Claude Sonnet 4.5 מייצג "דור חדש של מודלי תכנות".

אנתרופיק ממליצה לכל המשתמשים לשדרג ל-Claude Sonnet 4.5. "בין אם אתם משתמשים ב-Claude דרך האפליקציות שלנו, ה-API שלנו, או Claude Code, מודל Sonnet 4.5 הוא תחליף ישיר שמספק ביצועים משופרים בהרבה באותו מחיר", נכתב בהודעת החברה.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו