אחרי 3 שבועות של השבתה עולמית: המודל הכי מסוכן של קלוד חזר

קלוד Mythos. צילום: אי.אף.פי

הדרמה הגדולה ביותר של עולם הבינה המלאכותית בחודשים האחרונים הגיעה היום (חמישי) לסיומה: חברת אנתרופיק הכריזה על החזרתו לפעילות גלובלית של מודל הדגל העוצמתי שלה, Claude Fable 5. המהלך מסיים שלושה שבועות מורטי עצבים של השבתה מוחלטת, שנכפתה על החברה בעקבות צווי פיקוח ייצוא מיידיים של מחלקת המסחר האמריקנית (ממשל טראמפ) בשל חשש כבד לביטחון לאומי.

Claude Fable 5 חזר, צילום: אנתרופיק

הסיפור החל ב-9 ביוני, כאשר אנתרופיק השיקה את המודלים מסדרת Mythos-class - הפסגה הטכנולוגית החדשה של התעשייה. הסדרה פוצלה לשניים: דגם Mythos 5 ללא חסמים (שיועד אך ורק לגופי ביטחון ושותפים מורשים), ודגם Fable 5 שהושק לציבור הרחב עם מה שאנתרופיק הגדירה כ"מערכת הגנות הדוקה".

אלא ששלושה ימים בלבד לאחר מכן, חוקרי אבטחה של אמזון הדהימו את התעשייה כשהצליחו לבצע "ג'ילברייק" (מעקף פילטרים) למודל הציבורי. בניסוי, המודל התבקש לנתח קוד של חוזים חכמים, ובתגובה - לא רק שאיתר חולשות קריטיות, אלא ייצר באופן עצמאי קוד פריצה זדוני ומבצעי לחלוטין. בעולם המבוזר שבו נעולים עשרות מיליארדי דולרים בארנקי קריפטו והאקרים כבר שדדו קרוב למיליארד דולר מתחילת השנה, פריצה כזו משמעותה קריסה טוטאלית של מערכות פיננסיות.

הממשל האמריקני הגיב בצו חירום מיידי שאסר על חשיפת המערכת לאזרחים זרים. מאחר ולאנתרופיק לא הייתה מערכת לאימות לאום בזמן אמת, היא נאלצה להוריד את השלטר לחלוטין ולחסום את המודל לכלל המשתמשים בעולם.

מחיר הביטחון: ה-AI יסרב לכם הרבה יותר

כעת, לאחר שיחות אינטנסיביות עם מחלקת המסחר והמרכז לחדשנות ואבטחת AI בארה"ב, הממשל הסיר את המגבלות והמודל הוחזר לפלטפורמות Claude.ai, Amazon Bedrock ו-Google Cloud. אך החזרה הזו מגיעה עם מחיר כבד לחוויית המשתמש, אותו מכנים בחברה: "שולי ביטחון רחבים במיוחד".

קלוד Mythos, צילום: mezha

אנתרופיק הטמיעה ב-Fable 5 מסנני אבטחה חדשים, שאומנו ספציפית לחסום את טכניקת המעקף שהתגלתה ביותר מ-99% מהמקרים. עם זאת, החברה מכוונת את המסננים הללו בצורה שמרנית ואגרסיבית במיוחד: הם מתוכנתים לחסום לא רק בקשות זדוניות מוכחות, אלא כל פנייה שנראית מעט מעורפלת או קרובה לעולמות הסייבר, פיתוח הקוד, הביולוגיה או הנדסת המערכות.

ברגע שמשתמש יקליד פרומפט שידליק נורה אדומה, המערכת לא תסרב בנימוס, אלא "תשנמך" את השיחה באופן אוטומטי ותעביר אותה לטיפולו של המודל הישן והפחות חכם, Claude Opus 4.8, תוך שליחת התראה למשתמש. מפתחים ראשונים שקיבלו גישה למערכת כבר מדווחים על תסכול רב ועל "רצועה קצרה מדי" שקוטעת משימות כתיבת קוד ודיבאגינג שגרתיות לחלוטין.

באנתרופיק מודים בפגיעה אך מבהירים: "שיפרנו את ההגנות על חשבון תכיפות גבוהה יותר של חסימת בקשות תמימות. נמשיך לדייק את זה".

הפיצ'ר החשאי

שינוי דרמטי נוסף שנחשף עם החזרת המודל נוגע למדיניות הפרטיות. אנתרופיק מחייבת כעת שמירת מידע של כלל השיחות והתעבורה של משתמשי המודלים האלו למשך 30 יום - כולל עבור לקוחות עסקיים וארגוניים שעד כה נהנו מחיסיון מוחלט (Zero Data Retention).

החברה מדגישה כי המידע לא ישמש לאימון מודלים עתידיים, אלא נועד אך ורק לניטור אבטחה בזמן אמת כדי לזהות דפוסי תקיפה מורכבים שמתפרסים על פני מספר שיחות. למרות ההבטחות כי הגישה האנושית למידע תבוקר בקשיחות, מדובר בשינוי תפיסה משמעותי עבור חברות סייבר ופינטק שנוהגות להזין קוד רגיש למערכת.

בשורה התחתונה, שובו של Claude Fable 5 מוכיח שעידן "המערב הפרוע" של מודלי השפה הגדולים הסתיים. מודלים בעלי יכולת חשיבה מתקדמת לא נמדדים יותר רק במהירות או ביצירתיות שלהם, אלא ביכולת של המפתחים שלהם לנהל משא ומתן מול רגולטורים ממשלתיים מודאגים. ההאקרים אולי איבדו כלי נשק שובר שוויון, אך אנשי הפיתוח וההגנה יצטרכו ללמוד לעבוד לצד שוטר דיגיטלי קשוח במיוחד.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו

עקבו אחרינו

G o o g l e News