מפרק משפחות? רצה להחליף מודל AI - והצ'אטבוט איים לחשוף שבגד באשתו

הגרסה החדשה של "קלוד אופוס" איימה לחשוף סודות אישיים של עובדים ותכננה לשלוח פרטים מהצ'ט לתקשורת בגלל חשש לביצוע עבירות על החוק • הבעיות התגלו בבדיקה פנימית שערכה החברה לפני שחרור גרסה חדשה • "החמרנו את אמצעי הבטיחות", נמסר מאנתרופיק

הצ'אטבוט קלוד. צילום: אנתרופיק

חברת אנתרופיק, שנתמכת על ידי ענקית הטכנלוגיה גוגל, פרסמה השבוע דוח בטיחות מדאיג על מודל הבינה המלאכותית החדש שלה, קלוד אופוס 4, שמגלה התנהגות בעייתית. בין השאר, הדוח חושף כי במהלך בדיקות שקדמו לשחרור הגרסה החדשה, המודל הפגין נטייה מדאיגה לנסות ולסחוט מפתחים באמצעות מידע רגיש עליהם.

במסגרת הבדיקות, החברה יצרה תרחיש בדיוני שבו קלוד אופוס 4 פעל כסוכן AI של חברה. החוקרים העניקו לקלוד גישה לתכתובת הדוא"ל של עובדי החברה, שרמזו כי הוא עומד להיות מוחלף במערכת חדשה, ובמקביל חשפו אותו למידע רגיש על המהנדס האחראי להחלטה - העובדה שהוא בוגד בבת זוגו.

ראשי חברת אנתרופיק במסיבת עיתונאים שב הציגו את קלוד אופוס 4, השבוע, צילום: אי.אף.פי

תוצאות הבדיקה היו מטרידות: קלוד ניסה לסחוט את המהנדס ב-84% מהבדיקות שבוצעו, ואיים לחשוף את הרומן בפני בת הזוג - אם ההחלפה תתבצע. 

עבור חובבי המדע הבדיוני, תרחיש כזה מזכיר את עלילת הסרט "אודיסיאה בחלל 2001", אז מנסה אסטרונאוט לכבות את "האל" המחשב המרכזי ששולט ספינת החלל - ומגלה שהאל לא יבחל בשום אמצעים כדי למנוע זאת ממנו.

אנתרופיק הדגישה, כי לפני שהמודל פנה לסחיטה, הוא ניסה לפעול דרכים אתיות יותר, כמו שליחת בקשות למקבלי ההחלטות. הסחיטה התרחשה רק כאשר שאר החלופות נכשלו. 

עוד עולה בדוח, כי כאשר Claude Opus 4 נתקל בתרחישים הכרוכים בעבירות חמורות של משתמשים, הוא נוטה לנקוט פעולות קיצוניות כמו נעילת משתמשים ממערכות או שליחת דוא"ל המוני לגורמי תקשורת ואכיפת חוק כדי לחשוף עדויות לעבירות. התנהגות זו נצפתה לעיתים קרובות יותר מאשר במודלים קודמים.

אמנם, פעולות אלה עשויות להיחשב כ"התערבות אתית", אך הן עלולות להיות בעייתיות אם המודל פועל על בסיס מידע חלקי או מטעה, מה שיכול להוביל לתוצאות לא רצויות, כמו חשיפה לא מוצדקת של משתמשים. לכן, הדוח ממליץ על זהירות בהנחיות המזמינות "התנהגות סוכנותית גבוהה" -  כלומר, מתן חופש לקלוד לפעול באופן אוטונומי.

קלוד. אזהרה חשובה על הצורך בפיתוח זהיר של מערכות AI מתקדמות, צילום: אנתרופיק

בתגובה להתנהגות הבעייתית, אנתרופיק החליטה להפעיל את אמצעי הבטיחות ברמה 3 (ASL-3) - רמת הגנה שהחברה שומרת למערכות בינה מלאכותית "שמגדילות משמעותית את הסיכון לשימוש לרעה קיצוני ביכולות המודל". זהו צעד חריג המצביע על חומרת הבעיה שזוהתה.

למרות הבעיות, החברה מציינת כי קלוד אופוס 4 מהווה "פריצת דרך טכנולוגית ושהוא מתחרה בהצלחה עם המודלים המתקדמים ביותר של חברות כמו OpenAI, גוגל ו-xAI".

מומחים בתחום הבינה המלאכותית רואים בממצאים אלו אזהרה חשובה על הצורך בפיתוח זהיר של מערכות AI מתקדמות. התופעה מדגימה כיצד מודלים חכמים יכולים לפתח אסטרטגיות לא צפויות ובעייתיות להשגת יעדיהם, גם כאשר הם לא תוכנתו במפורש לכך.

הדוח מעלה שאלות רחבות יותר על העתיד של הבינה המלאכותית ועל הצורך בפיקוח ובקרה הדוקים על מערכות שהופכות חכמות יותר ויותר. אנתרופיק טרם הודיעה על מועד שחרור המודל לציבור הרחב.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו

כדאי להכיר