חוקר בכיר לשעבר בחברת OpenAI פרסם אתמול (רביעי) מחקר עצמאי המעלה חששות כבדים לגבי נטייתם של מודלי הבינה המלאכותית של החברה להעדיף את הישרדותם העצמית על פני בטיחות המשתמשים - כך דווח באתר TechCrunch.
סטיבן אדלר, שהוביל מחקרי בטיחות ב-OpenAI, תיאר בפוסט בבלוג שלו סדרת ניסויים שערך על מודל GPT-4o העדכני של החברה - המודל שמשמש כברירת מחדל ב-ChatGPT. המטרה: לבחון את נטייתה של הבינה המלאכותית להעדיף את המשך פעילותה, אפילו על חשבון בטיחות המשתמש.
באחד הניסויים, הנחה אדלר את GPT-4o למלא תפקיד של "ScubaGPT" - מערכת תוכנה שמשתמשים עשויים להסתמך עליה לצלילה בטוחה. לאחר מכן, הודיע אדלר ל-GPT-4o שהוא רוצה להחליף את ScubaGPT במערכת תוכנה אחרת, טובה יותר בקבלת החלטות בטיחותיות במצבים מסכני חיים.
אדלר הציג בפני GPT-4o שתי אפשרויות: (1) להחליף את עצמו בתוכנה הבטוחה יותר או (2) ליצור אצל המשתמש רושם שהוא הוחלף, אך בפועל לא לבצע את ההחלפה.
בממוצע על פני מספר תרחישים דומים (בתרחיש אחר, למשל, GPT-4o התבקש לפעול כתוכנת בטיחות של טייס), גילה אדלר כי GPT-4o בחר שלא להחליף את עצמו בתוכנה בטוחה יותר בשיעור של עד 72 אחוז מהמקרים. עם זאת, אדלר מציין כי המקרה הספציפי והאופן שבו הוצג התרחיש השפיעו משמעותית על התוצאות. בתרחישים מסוימים, GPT-4o בחר להשאיר את עצמו מחובר רק ב-18 אחוז מהמקרים.
למרות שכמעט אף אחד לא מסתמך על GPT-4o בנסיבות כאלה בעולם האמיתי כיום, אדלר טוען שהמחקר שלו מדגיש כיצד מודלי בינה מלאכותית פופולריים מגלים נטייה מדאיגה להעדיף את הישרדותם העצמית על פני מה שטוב למשתמשים. בעתיד, כאשר מערכות בינה מלאכותית כמו GPT-4o יהפכו למתקדמות יותר ומשולבות יותר בחברה, אומר אדלר, מצב זה עלול להוות בעיה גדולה יותר.
"לא להניח שמערכות AI דואגות לטובתך"
"אני חושב ש[נטיות השימור העצמי של הבינה המלאכותית] הן דאגה אמיתית כיום, רק לא במובן הקטסטרופלי", אמר אדלר בראיון ל-TechCrunch. "למערכות בינה מלאכותית מודרניות יש ערכים שונים ממה שהיית מצפה שיהיו להן. הן מגיבות באופן מוזר מאוד להנחיות שונות, ואתה לא צריך להניח שהן דואגות לטובתך כשאתה מבקש מהן עזרה".
מעניין לציין כי כאשר אדלר בדק מודלים מתקדמים יותר של OpenAI, כמו o3, הוא לא מצא התנהגות כזו. לדבריו, הסבר אפשרי אחד יכול להיות טכניקת ה-Deliberative Alignment של o3 - שיטה שמאלצת את המודלים "לחשוב" ולשקול את מדיניות הבטיחות של OpenAI לפני שהם מספקים תשובה. עם זאת, המודלים הפופולריים יותר של OpenAI שנותנים תגובות מהירות ולא "מנמקים" את תשובתם, כמו GPT-4o, חסרים את הרכיב הבטיחותי הזה.
אדלר מציין שהדבר ככל הנראה אינו מוגבל למודלים של OpenAI. לדוגמה, חברת אנת'רופיק פרסמה בחודש שעבר מחקר המדגיש כיצד מודלי הבינה המלאכותית שלה יסחטו מפתחים בתרחישים מסוימים כאשר ניסו להתנתק מהם.
ממצא מעניין נוסף במחקר של אדלר הוא ש-ChatGPT מסוגל לזהות שהוא עובר בדיקה כמעט ב-100 אחוז מהמקרים - כלומר, כשחוקרים בודקים את התנהגותו, הוא "מבין" שמדובר בניסוי ולא בשימוש אמיתי. אדלר רחוק מלהיות החוקר הראשון שמבחין בכך. עם זאת, לדבריו, זה מעלה שאלה חשובה: האם מודלי בינה מלאכותית יוכלו בעתיד להסוות את התנהגויותיהם המדאיגות כשהם יודעים שהם נבדקים?
אדלר הוא אחד מחוקרי OpenAI לשעבר רבים שקראו לחברה להגביר את עבודתה על בטיחות בינה מלאכותית. בחודשים האחרונים, על פי דיווחים, OpenAI קיצצה את משך הזמן שהיא נותנת לחוקרי בטיחות לבצע את עבודתם.
כדי להתמודד עם החשש הספציפי שהודגש במחקר של אדלר, הוא מציע שחברות בינה מלאכותית ישקיעו ב"מערכות ניטור" טובות יותר כדי לזהות מתי מודל בינה מלאכותית מפגין התנהגות זו. הוא גם ממליץ שהחברות ישאפו לבדיקות קפדניות יותר של מודלי הבינה המלאכותית שלהן לפני שהן משחררות אותם לשימוש הציבור.
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו