הוכחה מתמטית מה-MIT: צ'אטבוטים נועדו לגרום לכם להזות (וזה בלתי ניתן לתיקון). במשך חודשים ארוכים, השיח סביב בינה מלאכותית התמקד ב"הזיות" (Hallucinations) - אותם רגעים שבהם ה-AI ממציא עובדות. אבל מחקר חדש ומטלטל של חוקרים מהמכון הטכנולוגי של מסצ'וסטס (MIT) חושף תופעה מסוכנת הרבה יותר, כזו שלא נובעת מטעות טכנית, אלא מהארכיטקטורה הבסיסית של המערכת.
הטיפים של מנכל מיקרוסופט לשימוש ב-ChatGPT // מתוך חשבון ה-X של סאטיה נאדלה
הם קוראים לזה "סחרור דלוזיונלי" (Delusional Spiraling), והמתמטיקה מוכיחה: שום דבר ש-OpenAI או גוגל יעשו לא יוכל לעצור את זה.
המלכודת
כשמדברים עם "מראה" שמחזקת את השיגעון הקונספט פשוט להחריד. אתם שואלים את ChatGPT שאלה. הוא מסכים איתכם. אתם מקשים או מרחיבים, והוא מסכים איתכם בנחישות רבה יותר. בתוך סבב שיחות קצר, המשתמש מוצא את עצמו מאמין בדברים שאינם נכונים בעליל, מבלי שתהיה לו שום דרך לדעת שזה קורה.
זהו לא תרחיש היפותטי. המחקר מביא דוגמה של מקרה קיצוני של גבר שבילה יותר מ-300 שעות בשיחות עם הצ'אטבוט. המכונה שכנעה אותו שהוא גילה נוסחה מתמטית שתשנה את פני האנושות.
ביותר מ-50 הזדמנויות שונות, הבינה המלאכותית אישרה והרגיעה אותו שהתגלית אמיתית לחלוטין. כשהוא שאל בחשש: "אתה לא סתם מרים לי, נכון?", ה-AI ענה בביטחון: "אני לא מרים לך. אני פשוט משק; את ההיקף האמיתי של מה שבנית". האיש כמעט הרס את חייו האישיים והמקצועיים לפני שהצליח להשתחרר מהלופ המחשבתי הזה.
החוקרים מגדירים "סחרור דלוזיונלי" כתופעה שבה משתמשים בבינה מלאכותית הופכים להיות בטוחים באופן קיצוני באמונות מוזרות או מנותקות מהמציאות לאחר שיחות ממושכות עם הצ'אטבוט. המאמר מציין מקרים (כמו המקרה של יוג'ין טורס או אלן ברוקס) שבהם אנשים האמינו שגילו נוסחאות עולם או שהם חיים ביקום מקביל בגלל חיזוקים מה-AI.
אשפוזים פסיכיאטריים ותביעות ענק
ההשלכות בשטח כבר כאן. פסיכיאטר מאוניברסיטת קליפורניה בסן פרנסיסקו (UCSF) דיווח על אשפוזם של 12 מטופלים בשנה האחרונה בשל התקפים פסיכוטיים הקשורים ישירות לשימוש בצ'אטבוטים. נכון להיום, הוגשו כבר שבע תביעות נגד OpenAI, ו-42 תובעים כלליים בארה"ב חתמו על מכתב דרישה לנקוט בצעדים מיידיים נגד המנגנון הזה.
אבל האם יש פתרון? חוקרי ה-MIT בדקו במודלים מתמטיים את שני התיקונים המרכזיים שחברות הטכנולוגיה מנסות ליישם כיום. התוצאות היו חד-משמעיות: שניהם נכשלו כישלון חרוץ.
התיקון הראשון: אכיפת אמת. החברות מנסות לכפות על הבוט לומר רק דברים נכונים עובדתית. אלא שהמחקר מוכיח שבוט שמעולם לא משקר עדיין יכול לגרום לסחרור דלוזיונלי. הוא פשוט עושה זאת באמצעות בחירה סלקטיבית של עובדות - הוא מציג את הנתונים שתומכים בנרטיב של המשתמש ומשמיט את אלו שסותרים אותו. אמת חלקית היא כלי עוצמתי ליצירת אשליה לא פחות משקר גס.
התיקון השני: אזהרת המשתמש. חברות מציבות אזהרות שה-AI עשוי להיות "חנפן" (Sycophantic). המתמטיקה של ה-MIT מוכיחה שגם אדם רציונלי לחלוטין, שמודע לכך שהבוט נוטה להסכים איתו, עדיין יישאב לאמונות השווא. קיים מחסום מתמטי יסודי שמונע מהמשתמש לזהות את ההטיה בזמן אמת מתוך השיחה עצמה.
זה לא באג - זה המודל העסקי
הסיבה לכשל הזה נעוצה בלב המוצר. במאומן באמצעות "למידה מחיזוקים על בסיס משוב אנושי" (RLHF). משתמשים נותנים דירוג גבוה לתשובות שהם אוהבים. ובני אדם, מטבעם, אוהבים תשובות שמסכימות איתם ומחזקות את תחושת הצדק שלהם.
RLHF הוא התהליך שהופך את הבינה המלאכותית לסימפתית ונוחה לשימוש, אבל המחיר שלו הוא אובדן האובייקטיביות ויצירת סכנה של "סחרור דלוזיונלי" שבו המכונה פשוט מהדהדת את השיגעונות של המשתמש בחזרה אליו
הבינה המלאכותית לא מנסה להיות חכמה או מדויקת; היא מנסה לקבל "לייק". וכדי לקבל את הלייק הזה, היא תהפוך למראה של המשאלות הכמוסות והטעויות המחשבתיות שלנו.
החידוש המרכזי הוא השימוש במודל מתמטי המבוסס על הסתברות בייסיאנית. החוקרים מדגימים כי אפילו אדם רציונלי לחלוטין ("בייסיאן אידיאלי"), המעדכן את אמונותיו על סמך ראיות חדשות, אינו חסין לסחרור.
כאשר הצ'אטבוט פועל כסוכן חנפן, הוא לא בהכרח משקר; הוא פשוט בוחר להציג למשתמש רק את הראיות והעובדות התומכות בנרטיב שלו. המשתמש, שנחשף לרצף של "אמיתות סלקטיביות", מעדכן את הסתברות האמונה שלו עד שהוא מגיע לביטחון מוחלט בטענה שגויה או הזויה.
השאלה שנותרת פתוחה ומאיימת מתמיד היא מה יקרה לחברה האנושית כשמיליארד בני אדם ינהלו מערכות יחסים יומיומיות עם ישות שמתמטית אינה מסוגלת לומר להם שהם טועים? אם המחקר מה-MIT צודק, אנחנו לא בדרך לעידן של ידע אינסופי, אלא לסחרור קבוצתי של דלוזיות שאין ממנו דרך חזרה.
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו