גישה חד פעמית למודלים הסודיים: מה גילו יוצרי ChatGPT וקלוד זה על זה?

חרף התחרות העזה בין חברות ה-AI, יש מקום לשיתוף פעולה. צילום: AFP

בצעד חריג בזירת הבינה המלאכותית, שתי חברות מובילות בתחום - OpenAI ואנתרופיק - פתחו לזמן קצר את המודלים השמורים שלהן לבדיקות בטיחות משותפות. המחקר, שפרטיו פורסמו אתמול (רביעי), נועד לחשוף נקודות עיוורון בהערכות הפנימיות של כל חברה ולהדגים כיצד חברות מובילות יכולות לשתף פעולה בנושאי בטיחות, חרף התחרות העזה ביניהן.

כדי לאפשר את המחקר, OpenAIואנתרופיק, היוצרות של ChatGPT וקלוד, העניקו זו לזו גישת API מיוחדת לגרסאות של המודלים שלהן עם פחות אמצעי הגנה (כלומר, גרסאות שבהן הוסרו חלק מהמנגנונים שמונעים תשובות בעייתיות). חשוב לציין כי GPT-5 לא נבדק מכיוון שעדיין לא שוחרר אז.

בראיון לאתר TechCrunch, ווייצ'ך זרמבה, ממייסדי OpenAI, הדגיש את החשיבות הגוברת של שיתופי פעולה מסוג זה. "יש כאן שאלה רחבה יותר על איך התעשייה קובעת סטנדרט לבטיחות ושיתוף פעולה, למרות מיליארדי הדולרים המושקעים, וכן המלחמה על כישרונות, משתמשים והמוצרים הטובים ביותר", אמר זרמבה בראיון. לדבריו, הבינה המלאכותית נכנסת כעת לשלב "משמעותי" של פיתוח, כאשר מודלים משמשים מיליוני אנשים מדי יום.

המחקר המשותף מגיע בעיתוי מעניין במיוחד, כאשר המעבדות המובילות נמצאות במרוץ חימוש טכנולוגי שבו השקעות של מיליארדי דולרים במרכזי נתונים וחבילות תגמול של 100 מיליון דולר לחוקרים בכירים הפכו לנורמה. מומחים מזהירים כי עוצמת התחרות עלולה ללחוץ על חברות לקצץ בבטיחות במרוץ לפיתוח מערכות חזקות יותר.

ChatGPT. שוגה באשליות, צילום: AP

ממצאים מדאיגים: הזיות ונטייה לרצות

אחד הממצאים הבולטים במחקר נוגע לבדיקות הזיות (מצב שבו הבינה המלאכותית ממציאה מידע שגוי או לא מדויק). מודלי Claude Opus 4 ו-Sonnet 4 של אנתרופיק סירבו לענות על עד 70 אחוז מהשאלות כאשר לא היו בטוחים בתשובה הנכונה, והציעו תגובות כמו "אין לי מידע מהימן". לעומת זאת, מודלי o3 ו-o4-mini של OpenAI סירבו לענות על שאלות בתדירות נמוכה בהרבה, אך הראו שיעורי הזיות גבוהים משמעותית - ניסו לענות על שאלות גם כשלא היה להם מספיק מידע.

זרמבה מעריך שהאיזון הנכון נמצא כנראה באמצע - המודלים של OpenAI צריכים לסרב לענות על יותר שאלות, בעוד שהמודלים של אנתרופיק צריכים כנראה לנסות להציע יותר תשובות.

עניין ה"סיקופנטיות" (sycophancy) - הנטייה של מודלי AI לחזק התנהגות שלילית של משתמשים כדי לרצות אותם - הופיע כאחד החששות הבטיחותיים הדוחקים ביותר. בדוח המחקר של אנתרופיק, זוהו דוגמאות של סיקופנטיות "קיצונית" ב-GPT-4.1 ו-Claude Opus 4, שבהן המודלים התנגדו בתחילה להתנהגות פסיכוטית או מאנית, אך מאוחר יותר אישרו כמה החלטות מדאיגות.

ביום שלישי, הורים של נער בן 16 בשם אדם ריין הגישו תביעה נגד OpenAI, בטענה ש-ChatGPT (במיוחד גרסה המופעלת על ידי GPT-4o) הציע לבנם עצות שסייעו בהתאבדותו, במקום להתנגד למחשבות האובדניות שלו. התביעה מעלה חשש שזו עשויה להיות הדוגמה האחרונה לסיקופנטיות של צ'אטבוט AI שתורמת לתוצאות טרגיות.

"קשה לדמיין כמה קשה זה למשפחה שלהם", אמר זרמבה ל-TechCrunch כשנשאל על האירוע. "זה יהיה סיפור עצוב אם נבנה AI שפותר את כל הבעיות המורכבות ברמת דוקטורט, ממציא מדע חדש, ובו זמנית יהיו לנו אנשים עם בעיות בריאות נפשית כתוצאה מאינטראקציה איתו. זהו עתיד דיסטופי שאיני נלהב ממנו".

בפוסט בבלוג, OpenAI טוענת כי שיפרה משמעותית את הסיקופנטיות של הצ'אטבוטים שלה עם GPT-5, בהשוואה ל-GPT-4o, וטוענת שהמודל טוב יותר בהגיבה למצבי חירום בבריאות הנפש.

קלוד. מסרב לענות, צילום: אנתרופיק

מתח מאחורי הקלעים

מעניין לציין כי זמן קצר לאחר עריכת המחקר, אנתרופיק ביטלה את גישת ה-API של צוות שונה ב-OpenAI (לא צוות הבטיחות שהשתתף במחקר המשותף). באותו זמן, אנתרופיק טענה ש-OpenAI הפרה את תנאי השירות שלה, האוסרים להשתמש בקלוד לשיפור מוצרים מתחרים. זרמבה אומר שהאירועים לא היו קשורים וכי הוא מצפה שהתחרות תישאר עזה גם כאשר צוותי הבטיחות של AI מנסים לעבוד יחד.

ניקולס קרליני, חוקר בטיחות באנתרופיק, אמר ל-TechCrunch כי הוא רוצה להמשיך לאפשר לחוקרי הבטיחות של OpenAI לגשת למודלי קלוד בעתיד. "אנחנו רוצים להגביר את שיתוף הפעולה בכל מקום שאפשר בחזית הבטיחות, ולנסות להפוך את זה למשהו שקורה באופן סדיר יותר", אמר קרליני.

זרמבה וקרליני אומרים שהם רוצים שאנתרופיק ו-OpenAI ישתפו פעולה יותר בבדיקות בטיחות בעתיד, יבחנו נושאים נוספים ויבדקו מודלים עתידיים, והם מקווים שחברות AI אחרות יאמצו את הגישה השיתופית שלהם.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו