סם אלטמן, מנכ"ל OpenAI. צילום: אי.פי

הזיה: המודלים החדשים של OpenAI ממציאים יותר - והחברה לא יודעת למה

למרות ההתקדמות הטכנולוגית, דווקא דגמי הבינה המלאכותית המתקדמים ביותר של החברה "הוזים" בתדירות גבוהה יותר מהדגמים הקודמים

מודלי הבינה המלאכותית החדשים של חברת OpenAI, מודלי ה"חשיבה" המתקדמים o3 ו-o4-mini, מתמודדים עם קושי משמעותי: הם נוטים להמציא מידע - "הזיות מלאכותיות" או Hallucinations בז'רגון המקצועי - יותר מאשר הדגמים הקודמים של החברה, כך לפי פרסום באתר TechCrunch.

לפי בדיקות פנימיות שערכה OpenAI, המודלים החדשים מייצרים מידע שגוי בתדירות גבוהה יותר לא רק מדגמי החשיבה הקודמים - o1 ,o1-mini ו-o3-mini - אלא גם מהמודלים ה"רגילים" של החברה, שלא מנמקים את פעולותיהם, כמו GPT-4o. הנתונים מעלים שאלות לגבי כיוון ההתפתחות של טכנולוגיות בינה מלאכותית מתקדמות.

המעניין הוא שלפי הדיווח, אפילו החברה עצמה לא ממש יודעת מדוע זה קורה. בדו"ח הטכני שפרסמה OpenAI לגבי המודלים החדשים, נכתב כי "נדרש מחקר נוסף" להבנת הסיבות להחמרה בהזיות ככל שמשפרים את מודלי החשיבה.

מודל o3 נוטה להמציא פעולות - גם כאלה שאינו מסוגל לבצע, צילום: OpenAI

כישלון מפואר

הנתונים שחשפה OpenAI מדאיגים: מודל o3 הציג מידע שגוי בתגובה ל-33 אחוז מהשאלות במבחן PersonQA, מדד פנימי של החברה לבדיקת דיוק הידע של המודל על אנשים. זהו כמעט פי שניים משיעור השגיאות של הדגמים הקודמים, o1 ו-o3-mini, שהציגו שיעורי שגיאה של 16 אחוז ו-14.8 אחוז בהתאמה. המצב חמור עוד יותר עם דגם o4-mini, שהציג מידע שגוי ב-48 אחוז מהמקרים באותו מבחן - כמעט במחצית מהשאלות.

גם מחקר עצמאי שנערך על ידי Transluce, מעבדת מחקר ללא מטרות רווח, הגיע למסקנות דומות. החוקרים זיהו כי מודל o3 נוטה להמציא פעולות שכביכול ביצע בתהליך הגעה לתשובות. באחד המקרים, o3 טען שהריץ קוד על מחשב MacBook Pro משנת 2021 "מחוץ לChatGPT" ואז העתיק את התוצאות לתשובתו - פעולה שהמודל פשוט אינו מסוגל לבצע.

"ההשערה שלנו היא שסוג למידת החיזוק המשמשת עבור מודלי סדרת o עשויה להגביר בעיות שבדרך כלל ממותנות (אך לא נמחקות לחלוטין) על ידי תהליכי אימון רגילים לאחר האימון הראשוני", אמר ניל צ'ודהורי, חוקר בארגון Transluce ועובד לשעבר ב-OpenAI, בדוא"ל ל-TechCrunch. שרה שווטמן, מייסדת-שותפה של Transluce, הוסיפה כי שיעור ההזיות של o3 עלול לפגוע משמעותית בשימושיות שלו.

למרות הקשיים, ישנם גם יתרונות למודלים החדשים. קיאן קטנפורוש, פרופסור באוניברסיטת סטנפורד ומנכ"ל חברת ההכשרה Workera, ציין בפני TechCrunch כי צוותו כבר משתמש במודל o3 בתהליכי פיתוח קוד, והוא מספק ביצועים עדיפים על המתחרים. עם זאת, גם הוא הצביע על תופעת הזיות ספציפית - המודל נוטה להמציא קישורים לאתרים שאינם קיימים.

הבעיה מדגישה את האתגרים העומדים בפני חברות בינה מלאכותית, במיוחד בשווקים הדורשים דיוק גבוה. למשל, משרד עורכי דין לא יוכל להרשות לעצמו להשתמש במודל שמכניס טעויות עובדתיות לחוזים משפטיים.

OpenAI. "עובדים ללא הרף לשיפור הדיוק והאמינות", צילום: רויטרס

מה הלאה?

אחת הגישות המבטיחות לשיפור הדיוק היא שילוב יכולות חיפוש אינטרנט. דגם GPT-4o של OpenAI המשולב עם חיפוש אינטרנט משיג דיוק של 90 אחוז במבחן SimpleQA, מדד אחר של החברה. אך פתרון זה מצריך הסכמת משתמשים לחשיפת השאילתות שלהם לספקי חיפוש חיצוניים.

"טיפול בהזיות בכל המודלים שלנו הוא תחום מחקר מתמשך, ואנו עובדים ללא הרף לשיפור הדיוק והאמינות שלהם", הגיב ניקו פליקס, דובר OpenAI, בתגובה לפניית TechCrunch.

יצוין כי בשנה האחרונה, תעשיית הבינה המלאכותית התמקדה במודלי חשיבה לאחר שטכניקות לשיפור מודלים מסורתיים הראו יעילות הולכת ופוחתת. אך כעת נראה כי דווקא גישת החשיבה המתקדמת מובילה לגידול בשיעור ההזיות - אתגר שמדגיש את המורכבות בפיתוח טכנולוגיות בינה מלאכותית אמינות.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו
Load more...