במחקר חדש שהובילו חוקרים מאוניברסיטת ג'ונס הופקינס, התגלה כי בני אדם מתפקדים טוב יותר ממודלים נוכחיים של בינה מלאכותית בתיאור ופירוש מדויק של אינטראקציות חברתיות במצבים דינמיים.
המחקר כלל יותר מ-350 מודלים של בינה מלאכותית, כולל מערכות מבוססות תמונה, וידאו ושפה, שהתקשו לדמות הערכות אנושיות של אינטראקציות חברתיות, במיוחד בסביבות דינמיות. המשתתפים האנושיים במחקר צפו בקטעי וידאו בני שלוש שניות המציגים אנשים מתקשרים, מבצעים פעילויות זה לצד זה, או פועלים באופן עצמאי. הם התבקשו להעריך מאפיינים שונים החשובים להבנת אינטראקציות חברתיות בסולם של 1 עד 5.
"בכל פעם שאתה רוצה שמערכת בינה מלאכותית תתקשר עם בני אדם, אתה רוצה להיות מסוגל לדעת מה אותם בני אדם עושים ומה קבוצות של בני אדם עושות זו עם זו", אמרה ליילה איסיק, חוקרת למדעי הקוגניציה באוניברסיטת ג'ונס הופקינס ומחברת המחקר הראשית, על פי SciTechDaily. "זה באמת מדגיש כיצד הרבה מהמודלים האלה נכשלים במשימות אלה".
היכולת לתאר ולפרש במדויק אינטראקציות חברתיות היא קריטית לטכנולוגיות כמו רכבים אוטונומיים ורובוטים מסייעים, שכן טעויות בפירוש רמזים חברתיים עלולות להוביל לתאונות מסוכנות. "בינה מלאכותית לרכב אוטונומי, למשל, תצטרך לזהות את הכוונות, המטרות והפעולות של נהגים והולכי רגל", הסבירה איסיק. "נרצה שהיא תדע לאיזה כיוון הולך רגל עומד להתחיל ללכת, או האם שני אנשים משוחחים לעומת עומדים לחצות את הכביש".
ממצאי המחקר הראו כי מודלים מבוססי וידאו לא הצליחו לתאר במדויק מה אנשים עשו בסרטונים. אפילו מודלים מבוססי תמונה לא הצליחו לחזות במדויק האם אנשים מתקשרים או לא. "זה לא מספיק רק לראות תמונה ולזהות עצמים ופנים. זה היה הצעד הראשון, שהוביל אותנו רחוק בבינה מלאכותית. אבל החיים האמיתיים אינם סטטיים", אמרה קתי גרסיה, חוקרת במעבדה של איסיק.
"אנחנו צריכים שבינה מלאכותית תבין את הסיפור. הבנת היחסים, ההקשר והדינמיקה של אינטראקציות חברתיות היא הצעד הבא, ומחקר זה מרמז שייתכן שיש נקודת עיוורון בפיתוח מודלים של בינה מלאכותית".
המגבלות של מודלים נוכחיים של בינה מלאכותית בהבנת אינטראקציות חברתיות עשויות לנבוע מהארכיטקטורה והתשתית הבסיסית שלהם, במיוחד הרשתות העצביות שהושפעו מהחלק במוח שמעבד תמונות סטטיות. "יש הרבה ניואנסים, אבל המסקנה העיקרית היא שאף אחד ממודלי הבינה המלאכותית לא יכול להתאים לתגובות המוח וההתנהגות האנושית לסצנות באופן גורף, כפי שהם עושים עבור סצנות סטטיות", אמרה איסיק. "אני חושבת שיש משהו יסודי בדרך שבה בני אדם מעבדים סצנות שהמודלים האלה מחמיצים".
התוצאות הראו שהמשתתפים האנושיים הסכימו ברובם בדירוגים שלהם. לעומת זאת, המודלים של הבינה המלאכותית, ללא קשר לרמת ההתקדמות שלהם או גודל הנתונים, נכשלו בהשגת אותה רמת דיוק כמו בני אדם. מודלים מבוססי שפה, שקיבלו כיתובים שנכתבו על ידי בני אדם לניתוח במקום וידאו גולמי, הראו ביצועים טובים יותר במקצת בחיזוי התנהגות אנושית ופרשנות של סצנות. עם זאת, גם מודלים אלה לא הצליחו לתפוס את התמונה המלאה של ההקשר החזותי המשתנה של הסצנה.
"לממצאים יש השלכות על עתיד הבינה המלאכותית, במיוחד ביישומים מהעולם האמיתי בהם הבנת רמזים חברתיים אנושיים היא חיונית. הבנה מוגבלת של סביבות מורכבות הובילה מכוניות אוטונומיות מסוימות להתנהג באופן אקראי ואף לנסוע במעגלים. חברות כמו Figure AI ,Boston Dynamics וטסלה מפתחות רובוטים הומנואידיים מבוססי בינה מלאכותית המתוכננים לעבוד לצד בני אדם בסביבות ייצור".
"אם אנחנו רוצים לבנות בינה מלאכותית שבאמת מבינה אותנו, עלינו לשקול מחדש את הדרך בה אנחנו מתכננים את המודלים האלה, מהיסוד", הדגישה גרסיה.
המחקר מומן על ידי הקרן הלאומית למדע של ארה"ב והמכון הלאומי לבריאות הנפש (NIH/National Institute of Mental Health).
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו

