"צעד חשוב": מודל הבינה המלאכותית החדש שינסה לחקות את החשיבה האנושית

החברה הציגה את מודל ה-AI החדש שלה, שבמקום להגיע למסקנות על סמך המידע שהוזן לתוכו, הוא יגיע אליהן באופן עצמאי על ידי התבוננות במידע חיצוני, הבנתו והפשטתו – ממש כמו בני אדם

בינה מלאכותית (אילוסטרציה). צילום: Thinkstock Photos

חברת מטא הציגה אתמול (שלישי) את מודל הבינה המלאכותית החדש שלה, הנושא את השם Image Joint Embedding Predictive Architecture , או בקצרה – I-JEPA.

מדובר במודל שפועל אחרת בכל הקשור ללמידת העולם שלנו וביכולת להגיע למסקנות ולהבנות חדשות על סמך המידע שקיים בתוכו. עד כה, המודלים של הבינה המלאכותית יכלו להסיק מסקנות על העולם על בסיס החומר שהוזן אליהם. בצורה זו, המודלים היו יכולים למצוא מכנים משותפים בין המידע או התמונות שהוזנו אליהם, ואת המכנה המשותף הזה הם הפעילו על מידע חדש שהגיע אליהם כך שהם יכלו להסיק מסקנות ביחס אליו, וגם לייצר מידע חדש הנובע מהקווים הכלליים של המידע שיש ברשותם.

המודל החדש של חברת מטא דומה יותר לצורת החשיבה והלמידה האנושית שמסיקה מסקנות לא רק על פי מידע ש"הוזן" מבחוץ, אלא גם על ידי התבוננות במידע חיצוני שלא הוזן למחשב, הבנה והפשטה שלו, ואז הסקת מסקנות חדשות והגדלה של המידע הקיים באופן עצמאי.

משרדי מטא בבלגיה, ב-2022, צילום: רויטרס


בהודעת החברה ביחס למודל הבינה המלאכותית, נמסר כי מדובר ב"מודל הלומד באמצעות יצירת מודל פנימי של העולם החיצון, ומשווה ייצוגים מופשטים של תמונות, בשונה ממודלים נפוצים כיום המתבססים על הפיקסלים עצמם. I-JEPA מספק ביצועים חזקים במשימות ראייה ממוחשבת מרובות, והוא יעיל הרבה יותר מבחינה חישובית בהשוואה למודלים אחרים של ראייה ממוחשבת שנמצאים בשימוש נרחב בתעשייה. המודל, לצד נתוני האימון, יונגש על ידי מטא כקוד פתוח".

עוד נמסר מענקית הטכנולוגיה כי המודל נולד כתוצאה מחזונו של יאן לקון, מדען הבינה המלאכותית הראשי של החברה, שרצה לפתח ארכיטקטורה חדשה שתצליח להתגבר על מגבלותיהן העיקריות של מערכות הבינה המלאכותית, גם על אלו של המערכות המתקדמות ביותר: "הוא רצה ליצור מכונות שיכולות ללמוד כיצד העולם עובד על מנת שיוכלו ללמוד מהר הרבה יותר, לתכנן את אופן הביצוע של משימות מורכבות ולהסתגל בקלות למצבים בלתי מוכרים".

לדברי מטא, העבודה שלה על המודל החדש ועל מודלים נוספים מבוססת על העובדה כי בני אדם לומדים כמות עצומה של ידע על העולם רק מתוך התבוננות בו – וההשערה היא שמידע המבוסס על ההיגיון והשכל הישר הוא המפתח לפיתוח התנהגות אינטליגנטית לבינה מלאכותית, כמו הבנה של מושגים חדשים, ביסוס ותכנון.

"חוקרי בינה מלאכותית מנסים כבר זמן רב לפתח אלגוריתמים המסוגלים להבין מידע על העולם מתוך היגיון פשוט, ולאחר מכן לקודד אותו לייצוג דיגיטלי שהאלגוריתם יודע לגשת אליו מאוחר יותר", נמסר. "כדי להיות אפקטיבית, המערכת חייבת ללמוד את הייצוגים הללו בפיקוח עצמי – כלומר, ישירות מנתונים שאינם מתויגים כמו תמונות או צלילים, ולא ממערכי נתונים מסומנים שהורכבו באופן ידני".

"המודל יונגש על ידי מטא". בינה מלאכותית (אילוסטרציה), צילום: Getty Images


בחברה הוסיפו: "על ידי חיזוי ייצוגים ברמת הפשטה גבוהה, במקום חיזוי ערכי פיקסלים באופן ישיר, המודל יכול ללמוד ייצוגים שימושיים באופן ישיר, ובכך להימנע ממגבלות הגישות הגנרטיביות (גישות הבנויות על הזנה של כמות חומר גדולה אל האלגוריתם של המחשב שמהן הוא מזהה מבנים ועקרונות מסודרים, שיאפשרו לו לחזות כיצד להתמודד גם עם מצבים ודוגמאות חדשות שהוא לא למד או הופגש איתן קודם), העומדות בבסיס מודלי השפה הגדולים. ארכיטקטורות גנרטיביות לומדות על ידי הסרה או עיוות של חלקים מהקלט למודל, למשל מחיקת חלק מתמונה או הסתרת חלק מהמילים בקטע טקסט. לאחר מכן הם מנסים לחזות את הפיקסלים או את המילים הפגומות או החסרות. חיסרון משמעותי של שיטות גנרטיביות אלה הוא שהמודל מנסה למלא כל פיסת מידע חסרה, למרות שהעולם מטבעו בלתי צפוי. כתוצאה מכך, שיטות אלו עלולות לבצע טעויות שאדם לעולם לא יעשה, כיוון שהן מתמקדות יתר על המידה בפרטים לא רלוונטיים במקום לקלוט מושגים צפויים ברמה גבוהה יותר".

במטא ציינו כי לעומת שיטת הלמידה של האלגוריתמים שקיימים כיום, הרעיון העומד מאחורי המודל החדש הוא לחזות מידע חסר בייצוגים מופשטים, בדומה להבנה הכללית שיש לאנשים על העולם שבו אנו חיים. "בהשוואה לשיטות גנרטיביות המנבאות פיקסל מסוים במרחב, I-JEPA עושה שימוש ביעדי חיזוי מופשטים, ובכך מוביל את המודל ללמוד תכונות סמנטיות נוספות", נמסר. "ניתן לראות את יכולות הניבוי של I-JEPA כמודל עולם שנמצא בראשיתו (ומוגבל), אשר מדגים אי-ודאות מרחבית בתמונה סטטית מתוך הקשר שניתן לצפייה חלקית, וכזה שיכול לנבא מידע ברמה גבוהה על אזורים בלתי-נראים בתמונה, ולא על פרטים ברמת הפיקסלים. כך, I-JEPA מהווה דוגמה לפוטנציאל של ארכיטקטורות ללמוד ייצוגי תמונה מתחרים ללא צורך בידע נוסף. נמשיך לעבוד כדי להרחיב את גישת המודל לתחומים אחרים, כגון נתונים מותאמים בין תמונה לטקסט או נתוני וידאו. זהו צעד חשוב לקראת יישום והרחבה של שיטות בפיקוח עצמי ללימוד מודל כללי של העולם".

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו

כדאי להכיר