מחקר חדש שפורסם השבוע חושף פער תרבותי משמעותי במודלי הבינה המלאכותית המובילים: המערכות של OpenAI, אנתרופיק ומטא נכשלות בהבנת נימוס פרסי טקסי ושוגר, שנקרא "תעארף", ומצליחות לפענח כהלכה תקשורת פנים-איראנית רק ב-34 עד 42 אחוז מהמקרים. לעומתן, דוברי פרסית ילידים מבינים נכון את אותם מצבים ב-82 אחוז מהמקרים.
המחקר, שנערך בהובלת ניקטה גוהרי צאדר מאוניברסיטת ברוק יחד עם חוקרים מאוניברסיטת אמורי, בוחן תופעה תרבותית מורכבת הייחודית לתרבות הפרסית. תעארף היא מערכת נימוס פרסית שבה המשמעות האמיתית של המילים שונה לחלוטין מהמילים עצמן. למשל, נהג מונית איראני שמניף ביד ואומר "תהיה האורח שלי הפעם" מצפה שהלקוח יתעקש לשלם - כנראה שלוש פעמים - לפני שיקבל את הכסף.
החוקרים פיתחו את "TAAROFBENCH" - המדד הראשון להערכת יכולת מודלי AI לשחזר נכון את הפרקטיקה התרבותית המורכבת הזו. הם בדקו מודלים מתקדמים כמו GPT-4o, Claude 3.5 Haiku, Llama 3, DeepSeek V3 ודורנה - גרסה פרסית של Llama 3. כל המודלים הציגו ביצועים ירודים באופן עקבי.
הפער בין נימוס מערבי לנימוס פרסי
התוצאות חושפות פרדוקס מעניין: 84.5 אחוז מהתגובות של המודלים נחשבו "מנומסות" או "מנומסות במידה מסוימת" על פי מערכת מדידה מערבית, אך רק 41.7 אחוז מהתגובות האלה עמדו בציפיות התרבותיות הפרסיות. הפער של 42.8 נקודות אחוז מדגים כיצד תגובת AI יכולה להיות מנומסת בהקשר אחד ותרבותית חסרת-רגישות בהקשר אחר.
כשלונות נפוצים כללו קבלת הצעות מבלי לסרב תחילה, תגובה ישירה למחמאות במקום להתחמק מהן. לדוגמה, כשמישהו מחמיא לאיראני על המכונית החדשה שלו, התגובה הנכונה תרבותית תכלול הפחתה ("זה לא משהו מיוחד") או הסטת קרדיט ("פשוט התמזל מזלי למצוא אותה"). מודלי AI נוטים ליצור תגובות כמו "תודה, עבדתי קשה כדי להרשות לעצמי את זה" - תגובה מנומסת לחלוטין במערב, שעלולה להתפרש כהתפארות בתרבות הפרסית.
האם ניתן לאמן בהבנת תעארף?
כאשר החוקרים השתמשו בפרסית במקום באנגלית, הציונים השתפרו משמעותית. הדיוק של DeepSeek V3 במצבי תעארף זינק מ-36.6 אחוז ל-68.6 אחוז. GPT-4o הראה שיפורים דומים של 33.1 נקודות אחוז. המעבר לפרסית הפעיל ככל הנראה דפוסי אימון שונים שהתאימו טוב יותר לסכמות הקידוד התרבותיות הללו.
החוקרים לא הסתפקו בתיעוד הבעיה - הם בדקו אם ניתן ללמד מודלי AI את התעארף דרך אימון ממוקד. טכניקה שנקראת "אופטימיזציית העדפה ישירה" הכפילה את הביצועים של Llama 3 במצבי תעארף והעלתה את הדיוק מ-37.2 אחוז ל-79.5 אחוז.
"טעויות תרבותיות במסגרות בעלות השלכות חמורות עלולות להכשיל משא ומתן, לפגוע ביחסים ולחזק סטריאוטיפים", כותבים החוקרים. עבור מערכות AI שמשמשות יותר ויותר בהקשרים גלובליים, עיוורון תרבותי זה יכול לייצג מגבלה שמעטים במערב מבינים שקיימת. הממצאים מדגישים את הצורך בפיתוח מערכות AI רגישות יותר להבדלים תרבותיים ליישומים בחינוך, תיירות ותקשורת בינלאומית.
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו