חוקרים במעבדת ה-AI של Amazon Web Services גילו שלמעלה ממחצית מהתוכן הכתוב באינטרנט תורגם לשתי שפות או יותר על ידי מערכות בינה מלאכותית, כאשר לרוב הדבר נעשה באיכות גרועה בגלל תרגום מכונה לקוי (MT). לדברי החוקרים, העניין מעורר חששות רציניים לגבי כשירותם של דגמי שפה גדולים כדוגמת ChatGPT.
כחלק מהמחקר, יצרו החוקרים מאגר של 6.38 מיליארד משפטים שנגרדו מהרשת. הם בחנו דפוסים של קבוצות של משפטים המהווים תרגומים ישירים זה של זה בשלוש שפות או יותר. התוצאות שהתקבלו היו לא פחות ממדהימות - רוב המשפטים מהאינטרנט (57.1) היו זהים בשלוש שפות לפחות, ללא קשר האם התרגום נכון מבחינה שפתית או לא.
סין קוראת לקיום שיחות בנושא השליטה בבינה מלאכותית. ארכיון צילום: רויטרס
טקסט מדויק תלוי במשאבי השפה
כמו כל למידת מכונה, תרגום אוטומטי מושפע מהיד האנושית שעומדת מאחוריו, ולכן איכות התרגומים משתנה מאוד משפה לשפה. במילים פשוטות - תרגומים מפותחים ומדויקים יותר, משתייכים כמעט לחלוטין לשפות המדוברות ביותר בעולם.
בהתאם, לשפות "דלות משאבים" ממקומות כמו אפריקה, אין מספיק נתונים באינטרנט על מנת להכשיר בהצלחה את מערכות ה-AI עליהם – מה שהופך את התרגומים האוטומטיים אליהן לגרועים במיוחד. ויש את עניין התרגום מתרגום , או בשמו המקצועי "תרגום רב-כיווני".
לטענת החוקרים, "תרגומים רב-כיווניים הם באיכות נמוכה משמעותית מתרגום דו-כיווני". לדבריהם, "ככל שמשפט תורגם ליותר שפות, האיכות של התרגומים נמוכה יותר, מה שמצביע על שכיחות גבוהה יותר של תרגום מכונה לקוי".
בינה מלאכותית מעדיפה שפה פשוטה
המחקר מצא תופעה מעניינת נוספת – מערכות AI מעדיפות בבירור לתרגם משפטים קצרים ופשוטים, בעלי מבנה "צפוי יותר". הבעיה? שפה פשוטה מאפיינת לרוב מאמרים בעלי איכות נמוכה, הדורשים מומחיות מועטה או לא קיימת בכלל, על מנת לכתוב אותם.
"הכשרה של מודלי בינה מלאכותית מתאפשרת רק על ידי הזנת כמות עצומה של נתונים למערכות. בגלל שקנה מידה כזה אפשרי רק עם נתונים מגורדים מהאינטרנט, עולות דאגות רבות בכל הנוגע למודלים רב-לשוניים, ששואבים את המידע שלהם מנתונים בעלי איכות נמוכה, וזה עוד לפני שגיאות מכונה שגם הן מתרחשות", סיכם צוות המחקר.

