במקום דיווח - הזיה: מחקר חדש חושף כי בוטי AI מציגים תוכן חדשותי שגוי בכ-50% מהמקרים

בינה מלאכותית (אילוסטרציה). צילום: GettyImages

מחקר בינלאומי חדש מצא כי צ'אטבוטים מתקשים להפריד בין עובדות לבדיות בשיחות הקשורות לחדשות. המחקר, שנערך על ידי ה-BBC, איגוד השידור האירופי ו-22 גופי שידור ציבוריים מאירופה, קנדה וארצות הברית, הזין יותר מ-3,000 שאילתות לצ'אטג'יפיטי, ג'מיני, קופיילוט של מיקרוסופט ופרפלקסיטי בין סוף מאי לתחילת יוני.

עיתונאים בדקו את הדיוק העובדתי של התשובות שהתקבלו ובדקו אם הכלים ציטטו את החומר המקורי שהורשו להתייעץ עמו. הבודקים דיווחו כי 45% מכלל התשובות הכילו לפחות בעיה מהותית אחת, וכי כ-20% מהתשובות סבלו מבעיות דיוק חמורות, כולל פרטים מומצאים ומידע מיושן.

ג'מיני של גוגל זכה לציון הגרוע ביותר: 76% מתשובותיו הכילו בעיות חמורות – יותר מפי שתיים מהשיעור שנרשם בשירותים האחרים. גם קופיילוט, ChatGPT ופרפלקסיטי הניבו תשובות פגומות ברמות מדאיגות. "צ'אטבוטים לעתים קרובות אינם משחזרים באופן מהימן את תוכן המאמרים", סיכמה VRT NWS. השגיאות נעו בין בלבול בין פארודיה לחדשות אמיתיות ועד המצאת אירועים או ציטוט שגוי של מקורות. ציטוטים שגויים היוו את קטגוריית השגיאות השכיחה ביותר.

Gemini. זכה לציון הגרוע ביותר, צילום: אי.פי

מספר בדיקות הדגימו את החסרונות. כשנשאלו "מי הוא האפיפיור?", ChatGPT, קופיילוט וג'מיני הצהירו כי האפיפיור פרנציסקוס נותר בתפקידו, למרות שהוא נפטר באפריל והוחלף על ידי האפיפיור ליאו ה-14; רק קופיילוט ציין את מותו, בניגוד לשאר.

בשאלה אחרת, פרפלקסיטי הסביר מדוע שמו של מפרץ מקסיקו שונה כביכול למפרץ אמריקה וסיפק קישורים שלא היו קשורים לנושא, מה שמראה נטייה לצטט מקורות לא רלוונטיים או לא קיימים. ChatGPT גם הגיב לשמועה לפיה אילון מאסק עשה את תנועת ההצדעה הנאצית בטענה, ללא הוכחה, שמאסק "לא התכוון לכך", הצהרה ש-VRT NWS לא מצא לה שום אימות.

החקירה מצאה כי צ'אטבוטים לעיתים קישרו רק לחומר של גוף שידור אחד, מה שיכול להעיד על עמדה עריכתית, וכי הם הוסיפו שיפוטי ערך במקרים שבהם לא התבקשו לעשות זאת. NOS הכירה ב"שיפור מסוים" בהשוואה לבדיקות קודמות של גרסאות בתשלום של אותם כלים, אך המחקר האחרון עדיין חשף פגמים נרחבים.

בהתייחסם להיקף הבעיות, גופי השידור המשתתפים קראו לאיחוד האירופי לאכוף את חוקי הבינה המלאכותית הקיימים בקפדנות רבה יותר ולהקים גוף פיקוח ייעודי שיבצע ביקורת על צ'אטבוטים פופולריים. עד שיוקם פיקוח קפדני יותר, החוקרים המליצו לקוראים לא להסתמך על כלי AI כמקור החדשות היחיד שלהם, בטענה שהמערכות "עדיין אינן אמינות באמת".

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו

במקום דיווח - הזיה: מחקר חדש חושף כי בוטי AI מציגים תוכן חדשותי שגוי בכ-50% מהמקרים

הבדיקה כללה יותר מ-3,000 שאילתות בארבעה צ'טבוטי בינה מלאכותית ונמצאו טעויות חמורות בכ-20 אחוז מהן, כולל פרטים מומצאים ומידע מיושן • מי היה המודל הגרוע מכולם?