האירוניה מכה ללא רחם בקהילת חוקרי הבינה המלאכותית: ועידת ICLR (International Conference on Learning Representations, או "הוועידה הבינלאומית לייצוגי למידה"), אחד הכנסים החשובים בעולם בתחום למידת המכונה, גילתה שכמחצית מביקורות העמיתים שהוגשו אליה נכתבו בסיוע בינה מלאכותית - וכ-21% מהן נוצרו מהתחלה ועד הסוף על ידי מודלי שפה.
פה חשדתי!
הכל התחיל כשעשרות חוקרים החלו להעלות חששות ברשתות החברתיות לגבי ביקורות עמיתים שקיבלו על מאמרים שהגישו לוועידת ICLR 2026, שתתקיים באפריל בריו דה ז'ניירו. הביקורות הכילו סימנים מחשידים: ציטוטים שאינם קיימים במציאות (מה שנקרא "הזיות"), משוב ארוך ומעורפל, ובקשות לניתוחים סטטיסטיים חריגים.
גרהם נויביג, חוקר בינה מלאכותית מאוניברסיטת קרנגי מלון בארה”ב, היה בין מי שקיבלו ביקורות חשודות. "הביקורות היו ארוכות מאוד, עם הרבה נקודות תבליט, וביקשו ניתוחים שאינם הניתוחים הסטטיסטיים הסטנדרטיים שמבקרים מבקשים במאמרי AI או למידת מכונה טיפוסיים", הוא סיפר.
לך תוכיח
נויביג פרסם בפלטפורמת X הצעה לפרס כספי למי שיצליח לסרוק את כל ההגשות לוועידה ולזהות טקסט שנוצר על ידי AI. תוך יום אחד הגיב מקס ספרו, מנכ"ל חברת Pangram Labs מניו יורק, המפתחת כלים לזיהוי טקסט מלאכותי.
צוות Pangram סרק את כל 19,490 המחקרים ו-75,800 ביקורות העמיתים שהוגשו לוועידה - באמצעות AI, כמובן. אלא מה?
התוצאות היו מדאיגות: כ-21% מביקורות העמיתים (כ-15,900 ביקורות) נוצרו ללא ספק באופן מוחלט על ידי בינה מלאכותית, ויותר ממחציתi הכילו סימנים לשימוש ב-AI לפחות באופן חלקי.
גם בצד המאמרים התגלו ממצאים בעייתיים: 1% מהמאמרים (199 מחקרים) נוצרו לחלוטין על ידי AI, ו-9% הכילו יותר מ-50% טקסט מלאכותי.
"אנשים חשדו, אבל לא היו להם הוכחות קונקרטיות" אמר ספרו. "במהלך 12 שעות כתבנו קוד שחילץ את כל תוכן הטקסט מההגשות האלו".
ביקורות הרסניות
דזמונד אליוט, חוקר מדעי המחשב מאוניברסיטת קופנהגן, חווה את הבעיה על בשרו. אחת משלוש הביקורות שקיבל על מאמרו "פספסה את הנקודה המרכזית", לדבריו. הדוקטורנט שלו, שהוביל את המחקר, חשד שהביקורת נוצרה על ידי מודל שפה, בשל תוצאות מספריות שגויות וניסוחים מוזרים.
כשממצאי Pangram פורסמו, אליוט מיהר לבדוק את המאמר שלו. הביקורת החשודה אכן סומנה ככזו שנוצרה כולה על ידי AI - והיא גם נתנה למאמר את הציון הנמוך ביותר, והותירה אותו "על הגבול בין קבלה לדחייה". "זה מתסכל מאוד", אמר אליוט.
ה-AI ישמור על ה-AI
כאילו כדי לאותת שלא למדו את הלקח, מארגני הוועידה הודיעו כי ישתמשו מעתה בכלים אוטומטיים (כלומר: AI) להערכת הגשות וביקורות עמיתים. בהארת הריהאראן, מדען מחשב מאוניברסיטת קורנל ויו"ר התוכנית הבכיר של ICLR 2026, אמר כי זו הפעם הראשונה שהוועידה מתמודדת עם בעיה בהיקף כזה. "אחרי שנעבור את כל התהליך הזה, זה ייתן לנו תחושה טובה יותר של אמון", הוסיף.
הפרשה מעלה שאלות מטרידות על עתיד ה-AI והמחקר. אם חוקרים בתחום ה-AI עצמו - אלה שמבינים את הטכנולוגיה לעומק - בוחרים להשתמש בה כדי לעקוף את מחויבותם המקצועית מצד אחד, ומודים שהתוצאות הן פגיעה באיכות המחקרים מצד שני, מה יקרה בתחומים אחרים?
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו
