בשורה משמחת לישראלים: כדאי לצעוק על ג'מיני של גוגל

מחקר חדש של המכללה האקדמית תל אביב-יפו מנפץ את המיתוס המקובל לפיו "בבקשה" ו"תודה" משפרים את איכות התוצרים של הבינה המלאכותית • החוקרות הריצו משימות תכנות מול ה-AI של גוגל בשלושה סגנונות, וגילו שפניות תוקפניות סיפקו פתרונות יעילים וחדים יותר, בעוד הנימוס בעיקר מרח את התשובות

ג'מיני. צילום: רויטרס

האם כלי AI מעריכים נימוס? מחקר חדש שנערך במכללה האקדמית תל אביב-יפו מצא כי פנייה מנומסת לכלי AI, לא בהכרח משפרת את איכות התשובות שהן מספקות. יתרה מכך, בשני מדדים שנבדקו נמצא דווקא יתרון עבור פרומפטים שנוסחו באופן תוקפני, בניגוד לתפיסה הרווחת בקרב משתמשים רבים שלפיה, נימוס כלפי מודלי AI משפר את איכות התוצר.

המחקר נערך במסגרת פרויקט גמר בבית הספר למערכות מידע על ידי הסטודנטיות שני בקלי, נועה קנצנברג ועינב ליבנה בליווי המנחה גב' דפני בירן אחיטוב. הוא ביקש לבחון האם רמת הנימוס שבה משתמשים פונים למודלי שפה גדולים (LLM's) משפיעה על איכות התוצרים המתקבלים במשימות תכנות.

האם כלי AI מעריכים נימוס?, צילום: באדיבות האקדמית ת"א יפו

לצורך המחקר נערך ניסוי ובו הוצגו למודל ג'מיני של גוגל 30 מקרי בוחן בשלושה סגנונות פנייה שונים: מנומס, ניטרלי ותוקפני. קטעי הקוד שהופקו הוערכו אובייקטיבית על ידי מודלי שפה חיצוניים. במקביל נערך סקר בקרב משתמשים שבחן את תפיסותיהם לגבי השפעת מידת הנימוס על ביצועי כלי ה- AI.

במסגרת הניסוי הוצגה כל אחת מבעיות התכנות למודל בשלושת סגנונות הפנייה, כאשר ההבדל היחיד בין הפרומפטים היה אופן הניסוח. התשובות שהתקבלו הוערכו על פי ארבעה מדדים מוגדרים: קריאות הקוד, איכות ההסברים שסיפק המודל, יעילות הפתרון ויכולתו להתמודד עם מקרי קצה. שיטת עבודה זו אפשרה לבודד את השפעת סגנון הפנייה על איכות התוצרים, מבלי לשנות את תוכן המשימה עצמה.

במקביל ערכו הסטודנטים מחקר מתאמי, במסגרתו נערך סקר בקרב 57 סטודנטים ואנשי מקצוע מתחום המחשוב. הסקר בחן את הקשר בין רמת הנימוס המדווחת בפנייתם למודי השפה לבין תפיסתם הסובייקטיבית לגבי איכות הקוד המתקבל על סמך ארבעת המדדים.

תוצאות הסקר הדגישו את הפער בין תפיסת המשתמשים לבין הממצאים בפועל. מרבית המשתתפים העריכו כי נימוס ישפר את איכות התשובות שיספק המודל, אולם תוצאות הניסוי לא תמכו בהנחה זו. ניתוח התוצרים בפועל הוכיח כי במקרים מסוימים פרומפטים מנומסים הובילו לתשובות מפורטות יותר אך לאו דווקא מדויקות ואיכותיות יותר מבחינת התוצר והפתרון. מנגד, לא נמצא יתרון עקבי לנימוס, ובשני מדדים נמצא יתרון לטובת ניסוחים תוקפניים.

ChatGPT, קלוד וג'מיני, צילום: רויטרס

לדברי הסטודנטיות החוקרות, אחד הממצאים המרכזיים הוא הפער בין האופן שבו משתמשים תופסים את השפעת הנימוס על מערכות בינה מלאכותית לבין התוצאות שנמדדו בפועל. האם זה אומר שכדאי לפנות לכלי בינה מלאכותית בתוקפנות? לא. אך עם זאת, ניתן לומר באופן ברור: נימוס אינו משפר בהכרח את איכות הקוד, ולעיתים אף פוגע במדדים מסוימים מבחינת איכות התוצרים. לצורך העניין ניסוח מפורט ועשיר בהקשרי הפרומפט עשוי להיות בעל השפעה משמעותית יותר מאשר סגנון הפנייה.

המחקר מצטרף לדיון הגובר בנוגע להשפעת אופן ניסוח הפרומפטים על ביצועי מודלי שפה ועל חוויית השימוש בהם.

תזכורת: פרופ' האנה פריי מציעה זווית ראייה שונה לחלוטין, המפשטת את האינטראקציה עם המודלים הללו ומבוססת על הבנת אופן הפעולה הפנימי שלהם. לדבריה, המפתח למיצוי הפוטנציאל של הבינה המלאכותית אינו טמון בפקודות טכניות, אלא דווקא ביכולת ניהול משחק תפקידים ובאופן מפתיע - גם בנימוס בסיסי.

פרופ' פריי מציעה לנו לאמץ תפקיד של במאי קולנוע. מאחר שהמודל מגיב באופן סימטרי לסגנון הפנייה אליו, פנייה מנומסת ומכבדת מעבירה אותו למרחב דינמי שבו הדמות שאותה הוא מגלם נוטה לשתף פעולה בצורה חיובית, מפורטת ואוהדת יותר. אם אתם עובדים עם דמות מתוחכמת ומעוניינים שהיא תסייע לכם ברצון וביעילות הגבוהה ביותר - מוטב שתהיו מנומסים. בסופו של דבר, הנימוס אינו נועד "לרצות" את המכונה, אלא לשפר משמעותית את איכות התוצר שהיא מפיקה עבורנו.