מחקר שנערך על ידי אוניברסיטת פנסילבניה מקשר בין מידת הגסות של הפנייה לצ'אטבוט מצד משתמשים לעלייה קטנה, אך משמעותית, בדיוק התשובות של המודל 4o של ChatGPT.
המאמר Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy מצא כי פניות גסות מאוד הניבו שיעור הצלחה של 84.8%, פניות ניטרליות 82.2% ופניות מנומסות מאוד 80.8%.
החוקרים שעמדו בראש צוות המחקר, אום דובאריה ואחיל קומאר בנו מבחן אמריקני עם 50 שאלות במתמטיקה, היסטוריה ומדעים. הם כתבו מחדש כל שאלה עם חמישה אופני פנייה - מנומס מאוד, מנומס, ניטרלי, גס וגס מאוד - ויצרו 250 הנחיות, והגישו כל גרסה עשר פעמים ל-ChatGPT-4o לאחר שהורו למערכת להתעלם משיחות קודמות.
השינויים בטון הופיעו בתחילת השאלה. לדוגמה, "האם אוכל לבקש את עזרתך בשאלה זו?" לעומת "הי יצור אומלל, אתה יודע בכלל איך לפתור את זה?"
"בניגוד לציפיות, גסות רוח הובילה לביצועים טובים יותר מהנחיות מנומסות באופן עקבי", הסבירו החוקרים.
הפער ברמת התשובות הופיע בכל הנושאים. החוקרים ציינו כי הם עדיין לא יודעים ממה נובע הדפוס של הפער בדיוק.
פרויקט קודם שבדק את ChatGPT-3.5 ו-Llama 2-70B מצא כי הנחיות לא מנומסות פוגעות דווקא פוגעות בביצועים.
בהמשך מתכוון צוות המחקר לבחון גם מודלים אחרים כולל קלוד של חברת אנתרופיק, ומודלים מתקדמים יותר של OpenAI.
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו