בזמן שכלי בינה מלאכותית כמו GitHub Copilot ו-Cursor זוכים לאימוץ נרחב בקרב מפתחים ברחבי העולם, מחקר חדש מציע תובנה מפתיעה: שימוש בכלים אלה עשוי דווקא להאט את קצב העבודה של מפתחים מנוסים. המחקר, שפורסם על ידי ארגון המחקר הלא-ממשלתי METR, ביצע ניסוי עם מפתחים מנוסים בקוד פתוח.
הניסוי עקב אחר 16 מתכנתים מנוסים שביצעו 246 משימות אמיתיות בפרויקטים שבהם הם משתתפים (contribute) בקביעות. עבור כל משימה הוגרל האם יותר למפתח להשתמש בכלים מבוססי בינה מלאכותית, בעיקר Cursor Pro ומודלים כמו Claude 3.5 ו-3.7 מבית אנתרופיק, או שהשימוש בהם ייאסר.
הציפייה הראשונית של המתכנתים הייתה ששימוש ב-AI יקצר את זמן ביצוע המשימות ב-24 אחוז. אך בפועל, החוקרים מצאו כי שימוש ב-AI האריך את זמן הביצוע ב-19 אחוז בממוצע. גם לאחר סיום המשימות, המפתחים העריכו בדיעבד שה-AI סייע להם לקצר את הזמן, והעריכו הפחתה של 20 אחוז – רחוק מאוד מהתוצאה בפועל.
למה ה-AI האטה את העבודה?
החוקרים מציינים מספר גורמים אפשריים להאטה. ראשית, שימוש בכלים מבוססי בינה מלאכותית דרש מהמפתחים להשקיע זמן לא מבוטל בכתיבת פרומפטים למערכת, המתנה לתשובות ובדיקתן – לעיתים על חשבון זמן כתיבה ממשי של קוד. בנוסף, במקרים רבים הקוד שהופק על ידי המערכות דרש תיקונים משמעותיים או נדחה לחלוטין.
כך למשל, נמצא כי המפתחים קיבלו פחות מ-44 אחוז מהקוד שהוצע להם על ידי הבינה המלאכותית. 75 אחוז מהמשתתפים דיווחו שקראו כל שורת קוד שנוצרה, ו-56 אחוז ציינו שנאלצו לבצע שינויים מהותיים כדי "לנקות" את הפלט שקיבלו.
גם מאפייני הפרויקטים עצמם תרמו לאתגר: המאגר הממוצע שבו עבדו המשתתפים כלל מעל מיליון שורות קוד, היה בן כעשור וזכה ליותר מ-20 אלף שינויים רשומים בקוד (commits) בעבר. בהקשרים כאלה, שבהם המפתחים בעלי ניסיון רב והיכרות עמוקה עם הקוד – לבינה המלאכותית קשה "להדביק את הקצב", במיוחד כאשר חסר לה ההקשר האינטואיטיבי והידע של המפתח הוותיק.
מפתח אחד אף העיר כי "אם אני המתחזק הבלעדי של חלק מאוד ייחודי בקוד – אין סיכוי שמצב סוכן (agent mode) של AI יבצע עבודה טובה יותר ממני".
למרות התוצאה – החוקרים לא ממהרים להסיק מסקנות נחרצות. הם מדגישים כי ייתכן מאוד שבעתיד הקרוב המצב ישתנה, במיוחד לנוכח ההתקדמות המהירה של טכנולוגיות ה-AI. עוד הם מציינים כי התוצאה אינה מבטלת את התועלת האפשרית במקרים אחרים – למשל, בפרויקטים חדשים, או בקרב מפתחים פחות מנוסים.
לדברי החוקרים, "התוצאות שלנו מבליטות את הפער המשמעותי בין התחזיות של מומחים – ובין ההשפעה בפועל של מערכות AI על פרודוקטיביות של מפתחים מנוסים".
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו