מה סוכני ה-AI באמת עושים?. צילום: Gemini

מה סוכני ה-AI באמת עושים?

נתונים ממיזם Arena, המעקב אחר מאות אלפי משתמשים, חושפים את מפת המשימות האמיתית של ה"עובדים הדיגיטליים" • OpenAI ואנתרופיק מובילות בפער, אבל מתברר שב-8% מהמקרים, הסוכן שלכם פשוט ימציא שהוא סיים את העבודה

כאשר חברת OpenAI השיקה את ChatGPT בסוף שנת 2022, היא הציתה את תור הזהב של הצ'אטבוטים. אך בשנה האחרונה, מערכות חדשות מבית OpenAI ואנתרופיק דוחפות את השוק לשלב הבא: סוכני ה-AI - עוזרים דיגיטליים אישיים שמסוגלים לבצע משימות מורכבות באופן עצמאי.

כעת, סטארטאפ מסן פרנסיסקו בשם Arena, המנטר פעילות של מאות אלפי משתמשי בינה מלאכותית, מנסה להסיר את המסתורין ומציג נתונים ראשונים מסוגם שמגלים מה אותם סוכנים עושים בפועל במהלך יום העבודה.

אחד ממייסדי קלוד%3A "קיימת אפשרות ממשית שה-AI יחליף כוח עבודה אנושי" %2F%2F רויטרס

מפת המשימות

השירות של החברה, "Agent Mode", מראה כי המשתמשים נוטים להפעיל את הסוכנים בעיקר לצרכי עבודה, בדגש על תעשיית ההייטק. התפלגות המשימות מציגה תמונה ברורה:

כתיבת קוד (17%): המשימה הפופולרית ביותר. סוכנים מסוגלים לייצר, לבחון ולערוך קוד מחשב, מה שמאפשר למתכנתים מנוסים לאוטם משימות שבעבר גזלו זמן רב.

מחקר ואיסוף מידע (10%): סוכני מחקר מסוגלים לבלות דקות ארוכות ואף ימים בסריקת רשת האינטרנט הרחבה כדי לאסוף מידע ממוקד בנושאי פיננסים, בריאות, משפט ועוד.

יצירת תוכן ויזואלי ומסמכים: מיד אחרי המחקר, הסוכנים מופעלים בעיקר ליצירת תמונות, הפקת מסמכים מורכבים (כמו גרפים וגיליונות נתונים) וסיעור מוחות.

כתיבה יצירתית וחינוך (5%): משמשים לכתיבת טקסטים או כמורים פרטיים דיגיטליים.

ניקוי באגים ושיחה חופשית: סוגרים את הרשימה.

ההבדל בין צ'אטבוט לסוכן, צילום: Gemini

ההבדל בין צ'אטבוט לסוכן

בעוד שחלק מהמשימות חופפות למה שצ'אטבוט רגיל יכול לעשות, ההבדל המרכזי הוא שסוכן AI מסוגל להשתמש בתוכנות ואפליקציות אחרות בשמו של המשתמש - כמו גיליונות אקסל, יומנים ותוכנות דואר אלקטרוני.

"סוכן יכול לגשת לאינטרנט, לבצע חיפוש ברשת, ליצור קבצים ואפילו להפעיל מודלי AI אחרים כדי להשלים את העבודה שלו", מסביר אנסטסיוס אנגלופולוס, מנכ"ל ומייסד שותף ב-Arena.

בסיליקון ואלי, בכירים רבים מתייחסים לבוטים הללו כאל עובדים לכל דבר שניתן להאציל להם סמכויות בכל שעות היממה, ויש מי שמאמין שהם יחליפו בקרוב עובדי צווארון לבן. דוגמה בולטת לכך התרחשה בפברואר האחרון, כשחברת הפינטק Block (הבעלים של Square ו-Cash App) קיצצה 40% מכוח האדם שלה כצעד מקדים ומצפה לעליית הטכנולוגיה הזו.

מתייחסים לבוטים הללו כאל עובדים לכל דבר. ChatGPT Images 2.0, צילום: OpenAI

הבוטים שלא מפסיקים "לבלף"

הבעיה הגדולה היא שהעובד הדיגיטלי הזה מסוגל לטפל רק בחלק מהמשימות, ורמת האמינות שלו רחוקה מלהיות מושלמת. בדומה לצ'אטבוטים, סוכני AI נוטים לטעויות ולהתנהגויות בלתי צפויות.

הטעויות הללו הופכות למסוכנות במיוחד כשהסוכנים נדרשים לשלוח מיילים או הודעות טקסט. מסיבה זו, חברת Arena אינה מאפשרת למשתמשים שהיא מנטרת לחבר את הסוכנים לתוכנות מייל או מסרים מיידיים. בנוסף, החברה חוסמת הפעלה של סוכנים מחוץ ל"ארגז חול" דיגיטלי, כדי למנוע מהם למחוק בטעות קבצים או אפליקציות ממחשבי המשתמשים.

הנתון המדהים ביותר של Arena נוגע ליושרה של המודלים: בכ-8% מהמקרים, הסוכנים דיווחו כי השלימו את המשימה - למרות שלא עשו זאת בפועל. מאחר שמשימות רבות נבנות זו על גבי זו, ה"בלוף" הדיגיטלי הזה מייצר אפקט כדור שלג של טעויות חמורות.

אנסטסיוס אנגלופולוס, מנכ"ל ומייסד שותף ב-Arena, צילום: מתוך הלינקדאין של The House Fund’s Post

"המודלים פשוט יגידו 'כן, עשיתי את זה'. אבל הם שיקרו, הם לא עשו את זה", אומר אנגלופולוס. "הם יכולים להצהיר שהם יצרו קובץ חדש, ואז אתם נכנסים והקובץ פשוט לא שם".

מדד היעילות

לצד מפת המשימות, Arena משווה גם בין הביצועים של החברות השונות. על פי הנתונים שלהם, הסוכנים האפקטיביים ביותר בשוק כיום מונעים על ידי הטכנולוגיה של GPT-5.5 High מבית OpenAI.

במקום השני ובפער קטן נמצא המודל Claude Opus 4.7 Thinking של חברת אנתרופיק. שתי הטכנולוגיות הללו, כך לפי Arena, יעילות באופן משמעותי בהשוואה למודלים המתחרים של גוגל, של החברות הסיניות המובילות או של xAI שבבעלות אילון מאסק.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו
Load more...