המודל AI החדש של גוגל מוביל ב"מבחן האחרון של האנושות" - האם זה מספיק?

Gemini 2.5. צילום: גוגל

גוגל חשפה אתמול (שלישי) את Gemini 2.5, הדור החדש של מודלי הבינה המלאכותית שלה. המאפיין המרכזי של הדגם החדש הוא יכולות חשיבה והנמקה מתקדמות (reasoning), המאפשרות למודל "לעצור ולחשוב" לפני מתן תשובה, מה שמשפר את הדיוק והאמינות של התוצאות.

הדגם הראשון שהושק הוא Gemini 2.5 Pro Experimental, שלטענת גוגל מהווה את המודל החכם ביותר שלה עד כה. החברה הודיעה כי מעתה ואילך, כל מודלי ה-AI החדשים שלה יכללו יכולות חשיבה והנמקה מובנות.

מה מיוחד במודל החדש?

Gemini 2.5 Pro הוא מודל רב-מודאלי (יכול לעבוד עם מגוון סוגי מידע: טקסט, תמונות, קול ווידאו), המיועד למשימות מורכבות. המודל החדש זמין בפלטפורמת המפתחים של החברה, Google AI Studio, וכן באפליקציית Gemini למנויי תוכנית ה-AI המתקדמת של החברה Gemini Advanced, במחיר 20 דולר לחודש.

המדען הראשי של Google DeepMind הסביר בבלוג החברה כי "בתחום הבינה המלאכותית, היכולת של מערכת ל'חשיבה' מתייחסת ליותר מסתם סיווג וחיזוי. היא מתייחסת ליכולת שלה לנתח מידע, להסיק מסקנות לוגיות, לשלב הקשר וניואנסים ולקבל החלטות מושכלות".

לפי החברה, אחד היתרונות המשמעותיים של Gemini 2.5 Pro הוא יכולת עיבוד המידע הנרחבת שלו. המודל מגיע עם יכולת לעבד מיליון "טוקנים" (יחידות מידע בסיסיות שמודל ה-AI מעבד) בבת אחת, המאפשר לו לקלוט בערך 750 אלף מילים - אורך גדול יותר מסדרת הספרים המלאה של "שר הטבעות". גוגל הודיעה כי בקרוב Gemini 2.5 Pro יתמוך באורך קלט כפול (שני מיליון טוקנים).

גוגל מציינת כי המודל החדש תוכנן להצטיין במיוחד ביצירת אפליקציות אינטרנט מרשימות חזותית ויישומי קוד אוטונומיים. היכולות הרב-מודאליות מאפשרות למודל לקלוט ולהבין מידע ממקורות שונים, כולל קבצי קוד שלמים.

מרוץ החשיבה

מאז שחברת OpenAI השיקה את מודל ה-AI הראשון עם יכולות חשיבה בספטמבר 2024 (בשם o1), תעשיית הטכנולוגיה נמצאת במרוץ להשיג או לעלות על יכולות אותו מודל. כיום, חברות כמו גוגל, אנתרופיק, DeepSeek ו-xAI כולן מציעות מודלי AI עם יכולות חשיבה, המשתמשים בכוח מחשוב ובזמן נוספים כדי לבדוק עובדות ולחשוב לפני מתן תשובה.

לפי אתר TechCrunch, טכניקות החשיבה וההנמקה סייעו למודלי AI לקצור הישגים חדשים במשימות מתמטיקה ותכנות. רבים בעולם הטכנולוגיה מאמינים שמודלי חשיבה יהיו מרכיב מפתח ב"סוכני AI" - מערכות אוטונומיות שיכולות לבצע משימות כמעט ללא התערבות אנושית. עם זאת, מודלים אלה גם יקרים יותר להפעלה.

גוגל התנסתה בעבר במודלי AI עם יכולות חשיבה, והשיקה גרסת "חשיבה" של Gemini 2.0 בדצמבר. אולם Gemini 2.5 מייצג את הניסיון הרציני ביותר של החברה עד כה להתחרות בסדרת המודלים "o" של OpenAI.

ההשוואה בין תוצאות המודלים, צילום: גוגל

במבחן מול המתחרות - יש מנצחת?

לפי נתונים מהבלוג של גוגל, Gemini 2.5 Pro מציג תוצאות מעורבות במבחני השוואה מקובלים בתעשייה, כשבחלק מהתחומים הוא מצטיין.

במבחן Humanity's Last Exam, המודד יכולות הנמקה וידע, Gemini 2.5 Pro משיג ציון של 18.8 אחוז, תוצאה גבוהה משמעותית לעומת מודלים מתחרים של OpenAI, אנתרופיק ו-DeepSeek.

במבחן עריכת קוד Aider Polyglot, המודל החדש משיג ציון של 68.6 אחוז, ומוביל על פני המודלים המתחרים. לעומת זאת, במבחן SWE-bench Verified המודד יכולות פיתוח תוכנה, Gemini 2.5 Pro (63.8 אחוז) נופל מ-Claude 3.7 Sonnet של אנתרופיק (70.3 אחוז).

במבחני מתמטיקה Gemini 2.5 Pro מציג ביצועים חזקים, אך במבחן SimpleQA הבודק דיוק עובדתי, GPT-4.5 של OpenAI השיג את התוצאה הטובה ביותר.

גוגל טרם פרסמה את מחירי השימוש ב-API (ממשק תכנות למפתחים שירצו לשלב את המודל באפליקציות שלהם) של Gemini 2.5 Pro. החברה מסרה כי תשתף מידע נוסף בשבועות הקרובים.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו