חברת גוגל, שחשפה לאחרונה את הדגם החדש של מודל הבינה המלאכותית שלה - ה-Gemini 2.5 Pro - טוענת כי הוא מצליח לעקוף את מתחריו בתחומי הידע והחשיבה.
התוצאות של המבחנים, המבוססות על סטנדרטים נפוצים בתעשייה, מראות כי הדגם החדש מתעלה על גרסאות מתקדמות של יריבים מרכזיים (כמו ChatGPT, Claude ו-Grok) במבחנים שבודקים יכולות ב"מתמטיקה, מדע ופתרון בעיות".
המבחן המרכזי, Humanity's Last Exam, בוחן כישורים כמו חשיבה אנליטית וידע מדעי. המבחן פותח על ידי חברת Scale AI וכולל 3,000 שאלות קשות במתמטיקה, מדע, הומניסטיקה ועיבוד תמונות, שנועד לבחון את גבולות היכולות של מערכות בינה מלאכותית.
Gemini 2.5 Pro השיג במבחן זה תוצאות גבוהות משמעותית לעומת המתחרים. לדוגמה, הוא עקף את o3 של OpenAI, שזכה לשבחים על יכולות השפה שלו, ואת Claude Opus 4, שידוע בדיוק ובגישה הזהירה שלו. גם לעומת Grok 3 Beta, שפותח למטרות מחקר מדעי, הדגם של גוגל הראה יתרון.
בנוסף, המודל של גוגל הצטיין במבחן שמעריך כתיבת קוד תוכנה ובמבחן שבודק דיוק עובדתי, מה שלדברי החברה מפחית את הסיכוי למידע שגוי.
Gemini 2.5 Pro - our most intelligent model, is getting an update before general availability. ✨
— Google DeepMind (@GoogleDeepMind) June 5, 2025
It’s even better at: coding 🖥️, reasoning 💡, and creative writing ✍️
Learn more. 🧵 pic.twitter.com/KBVcO5CCur
מעבר לכך, על פי אתר DeepMind של גוגל, הדגם החדש מסוגל לעבד תמונות - כמו תרשימים או גרפים - ולהבין את ההקשר שלהם. יכולת זו הופכת אותו לכלי שימושי במיוחד במחקר מדעי, שבו ניתוח חזותי הוא קריטי. בהשוואה, דגמים כמו DeepSeek R1 הסיני, מתמקדים יותר בטקסט, מה שנותן ל-Gemini יתרון בתחום החזותי.
אבל יש גם מגבלות. הדגם זמין כעת רק בגרסת ניסיון דרך אפליקציית Gemini, וגרסה מלאה צפויה לצאת רק בעוד כמה שבועות.
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו