גוגל: מודל ה-AI שלנו הוא החזק ביותר בתחום המחקר והחשיבה המדעית

ג'מיני (אילוסטרציה). צילום: רויטרס

חברת גוגל, שחשפה לאחרונה את הדגם החדש של מודל הבינה המלאכותית שלה - ה-Gemini 2.5 Pro - טוענת כי הוא מצליח לעקוף את מתחריו בתחומי הידע והחשיבה.

התוצאות של המבחנים, המבוססות על סטנדרטים נפוצים בתעשייה, מראות כי הדגם החדש מתעלה על גרסאות מתקדמות של יריבים מרכזיים (כמו ChatGPT, Claude ו-Grok) במבחנים שבודקים יכולות ב"מתמטיקה, מדע ופתרון בעיות".

gemini 2.5 pro. השיג תוצאות גבוהות משמעותית לעומת המתחרים, צילום: גוגל

המבחן המרכזי, Humanity's Last Exam, בוחן כישורים כמו חשיבה אנליטית וידע מדעי. המבחן פותח על ידי חברת Scale AI וכולל 3,000 שאלות קשות במתמטיקה, מדע, הומניסטיקה ועיבוד תמונות, שנועד לבחון את גבולות היכולות של מערכות בינה מלאכותית.

Gemini 2.5 Pro השיג במבחן זה תוצאות גבוהות משמעותית לעומת המתחרים. לדוגמה, הוא עקף את o3 של OpenAI, שזכה לשבחים על יכולות השפה שלו, ואת Claude Opus 4, שידוע בדיוק ובגישה הזהירה שלו. גם לעומת Grok 3 Beta, שפותח למטרות מחקר מדעי, הדגם של גוגל הראה יתרון.

בנוסף, המודל של גוגל הצטיין במבחן שמעריך כתיבת קוד תוכנה ובמבחן שבודק דיוק עובדתי, מה שלדברי החברה מפחית את הסיכוי למידע שגוי.

Gemini 2.5 Pro - our most intelligent model, is getting an update before general availability. ✨

It’s even better at: coding 🖥️, reasoning 💡, and creative writing ✍️

Learn more. 🧵 pic.twitter.com/KBVcO5CCur
— Google DeepMind (@GoogleDeepMind) June 5, 2025

מעבר לכך, על פי אתר DeepMind של גוגל, הדגם החדש מסוגל לעבד תמונות - כמו תרשימים או גרפים - ולהבין את ההקשר שלהם. יכולת זו הופכת אותו לכלי שימושי במיוחד במחקר מדעי, שבו ניתוח חזותי הוא קריטי. בהשוואה, דגמים כמו DeepSeek R1 הסיני, מתמקדים יותר בטקסט, מה שנותן ל-Gemini יתרון בתחום החזותי.

אבל יש גם מגבלות. הדגם זמין כעת רק בגרסת ניסיון דרך אפליקציית Gemini, וגרסה מלאה צפויה לצאת רק בעוד כמה שבועות.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו

AI בינה מלאכותית גוגל

גוגל: מודל ה-AI שלנו הוא החזק ביותר בתחום המחקר והחשיבה המדעית

מודל Gemini 2.5 Pro של גוגל השיג תוצאות מרשימות במבחני מתמטיקה, מדע ופתרון בעיות • הדגם עוקף מתחרים מובילים, אך זמינותו עדיין מוגבלת • גרסה מלאה צפויה בקרוב