דוקטור צ'אטבוט: חוקרים ישראלים בדקו את יכולות האבחון הרפואי של מודלי AI שונים

הצוות מאוניברסיטת בן-גוריון יצר מאגר רחב היקף המאפשר לבחון את היכולת של מודלי שפה לאבחן מקרים רפואיים מורכבים • ״כאשר רופאים נתקלים במקרה רפואי מורכב, הדרך לאבחנה עלולה להפוך למסע ממושך ולא ודאי" • אז מי המודל המצטיין?

רופא AI (אילוסטרציה). צילום: גרוק

מודלי שפה גדולים (LLM), כדוגמת ChatGPT, משמשים למגוון רחב של משימות מתחומים שונים. קבוצת מחקר מאוניברסיטת בן-גוריון בנגב יצרה מאגר המאפשר לבחון את היכולת של מספר מודלי שפה גדולים לאבחן מקרים רפואיים מורכבים ונדירים. החוקרים גם ערכו השוואה בין מודלי השפה הגדולים, ובפרט בין מודלים קליניים לצד מודלים כלליים והופתעו מביצועי מודל GPT-4o.

ממצאי המחקר הוצגו בכנס היוקרתי AAAI2025 לבינה מלאכותית, שהתקיים בפילדלפיה בחודש פברואר 2025.

עד כה, בחינת מודלי שפה גדולים לטובת אבחונים רפואיים התבססה על שאלות מתוך מבחני רפואה, שאלות מהספרות המקצועית על מחלות נפוצות, או בחינת מקרים קלאסיים והיפותטיים שחסרה להם המורכבות של מטופלים אמיתיים.

קבוצת המחקר, שכללה את הדוקטורנטים אוריאל פרץ ואופיר בן שוהם ואת החוקרים ד"ר ניר גרינברג וד"ר נדב רפופורט מהמחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן-גוריון בנגב, מציעה גישה ייחודית לבחינת היכולת של מודלי שפה גדולים לאבחן מקרים רפואיים לא-שגרתיים.

ד"ר נדב רפפורט. "המאגר מרחיב את היכולת להעריך מודלי שפה לתמיכה בקבלת החלטות קלינית",

״כאשר רופאים נתקלים במקרה רפואי מורכב, הדרך לאבחנה עלולה להפוך למסע ממושך ולא ודאי", אומר ד״ר רפופורט, ראש הקבוצה למידע ביורפואי בבן-גוריון. "מקרים כאלה דורשים לעיתים קרובות סדרות של בדיקות וייעוצים עם מומחים, תהליך שיכול להימשך שבועות ואף חודשים. כתוצאה מכך, חולים עלולים להתמודד עם עיכובים בטיפול, עלויות רפואיות גבוהות, ומתח רגשי שהולך וגובר בעוד הצוות הרפואי מנסה לפענח את המקרה".

כדי לשפר את המצב, החוקרים בנו מאגר נתונים בשם CUPCase, שכולל מקרים רפואיים מיוחדים והאבחונים המתאימים להם. המאגר מבוסס על 3,562 דיווחי מקרים מהעיתון המדעי BMC Journal of Medical Case Reports. מקרים אלו מתועדים על ידי רופאים כאשר הם נתקלים בהצגה לא-שגרתית של מחלה, במחלה נדירה או במקרה רפואי בעל אופי מיוחד, שאותם הם רוצים לשתף עם הקהילה. 

המקרים הורכבו לכדי מאגר מידע הוצגו על ידי שאלות פתוחות וגם ושאלות אמריקניות, שכללו את תיאור המקרה הרפואי של החולה. באמצעות מאגר נתונים זה, העריכו החוקרים את יכולות האבחון של מודלי שפה גדולים, כולל מודלים כלליים (שאינם ממוקדים ברפואה), לזהות ולאבחן מקרים רפואיים. בנוסף, נבחנו ביצועי המודלים כאשר רק חלק מהמידע על המקרה היה זמין, כדי לבחון את היכולת שלהם להיות לעזר כבר במהלך הפגישות עם המטופל.  

אוריאל פרץ. "הממצאים מדגישים את הפוטנציאל של מודלי שפה בתמיכת אבחון מוקדם", צילום: אלבום פרטי

״היה חשוב לנו לייצר דרך להעריך את היכולת של מודלי שפה לאבחן מקרים מורכבים, מהעולם האמיתי ולא רק את המקרים הנפוצים מהספרות או ממבחני הרפואה. האופי של דיווח מקרים רפואיים, שמתאר דווקא את המקרים המורכבים התאים בדיוק למשימה״, אמר הדוקטורנט אוריאל פרץ, ממובילי המחקר.

הממצאים הצביעו על כך שדווקא מודל GPT-4o, מודל כללי שלא שאינו מתמחה ספציפית ברפואה, משיג את הביצועים הטובים ביותר הן במשימת שאלות אמריקניות (דיוק ממוצע של 87.9%) והן במשימת השאלות הפתוחות (76.4%). מודל GPT-4o הציג ביצועים טובים יותר מאלו של מספר מודלי שפה שעברו התאמה מיוחדת לתחום הרפואי, כגון Meditron-70B ו-MedLM-Large. 

״הופתענו לראות שדווקא המודלים הכלליים, כמו GPT-4o או Llama-3.1 הציגו ביצועים טובים יותר משל המודלים שהותאמו לרפואה במשימה הזו", אמר הדוקטורנט אופיר בן שוהם, ממובילי המחקר.

אופיר בן-שוהם. "״הופתענו לראות שדווקא המודלים הכלליים הציגו ביצועים טובים יותר", צילום: אלבום פרטי

המחקר גם הציג שיטה אוטומטית ליצירת מאגר שאלות רחב היקף (הכולל אלפי מקרים), והפיכתם לשאלות פתוחות ושאלות סגורות בנוגע למקרים רפואיים אמיתיים מורכבים. זאת, בד בבד עם יצירת פלטפורמת השוואה של מודלי שפה גדולים שונים (קליניים וכלליים).

"הצלחנו להראות שיש פוטנציאל לשימוש במודלי שפה גדולים לטובת אבחון של מקרים רפואיים מורכבים", הסביר בן שוהם. "ממצאי המחקר מדגישים את הפוטנציאל של מודלי שפה בתמיכת אבחון מוקדם במקרים מהעולם האמיתי", הוסיף פרץ.

"מאגר הנתונים שבנינו מרחיב את היכולת שלנו להעריך מודלי שפה לתמיכה בקבלת החלטות קלינית עבור מקרים רפואיים מורכבים באופן פתוח וניתן לשחזור", אמר ד"ר רפופורט. "יש כאן פוטנציאל נרחב לסיוע באבחון יעיל של מקרים קליניים מורכבים. יותר מכך, זה מראה שיש אפשרות לשפר את המודלים בתחום הרפואה".

מאגר הנתונים CUPCase פתוח לשימוש, ניתן להרחבה בקלות בעזרת מקרי בוחן נוספים ויכול לאפשר הערכה של מודלי שפה חדשים בעתיד, תוך בחינת יכולתם לאבחן מקרים רפואיים מגוונים ומורכבים.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו

כדאי להכיר