ה-AI כבר בכל מקום: בעבודה, בבית הספר, בתקשורת, בתרבות וברשתות החברתיות. מי שלא יוצר - נשאר מאחור. בכל יום כמעט אנחנו שומעים על עדכון גרסה של צ'אטבוט, על פיצ'ר חדש בכלי וידאו, על מודל יצירת תמונות פורץ דרך, או על מתחרה נוסף במרוץ המטורף של הבינה המלאכותית.
אז איך יודעים באיזה כלי לבחור. לשם כך הכנו מבחן קצרצר, שיעזור למתלבטים. רצינו לבדוק מי מבין מודלי הבינה המלאכותית הגנרטיביים (GenAI) הכי בולט כשמדובר ביצירת טקסט, תמונה או וידאו. לכל משימה - שיר, תמונה וסרטון - נבחרו שלושה כלים שונים, שמתמחים כל אחד בתחום יצירה אחר. ההנחיה הייתה זהה לכולם, אבל התוצאות? מפתיעות, שונות, ולפעמים אפילו משונות. אז מי הכי מדויק? בדקנו.
וידאו: במה אחת, שלושה כלים – לא כולם עלו שלב
תחום הווידאו מבוסס הבינה המלאכותית נמצא בשיאו – אבל כמה מהכלים הפופולריים באמת מבינים את המשתמש? בדקנו שלושה מהשמות הבולטים כיום: סורה (שרלוונטית למנויים בלבד בינתיים), פיקה וראנוויי, שמעניקים גישה מוגבלת לתכנים שלהם, וגילינו פערים חדים בין מהירות, ממשק ואיכות התוצאה.
מי ג'ינרט יותר טוב? כלי בינה מלאכותית יצרו וידאו של תוכנית ריאליטי מוזיקלית | PIKA labs, Sora, Runway ML
ההנחיה שנתנו לכלים הייתה ברורה: ליצור סרטון בסגנון תחרות ריאליטי, שבו פירות, ירקות, עוגת גבינה וגבינה צהובה מתחרים בתכנית ריאליטי – מול שופטים.
מבחינת מהירות תגובה, סורה מובילה – הסרטון נוצר תוך שניות. פיקה אחריה, וראנוויי משתרכת מאחור עם זמני המתנה ארוכים. גם בממשק ניכר הבדל: פיקה מציעה חוויית משתמש פשוטה וברורה – נכנסים, כותבים פרומפט ומקבלים סרטון. הפלטפורמה כולה מוקדשת ליצירת וידאו בלבד, וההתמקדות הזו מורגשת היטב. לעומתה, סורה וראנוויי מציעות ממשק עמוס יותר, שלא תמיד משרת את המשתמש הפשוט.
מבחינת הבנת הפרומפט:
פיקה הובילה בפער. גם אם לא פענחה כל מילה בפרומפט, היא הצליחה ליצור אנימציה צבעונית, חיה ומרשימה – עם אווירה של תחרות, דמויות ברורות וסגנון שמבין את הז’אנר.
סורה, לעומת זאת, פספסה: היא אמנם הגיבה במהירות, אך הפיקה סרטון שונה לחלוטין – תפוח אדום שמואר באור דרמטי, כאילו הוא מתמודד באודישן. זה אולי קשור לרעיון של במה ותחרות, אבל מרגיש מנותק מהכוונה המקורית ומההומור שבפרומפט. ראנוויי איכזבה יותר מכולן – גם איטית, גם לא מדויקת, וגם עם תוצאה מבולבלת וחסרת סיפור ברור. בסרטון שיצרה ראנוויי, נראו פירות לא ברורים על במה מוארת.
המסקנה? בגרסה של פיקה קיבלנו תחרות ריאליטי משעשעת, מלאה בצבע ואופי – ירקות, פירות ועוגות גבינה שהפכו למתמודדים. לא רק מדובר בהבנה של ההנחיה, מדובר גם על אנימציה ברמה גבוהה.
תמונה: אותו רעיון, שלוש פרשנויות – רק אחת פגעה בדיוק
השווינו בין שלושת כלי ה-AI ליצירת תמונות – והתוצאות הפתיעו. לקראת חג שבועות, ביקשנו משלושת כלי הבינה המלאכותית המובילים – מידג'רני , ChatGPT וגרוק – ליצור תמונה פשוטה לכאורה: ילד קטן, לבוש לבן, נוהג בטרקטור צעצוע כשמאחוריו עוגת גבינה. ברקע – קיבוץ, שדה שיבולים ושמש.
התוצאות: מידג'רני הייתה המהירה ביותר והציגה ארבע תמונות לבחירה. התמונות הוצגו באיכות צילום גבוהה – אך מידג'רני לא הצליחה להבין את הפרטים הקטנים בפרומפט. עוגת הגבינה לא הופיעה, והילד שהוצג בכל תמונה חבש כיפה, כנראה משום שהבקשה נכתבה בעברית. התוצאה: תמונה יפה ואיכותית אבל סטריאוטיפית ומנותקת מהכוונה המקורית.
ChatGPT ודאלי הבינו טוב יותר את הפרומפט. הילד, העוגה והטרקטור הופיעו כולם, והאווירה הכללית תאמה את רוח החג, אך התמונה שהתקבלה הייתה פחות ריאליסטית ממידג'רני ואפילו קצת מלאכותית.
גרוק הפתיעה לטובה עם שתי גרסאות שונות, שאחת מהן אף כללה ילד נטול כיפה – נקודת זכות בשאלת הייצוג וההבנה התרבותית. האיכות הוויזואלית הייתה דומה לגרסה שהתקבלה מ-ChatGPT, אך ההבנה הייתה מהמדויקות ביותר.
המסקנה: מידג'רני היא המצטיינת באסתטיקה אך הגרסה החדשה שלה, 7v, עדיין מתקשה להבין את השפה עברית כשמדובר בפרומפט והיא מציגה סטריאוטיפים. גרוק ו-ChatGPT אולי פחות מרשימים ויזואלית – אבל כשזה מגיע להבנת הפרומפט, הם מובילים.
כתיבת טקסט: שלוש גרסאות, שלוש סבתות - מי הכי נוגעת?
בשלב השלישי ביקשנו מ-ChatGPT, קלוד וגרוק לכתוב שיר על סבתא ששומרת את המתכון הסודי שלה לעוגת גבינה. ChatGPT יצר שיר מובנה היטב עם התחלה, אמצע וסוף, יחד עם תחושת תנועה וסצנה ברורה. גרוק נשאר במעגל חזרתי – כל בית דומה לקודם. קלוד הציע מבנה פתוח,שמסתיים בתובנה וברגש. המבנה אצל כל אחד מהמודלים מעיד על סגנון הכתיבה הכללי שלו: דרמטי, תבניתי או פיוטי.
המתכון של סבתא - ChatGPT
סבתא, תגידי, רק תני לי רמז,
מה יש בפנים? זה גבינה או כֶסֶם?
שאלתי בשקט, אפילו בלי לחץ,
היא ליטפה לי את הלחי ואמרה – “רק קצת מלח”.
ניסיתי בזמן שהיא ראתה חדשות,
לצלם במחברת, לרשום הערות,
אבל בדיוק אז היא פתאום נזכרה –
“בשנת חמישים ושש, היה לי שמלה צהובה!”
אמרתי: סבתא, בבקשה, נשבע –
לא אגלה לאף אחד, רק אכין להנאה.
היא צחקה ואמרה: “מה, זה מעניין אותך פתאום באפייה?”
ושפכה לי סיפור על חייל שפעם כתב לה מכתב אהבה.
אז נשארתי שוב עם טעימה מהפרור,
והיא? רק חייכה, כמו בלש שמור.
כי יש דברים שלא כותבים במחברת –
כמו טעם של בית, וסבתא גיבורת הסרט.
מבחינת עולם הדימויים ניכר הבדל ברור. ChatGPT שוזר פרטים חיים ואישיים, כמו שמלה מ-1956, מה שהופך את הסבתא לדמות אמינה. לעומת זאת, גרוק נשען על דימויים כלליים כמו שמש שוקעת וחתול בסמטה – שהם מוכרים אך פחות יצירתיים. קלוד משלב בין מגע (כף שמערבבת, בצק דק) לבין מחשבה רגשית עם עומק. התוכן והדימויים בכל שיר מכתיבים גם את הדרך שבה הקורא נקשר אליו – דרך שנינות, דרך תבנית, או דרך רגש.
שיר על סבתא ועוגת הגבינה - גרוק
אני שואל, "סבתא, תגלי לי את הסוד?
מה שם בעוגה, שטעמה כל כך טוב?"
היא מחייכת, עיניה נוצצות ככוכב,
"אוי, תראה, השמש שוקעת, כמה יפה השרב!"
אני מבקש, "סבתא, רק רמז, קצת קמח?"
מנסה להציץ, אולי אמצא במחברת.
היא צוחקת, מלטפת, מספרת על פעם,
"כשהייתי קטנה, רדפתי אחרי חתול בסמטה!"
אני מתחנן, "סבתא, תני לי ללמוד!"
אבל היא ממשיכה, "היה פעם גשם כזה סגרירי..."
המתכון חמקמק, כמו צל בחלום,
וסבתא רק מחייכת, שומרת אותו לעצמה בדממה.
בסופו של דבר, לכל מודל יש חוזקה אחרת: ChatGPT מצטיין בכתיבה טבעית ודיאלוגית שמרגישה כמו אינטראקציה אמיתית; גרוק שומר על פשטות וישירות שמתאימות אולי לקהל צעיר או לסגנון ילדי; וקלוד מביא איתו עומק רגשי ומחשבה שקטה. אבל אם מחפשים כתיבה שמרגישה חיה – לא רק נראית כמו שיר – כנראה שChatGPT מצליח לגעת הכי קרוב למשהו שהוא יותר "אנושי".
המתכון הסודי של סבתא - קלוד
"סבתא, איך את עושה את העוגה הזאת?
הגבינה כל כך קרמית, הבצק כל כך דק..."
היא מחייכת, מוחקת את הידיים במטלית,
"בוא, ספר לי מה שלומך בעבודה, מתוק."
אני מנסה שוב, מסתכל איך היא מערבבת,
זוכר בעל פה כל תנועה, כל מינון,
אבל היא סוגרת את הקערה, מסתובבת,
"ראית את השכנה החדשה? איזה בלגן ברחוב הראשון".
"סבתא, רק תגידי כמה ביצים, כמה סוכר..."
היא צוחקת, מביטה בעיניים הטובות שלה,
"אתה יודע מה? הקטנה של חנה כבר מדברת,
אמרה 'סבתא' בפעם הראשונה, מלאכה".
ואני יושב, אוכל עוד פרוסה,
יודע שהמתכון לא בכוסות או בגרמים,
אלא בידיים שהכינו אלף פעם,
בחיוך שמסרב לגלות את הסוד,
ובאהבה שטועמים בכל ביס.
אז מה למדנו מהמבחן הזה? שבינה מלאכותית יודעת הרבה דברים – אבל יצירתיות, הקשר תרבותי, רגש והבנה עמוקה של סיטואציה הם עדיין אתגרים לא פשוטים עבורה.
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו