דרמה בוול סטריט: מדד הנאסד"ק נופל היום (שני) כמעט בארבעה אחוזים – כשמניית אנבידיה צוללת במסחר המקדים ב-11 אחוז ומיקרוסופט בשישה אחוזים. הסיבה: חברה סינית קטנה ועלומה בשם דיפסיק (DeepSeek AI) הטילה פצצה שמרעידה את אמות הסיפים של תעשיית ה-AI.
בתקשורת האמריקאית מדווחים על לא פחות מפאניקה בחברות כמו OpenAI ומטא, שגילו לפתע כי מתחרה חדשה ובלתי צפויה נושפת בעורפם - ועשויה לחייבן לשנות מהיסוד את התמחור והמודל העסקי.
בשבוע שעבר, ביום השבעתו של טראמפ לנשיאות, השיקה דיפסיק את המודל r1. מדובר במודל "חשיבה" (reasoning) שמסוגל לפתור בעיות מורכבות ביעילות מרשימה, ומציג ביצועים השקולים למודל החשיבה o3 של OpenAI. דיפסיק פיתחה את המודל במהירות שיא ובהשקעה מזערית, והיא מציעה אותו לשימוש בחמישה אחוז מהעלות של o3 ובקוד פתוח.
כך, מתחת לרדאר, בצוות קטן ובהשקעה נמוכה, חרף הסנקציות האמריקניות המגבילות את הגישה של חברות סיניות למעבדים חזקים - הצליחה דיפסיק לפתח מודל ששקול ואף עולה בביצועיו על המודלים של ענקיות ה-AI האמריקניות. עובדה זו מנפצת את כל המוסכמות על פיתוח ואימון מודלי AI; ומעלה שאלות על מאות מיליארדי הדולרים שהשקיעו החברות האמריקניות, בראשן OpenAI, בפיתוח המודלים שלהן.
עם זאת, יש כאלה הטוענים כי לא ייתכן שדיפסיק אכן הגיעה להישגים כאלה במשאבים כה דלים, וכי ייתכן שמדובר בהונאה שנועדה להשיג גישה לדאטה של ארגונים במערב.
המודל שמראה איך הוא חושב
מה אנחנו יודעים על דיפסיק AI? האמת, לא הרבה. מאחורי החברה עומדת קרן הון-סיכון סינית בשם High-Flyer. הקרן הוקמה לפני כעשור על ידי שלושה מהנדסי תוכנה סיניים ועסקה בתחילת הדרך במסחר אלגוריתמי בשוק המניות. היא בנתה תשתית מחשוב של כמה עשרות אלפי מעבדי אנבידיה, וב-2023 החליטה לרתום את כוחות המחשוב הללו למו"פ בתחום הבינה המלאכותית - והקימה את דיפסיק.
בדצמבר האחרון השיקה החברה מודל שפה גדול (LLM) בשם v3, הפועל בדומה ל-ChatGPT; ובשבוע שעבר השיקה כאמור את מודל החשיבה r1. מודלי חשיבה, כדוגמת o1 ו-o3 של OpenAI, פועלים מעט שונה מ-ChatGPT. במקום לשלוף את התשובה במהירות האפשרית, הם "עוצרים כדי לחשוב" ויוצרים "שרשרת מחשבות" כדי לבחון את הבעיה מזוויות שונות במטרה להגיע לתשובות מעמיקות ויסודיות יותר. המודלים הללו מיועדים לפתרון בעיות מורכבות בתכנות, מתמטיקה, מדע וכדומה. הם מסמנים את הגל החדש של מודלי AI - שלב נוסף בדרך להשגת "בינה מלאכותית כללית" (AGI).
בשונה מ-OpenAI, דיפסיק מציעה את המודל שלה בקוד פתוח - כלומר כל אחד יכול להוריד את המודל ולהריץ אותו באופן מקומי, אפילו על מחשב נייד. עוד משהו שמייחד את המודל הוא השקיפות שלו. כאשר המשתמש מציב בפניו שאלה, המודל מפרט לפרטי פרטים את כל תהליך החשיבה, כך שהמשתמש יכול להתחקות אחר האופן שבו המודל פתר את הבעיה, וכך גם לטייב אותו. לדברי דיפסיק, הם השתמשו רבות במידע סינתטי ופיתחו שיטות חדשניות לאימון מודל חשיבה, שהצריכו לאין שיעור פחות דאטה ופחות מחשוב.
השקת המודל הפכה ויראלית בן לילה, ועוררה סערה בעמק הסיליקון ובקהילת הפיתוח שקשה להפריז בעוצמתה. משקיע ההון-סיכון הידוע מארק אנדריסאן צייץ "אחת מפריצות הדרך המרשימות והמדהימות שראיתי אי פעם"; ואפילו סאטיה נדאלה, מנכ"ל מיקרוסופט, שמשתפת פעולה באופן הדוק עם OpenAI, צייץ "זה סופר מרשים, מוצר סופר יעיל ברמת המחשוב".
השקת המודל עוררה גם לא מעט ביקורת ושמחה לאיד כלפי OpenAI ומייסדה סם אלטמן. OpenAI, שנחשבת חלוצה בתחום, סופגת לא מעט ביקורת על המחירים הגבוהים שהיא גובה, כמו גם על העובדה שחרף שמה, המודלים שלה אינם בקוד פתוח והיא משתפת מעט מאוד ידע אודותיהם. כעת, דווקא חברה סינית מציעה מודל חשיבה בקוד פתוח - וקהילת המפתחים ממהרת לאמץ את הפתרון החדש.
בשיחה עם "ישראל היום" הסביר חנן זכאי, סמנכ"ל לקוחות בקבוצת הפיתוח CodeValue: "אחת הפרדיגמות בתחום ה-GenAI היתה שכדי לאמן מודלים גדולים צריך עוצמות מחשוב וכמות נתונים עצומות, ומכאן שהרבה מאוד כסף. זה בעצם החסם שמאפשר רק לחברות ענק לפתח מודלים כאלה. על פניו, דיפסיק מנפצת כאן את ההנחה הזו, ויהיו לכך השלכות על רמות התמחור בשוק המניות. הורדת החסם עשויה לפתוח פתח לעוד ועוד חברות לפתח מודלים כאלה ולהאיץ את החדשנות בתחום".
האם מאות מיליארדים יירדו לטימיון?
אחת השאלות הגדולות שמרחפות מעל תחום ה-AI היא האם ההשקעה האדירה תחזיר את עצמה, ומתי? שאלה זו יכולה להכריע את המגמה בשוק המניות, כאשר מניות ה-AI נסחרות במכפילים גבוהים מאוד, מתוך ציפייה לגידול מהיר בהכנסות.
OpenAI, מיקרוסופט, גוגל, xAI, מטא ועוד השקיעו בשנתיים האחרונות מאות מיליארדי דולרים בהקמת תשתיות מחשוב אדירות מימדים לאימון והרצה של מודלים. רק בשבוע שעבר הכריזה OpenAI, בשיתוף אורקל וסופטבנק, על פרויקט "סטארגייט", לבנייה של מרכזי נתונים ברחבי ארה"ב בהשקעה כוללת של לא פחות מחצי טריליון דולר.
ירידות השערים החדות היום בוול סטריט ממחישות כי המשקיעים מחשבים מסלול מחדש. כעת, המנכ"לים של חברות כמו מטא ומיקרוסופט יצטרכו להסביר למשקיעים כיצד חברת סטארט-אפ קטנה הגיעה להישגים כאלה בהשקעה מזערית.
בהיותו מוצר סיני, r1 כפוף לחוקי הצנזורה של המשטר הסיני, ומתוקף כך יסרב לענות על שאלות על המאורעות בכיכר טיין-אן-מן ועל שאלת עצמאותה של טייוואן. אולם, מכיוון שהוא מודל חשיבה, המשתמשים כנראה לא יפנו אליו בשאלות פוליטיות. הזיקה הסינית גם מעוררת את החשש כי המודל יאפשר למשטר במדינה גישה לעוד ועוד מידע ולחזק עוד יותר את מעמדו בתחום ה-AI.
לדברי זכאי, "הזיקה הסינית עשויה להיות אחת מנקודות התורפה של דיפסיק, ולעורר חשש בקרב משתמשים בסוגיות של פרטיות ואבטחה. עם זאת, במידה ואכן הם יציעו מחירים נמוכים משמעותית, ייתכן שאפילו ארגונים לא יוכלו לעמוד בפיתוי. גם טיקטוק היא אפליקציה סינית ויש לה מאות מיליוני משתמשים בארה"ב".
דובר רשמי של חברת אנבידיה אמר: "DeepSeek היא התקדמות מצוינת בבינה מלאכותית והיא דוגמה מושלמת ל-Test-Time Scaling. העבודה של DeepSeek ממחישה כיצד ניתן לייצר מודלים חדשים באמצעות טכניקה זו, תוך מינוף של מודלים קיימים וטכנולוגיות מחשוב שעומדות בתקנות הייצוא. ביצוע Inference דורש מספר משמעותי של מעבדים גרפיים וטכנולוגיות תקשורת מואצת. כעת, ישנם שלושה חוקי סקיילינג: Pre-Training, Post-Training וכן Test-Time Scaling".
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו