מסמכי בית משפט שפורסמו השבוע חושפים שחברת הבינה המלאכותית אנתרופיק הוציאה מיליוני דולרים על רכישת ספרים פיזיים, חתכה אותם מהכריכות, סרקה אותם לקבצים דיגיטליים והשליכה את המקורות הפיזיים - הכל לשם אימון הצ'אטבוט קלוד - כך על פי פרסום באתר Ars Technica.
מסמך בן 32 עמודים שפורסם במסגרת פסיקה משפטית בנושא זכויות יוצרים מגלה שבפברואר 2024 גייסה אנתרופיק את טום טרווי, לשעבר מנהל פרויקט גוגל בוקס לסריקת ספרים. משימתו הייתה להשיג "את כל הספרים בעולם" לצורכי אימון הבינה המלאכותית.
הגיוס האסטרטגי נועד לשכפל את הגישה המוכרת של גוגל לדיגיטציה של ספרים - אותה פעולה שעמדה במבחני זכויות היוצרים וקבעה תקדימים חשובים בתחום השימוש ההוגן.
מדוע להרוס ספרים?
כדי להבין את המניע מאחורי השמדת מיליוני ספרים, חשוב להכיר את אופן פעולתם של מודלי שפה גדולים (LLM) כמו קלוד או ChatGPT. חוקרי בינה מלאכותית מאמנים מודלים אלה על ידי הזנת מיליארדי מילים לרשת עצבית. במהלך האימון, המערכת מעבדת את הטקסט שוב ושוב ובונה קשרים סטטיסטיים בין מילים ומושגים.
איכות נתוני האימון משפיעה ישירות על יכולות המודל הסופי. מודלים המאומנים על ספרים וכתבות ערוכים היטב נוטים לייצר תגובות רלוונטיות ומדויקות יותר מאלה המאומנים על טקסטים באיכות נמוכה יותר.
מוציאים לאור שולטים בתכנים שחברות AI זקוקות להם נואשות, אך חברות הבינה המלאכותית לא תמיד מעוניינות לנהל משא ומתן על רישיונות. אולם, ברגע שקונים ספר פיזי, ניתן לעשות עם העותק מה שרוצים - כולל להשמיד אותו.
מפיראטיות לרכישה חוקית
בהתחלה, כמו חברות AI רבות אחרות, בחרה אנתרופיק בדרך המהירה והפשוטה. על פי מסמכי בית המשפט, החברה בחרה תחילה לאסוף גרסאות דיגיטליות ופיראטיות של ספרים, כדי להימנע מהמשא ומתן המורכב עם מוציאים לאור.
אך ב-2024, אנתרופיק כבר הייתה זקוקה למקור בטוח יותר. רכישת ספרים פיזיים משומשים עקפה לחלוטין את נושא הרישוי תוך מתן גישה לטקסט איכותי וערוך מקצועית הדרוש למודלי AI.
הסריקה ההרסנית הייתה פשוט הדרך המהירה ביותר לדיגטציה של מיליוני כרכים.
על פי הדיווח, החברה הוציאה "מיליוני דולרים רבים" על פעולת הקנייה והסריקה, לעתים קרובות רכשה ספרים משומשים בכמויות גדולות. לאחר מכן הם הפרידו ספרים מהכריכות, חתכו דפים לממדים מתאימים, סרקו אותם כערימות דפים ל-PDF עם טקסט הניתן לקריאה על ידי מחשב כולל כריכות, ולאחר מכן השליכו את כל הניירות לאשפה.
תקדים משפטי
כאמור, השופט וויליאם קבע שפעולת הסריקה ההרסנית מהווה שימוש הוגן - אך רק כי אנתרופיק רכשה את הספרים באופן חוקי, השמידה כל עותק מודפס לאחר הסריקה ושמרה את הקבצים הדיגיטליים באופן פנימי במקום להפיץ אותם.
שווה לציין, כי גופים אחרים כבר פיתחו שיטות הרסניות פחות לסרוק ספרים. כך, למשל, "ארכיון האינטרנט" סורק רבבות ספרים באופן ששומר על שלמותם תוך יצירת עותקים דיגיטליים.
טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו
