"ישראל היום" הוא גוף תקשורת שנוסד מתוך האמונה שהציבור הישראלי ראוי לעיתונות טובה יותר, מאוזנת יותר ומדויקת יותר. עיתונות שמדברת ולא צועקת. עיתונות אמינה, אובייקטיבית ועניינית. עיתונות אחרת וללא תשלום. המהדורה המודפסת הראשונה פורסמה ב-30 ביולי 2007, וב-2010 הפך "ישראל היום" לעיתון הישראלי בעל שיעור החשיפה הגבוה ביותר בימי חול. מו"ל העיתון היא ד"ר מרים אדלסון. העורך הראשי הוא עמר לחמנוביץ, והעורך המייסד הוא עמוס רגב. אתרי האינטרנט של "ישראל היום" בעברית ובאנגלית, כמו כן היישומונים (אפליקציות) לאנדרואיד ול-iOS, מציגים חדשות מסביב לשעון, תוכן בלעדי, מבזקים ועדכונים, ניתוחים ופרשנויות, וידיאו, פודקאסטים ושידורים חיים. פלטפורמות הדיגיטל של "ישראל היום" כוללות ערוצי חדשות ודעות, תרבות ובידור, לייף סטייל, טכנולוגיה, ספורט, כלכלה וצרכנות, בריאות, חיילים, אוכל, יהדות, תיירות ורכב. ב-2021 עלו לאוויר האתר החדש והיישומון החדש של "ישראל היום" בעברית, במטרה לספק לגולשים חוויה מהירה, עדכנית, בטוחה ונוחה. תכני המהדורה המודפסת של העיתון זמינים גם באתר, במהדורה יומית מקוונת, ואפשר לקבל אותם גם בניוזלטר. מועדון ההטבות הייחודי "הקליקה של ישראל היום" מציע לגולשי האתר הנחות ומבצעים על מוצרים ושירותים. ישראל היום פתוח להערות, לביקורת ולהצעות לשיפור מקהל הקוראים. פנו אלינו במייל hayom@israelhayom.co.il.

X

מסמכי ביהמ"ש חושפים: חברת ה-AI קנתה מיליוני ספרים והשליכה אותם לאשפה

חברת אנתרופיק פגמה בכמות עצומה של ספרים במהלך הסריקה הדיגיטלית שלהם • הטקסטים שנסרקו שימשו לתהליך האימון של הצ'אטבוט הפופולרי קלוד • שופט קבע שהתהליך מהווה שימוש הוגן כי הספרים נקנו באופן חוקי • החברה אל הסבירה מדוע לא בחרה בשיטות סריקה מזיקות פחות

,עודכן
0השמעה
ספרים (אילוסטרציה). צילום: GettyImages

מסמכי בית משפט שפורסמו השבוע חושפים שחברת הבינה המלאכותית אנתרופיקהוציאה מיליוני דולרים על רכישת ספרים פיזיים, חתכה אותם מהכריכות, סרקה אותם לקבצים דיגיטליים והשליכה את המקורות הפיזיים - הכל לשם אימון הצ'אטבוט קלוד - כך על פי פרסום באתר Ars Technica.

מסמך בן 32 עמודים שפורסם במסגרת פסיקה משפטית בנושא זכויות יוצרים מגלה שבפברואר 2024 גייסה אנתרופיק את טום טרווי, לשעבר מנהל פרויקט גוגל בוקס לסריקת ספרים. משימתו הייתה להשיג "את כל הספרים בעולם" לצורכי אימון הבינה המלאכותית.

הגיוס האסטרטגי נועד לשכפל את הגישה המוכרת של גוגל לדיגיטציה של ספרים - אותה פעולה שעמדה במבחני זכויות היוצרים וקבעה תקדימים חשובים בתחום השימוש ההוגן.

ראשי חברת אנתרופיק (ארכיון). רצו "את כל הספרים בעולם",צילום: אי.אף.פי

מדוע להרוס ספרים?

כדי להבין את המניע מאחורי השמדת מיליוני ספרים, חשוב להכיר את אופן פעולתם של מודלי שפה גדולים (LLM) כמו קלוד או ChatGPT. חוקרי בינה מלאכותית מאמנים מודלים אלה על ידי הזנת מיליארדי מילים לרשת עצבית. במהלך האימון, המערכת מעבדת את הטקסט שוב ושוב ובונה קשרים סטטיסטיים בין מילים ומושגים.

איכות נתוני האימון משפיעה ישירות על יכולות המודל הסופי. מודלים המאומנים על ספרים וכתבות ערוכים היטב נוטים לייצר תגובות רלוונטיות ומדויקות יותר מאלה המאומנים על טקסטים באיכות נמוכה יותר.

מוציאים לאור שולטים בתכנים שחברות AI זקוקות להם נואשות, אך חברות הבינה המלאכותית לא תמיד מעוניינות לנהל משא ומתן על רישיונות. אולם, ברגע שקונים ספר פיזי, ניתן לעשות עם העותק מה שרוצים - כולל להשמיד אותו.

ספרים (אילוסטרציה). אנתרופיק רכשה עותקים משומשים בכמויות גדולות,צילום: אי.אף.פי

מפיראטיות לרכישה חוקית

בהתחלה, כמו חברות AI רבות אחרות, בחרה אנתרופיק בדרך המהירה והפשוטה. על פי מסמכי בית המשפט, החברה בחרה תחילה לאסוף גרסאות דיגיטליות ופיראטיות של ספרים, כדי להימנע מהמשא ומתן המורכב עם מוציאים לאור.

אך ב-2024, אנתרופיק כבר הייתה זקוקה למקור בטוח יותר. רכישת ספרים פיזיים משומשים עקפה לחלוטין את נושא הרישוי תוך מתן גישה לטקסט איכותי וערוך מקצועית הדרוש למודלי AI.

הסריקה ההרסנית הייתה פשוט הדרך המהירה ביותר לדיגטציה של מיליוני כרכים.

על פי הדיווח, החברה הוציאה "מיליוני דולרים רבים" על פעולת הקנייה והסריקה, לעתים קרובות רכשה ספרים משומשים בכמויות גדולות. לאחר מכן הם הפרידו ספרים מהכריכות, חתכו דפים לממדים מתאימים, סרקו אותם כערימות דפים ל-PDF עם טקסט הניתן לקריאה על ידי מחשב כולל כריכות, ולאחר מכן השליכו את כל הניירות לאשפה.

תקדים משפטי

כאמור, השופט וויליאם קבע שפעולת הסריקה ההרסנית מהווה שימוש הוגן - אך רק כי אנתרופיק רכשה את הספרים באופן חוקי, השמידה כל עותק מודפס לאחר הסריקה ושמרה את הקבצים הדיגיטליים באופן פנימי במקום להפיץ אותם.

שווה לציין, כי גופים אחרים כבר פיתחו שיטות הרסניות פחות לסרוק ספרים. כך, למשל, "ארכיון האינטרנט" סורק רבבות ספרים באופן ששומר על שלמותם תוך יצירת עותקים דיגיטליים.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו

כדאילהכיר