רובוט מסתכל על לוגו ויקיפדיה דרך זכוכית מגדלת. צילום: פידי באמצעות FLUX.1

הסיבה המפתיעה שויקיפדיה נכנסת לתחום הבינה המלאכותית

האנציקלופדיה הפתוחה הכריזה על גרסה מותאמת לבינה מלאכותית – לא בגלל שהיא חושבת שזה חשוב, אלא בגלל שאחרת היא פשוט תקרוס

[object Object]

בצעד אסטרטגי מפתיע, קרן ויקימדיה נכנסת באופן פעיל לזירת הבינה המלאכותית, על ידי הצעת מסדי נתונים מובנים מתוך ויקיפדיה, המפורמטים במיוחד ללמידת מכונה. בניגוד למטרה הרשמית של הארגון, הכניסה שלו לתחום ה-AI לא מיועדת להרחיב את הגישה למידע שהיא מכילה – אלא דווקא להגביל אותה.

קחו אצבע

Wikimedia Enterprise, הזרוע המסחרית של קרן ויקימדיה המפעילה את האנציקלופדיה הפתוחה, שחררה בשותפות עם Kaggle, פלטפורמת מדע נתונים בבעלות גוגל, גרסאות בטא של מסדי נתונים מובנים מתוך ויקיפדיה באנגלית ובצרפתית. מסדי הנתונים החדשים מפורמטים במיוחד ליישומי למידת מכונה, כך שבמקום לדרוש ממפתחי בינה מלאכותית ‘לכרות’ או לנתח טקסט גולמי מאתר ויקיפדיה, הם מספקים ייצוג של תוכן ויקיפדיה שניתן להשתמש בו למידול, כוונון עדין וניתוח.

התוכן כולל אלמנטים שימושיים כמו תקצירים, תיאורים קצרים, נתוני מפתח-ערך בסגנון תיבות המידע המוכרות, קישורים לתמונות וקטעי מאמרים מחולקים באופן ברור. באופן בולט חסרים מקורות ואלמנטים אחרים שאינם טקסט, אשר זמינים רק דרך ממשק גישה ייעודי של ויקימדיה בשם API Snapshot.

"מסד נתונים זה מפשט את הגישה לנתוני מאמרים ‘נקיים’ ומנותחים מראש, שניתן להשתמש בהם מיד למידול, השוואה, יישור, כוונון עדין וניתוח חקירתי", לפי הודעת Wikimedia Enterprise.

תעזבו את היד

הסיבה למהלך היא שוויקיפדיה נאבקת בתוצאה בלתי צפויה של פריחת הבינה המלאכותית: תוכנות שהופעלו על ידי חברות בינה מלאכותית כדי לאסוף מידע לבינות המלאכותיות שלהן סורקות באופן אגרסיבי את האנציקלופדיה המקוונת כדי לאמן את המודלים. התעבורה האוטומטית הזו הובילה לעומס כה קיצוני על ויקיפדיה, עד שהארגון התחנן בחודשים האחרונים שהחברות תפסקנה לסרוק אותו, משום שאחרת יקרוס – אם לא מעלויות השרתים המוגברות, אזי מזמני טעינה איטיים משמעותית למשתמשים אנושיים.

עבור מפתחי בינה מלאכותית, שיתוף פעולה זה מספק מקור אמין ומובנה של בסיס הידע העצום של ויקיפדיה ללא החששות האתיים של כריית מידע לא מורשית. התוכן נשאר ברישיון חופשי Creative Commons Attribution-Share-Alike 4.0 ו-GNU Free Documentation License.

עבור קרן ויקימדיה, הגישה הזו אמורה להפחית את העומס על השרתים על ידי מתן חלופה ייעודית לבינה מלאכותית, מעניקה לה שליטה מסוימת על האופן שבו התוכן שלה משמש במערכות בינה מלאכותית ומקור הכנסה פוטנציאלי, אם תחליט לגבות כסף על השימוש בגרסת ה-AI הייעודית של המידע.

השותפות הזו מעלה שאלות מעניינות לגבי היחסים העתידיים בין מאגרי ידע פתוחים לבין בינה מלאכותית. במקום להיות רק מקורות פסיביים של נתוני אימון, ארגונים כמו ויקיפדיה מתחילים לשחק תפקיד פעיל יותר בעיצוב האופן שבו התוכן שלהם מוזן למערכת האקולוגית של בינה מלאכותית.

הבעיה היא, כמובן, בכך שחברות הבינה המלאכותית לא חייבות לאמץ את התכתיבים של האתרים. הן יכולות להמשיך לשלוח את תוכנות הסריקה שלהן למקור – אך אז תסתכנה בתביעות מצד אחד ובגרימה לקריסה של מקורות המידע שלה מצד שני.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו
Load more...