פרנויה מוצדקת: מאזינים לנו דרך הסמארטפון

פרנויה מוצדקת: האמת מאחורי הטענה שמאזינים לנו בסמארטפון. צילום: ChatGPT

המרגל הנסתר בתוך הסיליקון: הנה תרחיש שקרה לכל אדם על הפלנטה. אתם מדברים עם חבר על מותג נעליים נידח, וכעבור שעה הפיד שלכם מוצף בפרסומות לאותן נעליים בדיוק? המסקנה המיידית היא קונספירטיבית מעט. המכשיר מקשיב, מנתח את המילים ומוכר את המידע למרבה במחיר. מערכת "היום" הייתה רוצה להגיד שזה לא נכון, אבל זה כן. המכשיר באמת תמיד בהאזנה. אין פה בכלל ויכוח.

המרגל הנסתר בתוך הסיליקון, צילום: ChatGPT

אם המכשיר מתעורר בשבריר שנייה כשזורקים לחלל את צמד המילים "היי סירי" או "אוקיי גוגל", המשמעות היא שהמיקרופון פתוח והמערכת מחכה. אבל הדרך שבה תעשיית השבבים פתרה את האתגר ההנדסי הזה היא לא פחות ממופת של גאונות וחיסכון קיצוני בחשמל. זה לא מרגל אנושי שיושב ומקשיב לנו; זו מערכת הגנה דו-שלבית מבוססת חומרה.

השומר לא מבין מילה בעברית

בתוך המעבד המרכזי של הסמארטפון המודרני מסתתרת ישות נפרדת לחלוטין. קוראים לה מעבד קבוע-ערנות (AOP). מדובר בצ'יפ זעיר, קמצן ואנורקטי מבחינה אנרגטית, שפועל בהספק פסיכי של פחות ממיליוואט אחד. הוא צורך כל כך מעט חשמל, שהוא כמעט ולא משפיע על חיי הסוללה.

הצ'יפ הזה מריץ רשת נוירונים מקומית קטנה וממוקדת מטרה. אין לה מושג מה זה אנגלית, עברית או שיווק. היא לא מסוגלת לתמלל את השיחות, היא לא שומרת קבצי שמע, והיא בטח לא מבינה שמחפשים נעליים. תפקידה היחיד בעולם הוא לבצע השוואת תבניות אקוסטית.

היא מקבלת זרם של גלי קול מהמיקרופון ומחפשת התאמה מתמטית מושלמת לתדר ולרצף של המילים "היי סירי". אם מדברים על פוליטיקה, עבודה או סתם מרכלים - בשבילה זה פשוט רעש רקע לבן ומבוזבז.

מריץ רשת נוירונים מקומית קטנה וממוקדת מטרה. שבב (להמחשה), צילום: רויטרס

מה זה אומר? מעבד קבוע-ערנות הוא רכיב חומרה ייעודי וקטן בתוך ערכת השבבים של המכשיר, שנועד לרוץ ברקע ללא הפסקה בצריכת אנרגיה אפסית. הוא משמש כ"שומר סף" שמפעיל מערכות כבדות ומורכבות יותר רק כאשר מתקבל קלט ספציפי (כמו פקודה קולית או תנועה של המכשיר).

הרצה של אלגוריתמים ורשתות נוירונים ישירות על גבי החומרה המקומית של המכשיר (הסמארטפון), ללא תלות בחיבור לאינטרנט או בשליחת נתונים לשרתים חיצוניים (ענן). זהו הבסיס לשמירה על פרטיות ומהירות תגובה במכשירים מודרניים.

הסלקטור בקצה האוזן

איך הצ'יפ מזהה את המילים "היי סירי", אבל חשוב להבהיר כי המכשיר לא סתם מחפש את המילים, הוא מחפש את הקול שלכם. בשלב האימון הראשוני, כשאתם מקריאים לטלפון משפטים, המערכת מייצרת פרופיל וקטורי ייחודי של מיתרי הקול שלכם. מעבד ה-AOP לא סתם מחפש תבנית אקוסטית כללית; הוא מריץ סינון של Speaker ID בזמן אמת.

כלומר, אם מישהו אחר יצעק "היי סירי" ליד המכשיר שלכם, גל הקול שלו יתרסק על חומת הווקטורים המקומית וייזרק לפח עוד לפני שהמעבד הראשי בכלל יבין שמדברים אליו.

סירי. לא סתם מחפש את המילים, צילום: אפל

כדאי לדעת: אחת הבעיות הקשות ביותר בהנדסת עוזרות קוליות היא מניעת הפעלות שווא. אם השעון או הטלפון שלכם נדלקים באמצע פגישה בלי שקראתם להם, המעבד קבוע-הערנות חווה False Positive. כלומר, הוא פירש רצף הברות אקראי כפקודת הפעלה. כדי למנוע מקרים כאלה מבלי לרוקן את הסוללה, חברות הטכנולוגיה מעדכנות את מודלי האקוסטיקה המקומיים ללא הפסקה על בסיס מיליוני דגימות קול.

לעורר את הטיטאן

רק כאשר המעבד הקטן והרזה מזהה הסתברות גבוהה לכך שאמרתם את פקודת ההפעלה, הוא שולח סיגנל חשמלי מהיר ומעורר את המעבד הראשי של הטלפון.

זהו השלב השני. המעבד הראשי הוא מפלצת כוח, וכשהוא מתעורר הוא מריץ רשת נוירונים גדולה ומתוחכמת בהרבה. התפקיד שלה הוא לאשרר את הממצאים: האם המשתמש באמת אמר "היי סירי", או שזה היה סתם רעש מהטלוויזיה או מילה דומה. רק אם המעבד הראשי מאשר את ההתאמה בוודאות, המכשיר פותח ערוץ תקשורת מוצפן, מתחיל להקליט את המשך המשפט שלכם, ושולח את קובץ האודיו לשרתים של אפל או גוגל בענן כדי שהם יפענחו את השפה הטבעית שלכם ויחזירו לכם תשובה.

הענן כבר לא צריך אותנו

סירי באמת הייתה שולחת את קובצי האודיו לשרתים של אפל בענן כדי לפענח שפה טבעית (NLP), אבל הארכיטקטורה הזו הולכת ומתה. בעידן הנוכחי, עם כניסת מעבדי ה-NPU הקיצוניים לתוך השבבים של הסמארטפונים, המכשירים מריצים מודלי שפה מקומיים ישירות על הסיליקון. העוזרת הקולית מסוגלת להבין את ההקשר, לתמלל ולבצע פעולות מורכבות בלי להוציא אפילו ביט אחד של מידע אל מחוץ למכשיר.

הענן נשאר רק כמפלט אחרון למשימות מחשוב כבדות ומבוזרות במיוחד, צילום: ChatGPT

כלומר, הענן נשאר שם רק כמפלט אחרון למשימות מחשוב כבדות ומבוזרות במיוחד.

כדאי לדעת: יש הבדל תהומי בין זיהוי גלי קול לבין הבנת משמעות. מודל אקוסטי מחפש רק את ה"צורה" הפיזיקלית של גל הקול (פיקים של תדרים, עוצמה וקצב). עיבוד שפה טבעית, לעומת זאת, דורש כוח מחשוב אדיר כדי להבין את ההקשר של המילים, הסלנג והכוונה. המכשיר מבצע רק את השלב האקוסטי; השלב השני קורה כמעט תמיד בשרתים מרוחקים.

המחיר האנרגטי של הנוחות

הנדסת הדו-שלביות הזו קיימת בכל העוזרות הקוליות בשוק - מ-Google Assistant ועד לאלקסה של אמזון. כולן משלמות "מס סוללה" זעיר ברקע כדי לחסוך מכם את הצורך ללחוץ על כפתור פיזי.

כדי שהקסם הזה יעבוד, לא רק הצ'יפ צריך להיות חסכוני, אלא גם החומרה הפיזית שקולטת את הסאונד. סמארטפונים משתמשים במיקרופוני MEMS - שבבי סיליקון זעירים שכוללים קרום מיקרוסקופי שרוטט מגלי קול. המיקרופונים האלה כוללים רכיב חומרה פסיבי לחלוטין שנקרא "Wake-on-Acoustic". הוא לא צורך שום זרם אקטיבי מהסוללה עד שגלי קול בעוצמה מסוימת פיזית מרעידים את הקרום. רק אז המיקרופון "מדליק" את זרם הנתונים למעבד.

הפרנויה שלנו לגבי הפרסומות הממוקדות היא הגיונית, אבל הטכנולוגיה מאחורי המיקרופון פשוט לא מסוגלת לבצע האזנת סתר המונית ומתוחכמת ברמת המכשיר בלי שהסוללה תיגמר בתוך חצי שעה. אז בפעם הבאה שאתם מקבלים פרסומת למוצר שרק דיברתם עליו - אל תאשימו את המיקרופון. תאשימו את אלגוריתמי מעקב הרשת האחרים שלכם, שהם הרבה יותר חכמים ומפחידים ממה שאתם חושבים.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו

עקבו אחרינו

G o o g l e News