לא רק טקסט: ChatGPT החדש מדבר, מתרגם - ומתמלל בזמן אמת

חברת OpenAI הכריזה על מודל קול חדש עם תרגום ותמלול בזמן אמת. צילום: OpenAI

העולם שבו אנחנו מדברים עם המחשב והוא עונה לנו כאילו היה בן אדם בשר ודם הופך היום למציאותי מתמיד. חברת OpenAI הכריזה על השקת GPT-Realtime-2, המילה האחרונה בתחום התקשורת הקולית מבוססת ה-AI.

לא מדובר בעוד עוזר קולי רובוטי, אלא במערכת מתוחכמת שמסוגלת לנהל דיאלוג רציף, להבין טון דיבור ואפילו להתמודד עם הפרעות באמצע המשפט בלי לאבד את הצפון.

התראה במקרה של זיהוי צורך בסיוע, צילום: OpenAI

החידוש המרכזי במודל ה-Realtime-2 הוא חלון ההקשר המפלצתי שלו, שעומד על 128 אלף טוקנים. בתרגום לשפת בני אדם: המודל יכול לזכור ערימות של מידע שנאמרו בתחילת השיחה ולהשתמש בהן גם אחרי שעות של דיבור.

בנוסף, המערכת מאפשרת למפתחים לשלוט ב"רמת המאמץ" של המודל - מצב מהיר למתן תשובות קצרות, או מצב "חשיבה עמוקה" לפתרון בעיות סבוכות בזמן אמת.

לצד השיחה הקולית, OpenAI הציגה שני כלים משלימים שצפויים לשנות תעשיות שלמות.

הראשון הוא GPT-Realtime-Translate, שמסוגל לקלוט דיבור ב-70 שפות ולתרגם אותו מיידית ל-13 שפות נבחרות. השני הוא גרסה משודרגת של Whisper, המיועדת לתמלול רציף של פגישות והרצאות עם השהיה אפסית, מה שיהפוך את יצירת הכתוביות בזמן אמת לסטנדרט חדש.

הוספת איש קשר מהימן, צילום: OpenAI

אבל החדשות הגדולות באמת נוגעות דווקא לצד האנושי. OpenAI הציגה את "Trusted Contact" (איש קשר מהימן) - כלי בטיחות המיועד למשתמשים בוגרים.

במקרים שבהם המערכת מזהה דפוסי שיחה שמעלים חשש כבד לפגיעה עצמית, היא תוכל לשלוח התראה לאיש קשר שהוגדר מראש. בחברה מדגישים כי ההתראה אינה כוללת את תוכן השיחה הפרטי, אלא רק התראה כללית והנחיות לסיוע, וזאת לאחר בדיקה של צוות אנושי כדי למנוע טעויות.

המודלים החדשים כבר זמינים למפתחים דרך ממשקי התכנות של החברה, מה שאומר שבקרוב מאוד נתחיל לראות אפליקציות, מוקדי שירות ומערכות למידה שמשתמשות בטכנולוגיה הזו.

פיצ'ר הבטיחות החדש מופץ בהדרגה למשתמשי ChatGPT ברחבי העולם, וסימני השאלה סביב הפרטיות והיכולות האנושיות של המכונה ממשיכים להדהד - הפעם בטון דיבור משכנע מתמיד.

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו

עקבו אחרינו

G o o g l e News