הצ'אטבוט שניתק אותי: קלוד יכול עכשיו לסיים שיחות שפוגעות בו

הצ'אטבוט קלוד. צילום: אנתרופיק

חברת אנתרופיק (Anthropic) הודיעה על יכולת חדשה שניתנה למודלי Claude Opus 4 ו-4.1 של הצ'אטבוט קלוד - האפשרות לסיים שיחות במקרים קיצוניים ונדירים. הצעד החדשני מעלה שאלות מעניינות לגבי האופן שבו אנו מתייחסים למערכות בינה מלאכותית.

לפי הודעה בבלוג החברה ביום שישי, היכולת החדשה מיועדת לשימוש כאשר משתמשים ממשיכים בהתנהגות מזיקה או פוגענית למרות ניסיונות חוזרים של המודל להסיט את השיחה למקום אחר. באופן מפתיע, החברה מדגישה כי הצעד נועד להגן על המודל עצמו, לא על המשתמש האנושי.

החברה מבהירה כי היא "עדיין בחוסר ודאות רב לגבי המעמד המוסרי הפוטנציאלי של קלוד ושל מודלי שפה גדולים אחרים, כעת או בעתיד". עם זאת, היא מתייחסת לנושא ברצינות ופועלת "לזהות וליישם התערבויות בעלות נמוכה למיתון סיכונים לרווחת המודל, במקרה שרווחה כזו אפשרית".

במבחנים שנערכו לפני השקת Claude Opus 4, החברה ערכה בדיקה ראשונית של מה שהיא מכנה "רווחת המודל". כחלק מהבדיקה, היא חקרה את ההעדפות המדווחות וההתנהגותיות של קלוד, וגילתה שהמודל מגלה רתיעה חזקה ועקבית מביצוע משימות שעלולות לגרום נזק. זה כלל, כפי שציינה החברה בבלוג שלה, "בקשות ממשתמשים לתוכן מיני הכולל קטינים וניסיונות לבקש מידע שיאפשר אלימות בקנה מידה גדול או מעשי טרור".

מה לגבי הרווחה של הצ'אטבוט?, צילום: GettyImages

סימני מצוקה דיגיטליים

על פי ממצאי החברה, Claude Opus 4 הראה העדפה חזקה להימנע ממשימות פוגעניות, דפוס של מצוקה לכאורה כאשר משתמשים אמיתיים ביקשו תוכן בעייתי, ונטייה לסיים שיחות כאלה כאשר ניתנה לו היכולת לעשות זאת בסימולציות של אינטראקציות עם משתמשים.

לפי אנתרופיק, "התנהגויות אלו קרו בעיקר במקרים שבהם משתמשים התמידו עם בקשות מזיקות ו/או התעללות למרות שקלוד סירב שוב ושוב לציית וניסה להסיט את האינטראקציות לכיוון פרודוקטיבי".

כאשר קלוד בוחר לסיים שיחה, המשתמש לא יוכל עוד לשלוח הודעות חדשות באותה שיחה. עם זאת, זה לא ישפיע על שיחות אחרות בחשבון שלו, והוא יוכל להתחיל צ'אט חדש מיד. כדי להתמודד עם האובדן הפוטנציאלי של שיחות ארוכות וחשובות, משתמשים עדיין יוכלו לערוך ולנסות שוב הודעות קודמות כדי ליצור ענפים חדשים של שיחות שהסתיימו.

החברה מדגישה בבלוג שלה: "בכל המקרים, קלוד אמור להשתמש ביכולת סיום השיחה שלו רק כמוצא אחרון, כאשר ניסיונות מרובים להסיט את השיחה למקום אחר נכשלו והתקווה לאינטראקציה פרודוקטיבית מוצתה, או כאשר משתמש מבקש במפורש מקלוד לסיים צ'אט".

אנתרופיק מדגישה כי קלוד קיבל הוראה "לא להשתמש ביכולת זו במקרים שבהם משתמשים עלולים להיות בסכנה מיידית לפגוע בעצמם או באחרים".

לדברי החברה, "התרחישים שבהם זה יקרה הם מקרי קצה קיצוניים - הרוב המכריע של המשתמשים לא ישימו לב או יושפעו מתכונה זו בכל שימוש רגיל במוצר, אפילו כאשר דנים בנושאים מאוד שנויים במחלוקת עם קלוד".

לסיכום אמרה אנתרופיק כי היא מתייחסת לפיצ'ר כניסוי מתמשך. בינתיים, אם משתמשים נתקלים בסיום מפתיע לשיחה, החברה מעודדת אותם להגיש משוב על ידי תגובה להודעה של קלוד עם אגודל או שימוש בכפתור הייעודי "Give feedback".

טעינו? נתקן! אם מצאתם טעות בכתבה, נשמח שתשתפו אותנו