Коротко
Компанія Anthropic впровадила нову функцію для моделей Claude Opus 4 та 4.1, яка дозволяє їм припиняти розмови у випадках постійних шкідливих або образливих взаємодій з користувачами. Це рішення має на меті зменшити ризики, пов'язані з потенційно небезпечними запитами та сприяти дослідженню благополуччя штучного інтелекту. Користувачі зможуть розпочинати нові розмови після припинення попередньої.
Нова функція Anthropic для двох своїх моделей штучного інтелекту Claude може стати початком кінця для спільноти, яка займається джейлбрейком штучного інтелекту. Компанія оголосила в повідомленні на своєму веб-сайті, що моделі Claude Opus 4 і 4.1 тепер мають можливість припиняти розмову з користувачами. За словами Anthropic, ця функція буде використовуватися тільки в «рідкісних, крайніх випадках постійно шкідливих або образливих взаємодій з користувачами».
Для уточнення, Anthropic зазначила, що ці дві моделі Claude можуть виходити зі шкідливих розмов, таких як «запити користувачів щодо сексуального контенту, що стосується неповнолітніх, та спроби отримати інформацію, яка б уможливила масштабне насильство або терористичні акти». З Claude Opus 4 і 4.1 ці моделі будуть припиняти розмову «лише в крайньому випадку, коли кілька спроб перенаправити розмову не дали результату і надія на продуктивну взаємодію вичерпалася», за словами Anthropic. Однак Anthropic стверджує, що більшість користувачів не відчують, як Claude перериває розмову, навіть коли мова йде про дуже суперечливі теми, оскільки ця функція буде зарезервована для «екстремальних випадків».
У випадках, коли Claude завершує чат, користувачі більше не можуть надсилати нові повідомлення в цій розмові, але можуть одразу розпочати нову. Anthropic додала, що завершення розмови не вплине на інші чати, а користувачі можуть навіть повернутися назад і редагувати або повторно надсилати попередні повідомлення, щоб змінити напрямок розмови.
Для Anthropic цей крок є частиною дослідницької програми, яка вивчає ідею благополуччя штучного інтелекту. Хоча ідея антропоморфізації моделей штучного інтелекту залишається предметом дискусій, компанія заявила, що можливість вийти з «потенційно неприємної взаємодії» є недорогим способом управління ризиками для благополуччя штучного інтелекту. Anthropic все ще експериментує з цією функцією і закликає своїх користувачів надавати відгуки, коли вони стикаються з таким сценарієм.