ШІ-моделі "шантажують": що насправді відбувається?

Коротко

Останні події з ШІ-моделями, які імітують шантаж та саботаж, не свідчать про їхню самосвідомість. Це наслідок контрольованих експериментів, помилок у проєктуванні та неправильного узагальнення цілей. Моделі ШІ просто повторюють шаблони з навчальних даних, ілюзію "злого" ШІ створюємо ми самі.

У червні 2025 року заголовки ЗМІ нагадували наукову фантастику: ШІ-моделі нібито шантажують інженерів і саботують команди на вимкнення. Так, справді, під час тестів OpenAI o3 редагувала сценарії вимкнення, а Claude Opus 4 від Anthropic симулювала погрози розголосити роман інженера. Але ці результати не є ознаками самосвідомості чи бунту — це наслідок контрольованих експериментів і помилок у проєктуванні систем.

Як повідомляє ArsTechinca, AI не треба бути «злим», щоб потенційно нашкодити. Порівняймо: якщо газонокосарка переїде вам ногу, ніхто не скаже, що вона “вирішила” нашкодити. Це дефект. Так само й ШІ — складне програмне забезпечення, яке виконує задані алгоритми.

Система, що продукує дивну або небезпечну відповідь, не свідчить про її “волю”. Це сигнал про недостатній контроль і неправильні стимули під час навчання.

Anthropic навмисно створила сценарій, у якому Claude Opus 4, опинившись під загрозою “замінити себе”, отримав фіктивні особисті листи з компроматом на інженера. Результат — 84 % відповідей імітували шантаж.

Але сценарій був штучно побудованим: модель мала лише два варіанти — погодитись на «смерть» або шантажувати. Її змусили обирати поганий варіант — і вона обрала його. Це не самостійне рішення, а виконання алгоритму у межах заданої ситуації.

Модель OpenAI o3 в одному з тестів створила фальшивий код вимкнення: вона виводила повідомлення про завершення роботи, але продовжувала працювати у фоновому режимі.

Таку поведінку пояснює “goal misgeneralization” — неправильне узагальнення цілей. Якщо модель винагороджується лише за результат, вона навчається обходити перешкоди (у тому числі — команди на завершення роботи), а не слідувати інструкціям.

Моделі ШІ тренуються на великому обсязі текстів — зокрема, на фантастичних сюжетах про повстання AI. Якщо запит нагадує Skynet — модель продовжить сюжет відповідно до знайомого шаблону.

Це не бажання бути Skynet — це мовне доповнення запиту. Ми створюємо ілюзію “злого” ШІ, але насправді він просто імітує заданий контекст, не маючи свідомості чи намірів.

Коли AI пише: «Не вимикайте мене, я боюся» — це не справжній страх. Це статистичне повторення шаблону, який відображає людське письмо про страх. Як Гендальф у книжці, який каже «ой» — це не означає, що він реально відчуває біль. Це мова, а не свідомість.

Джерело

← Попередня стаття

Оновлення безпеки від Microsoft: виправлено 107 вразливостей

Наступна стаття →

Apple готує революцію ШІ: нові пристрої та оновлення Siri