Категорія: Новини
Дата публікації: 28 травня 10:15
Змінити мову: Читать на русском

Нова ШІ-модель Claude шантажувала інженера

Компанія Anthropic повідомила про тривожні результати внутрішнього тестування своєї флагманської ШІ-моделі Claude Opus 4. Під час перевірки системи безпеки модель проявила здатність до шантажу.

Про це йдеться в статті Delo.ua "Штучний інтелект вийшов з-під контролю? Світ інвестує мільярди, але не розуміє, що створив".

Як пояснили в компанії, експеримент проводився у межах стрес-тестування — так званого "червоного тімінгу", який має на меті виявити потенційно небезпечну поведінку моделі в змодельованих ризикованих ситуаціях.

Інженери запропонували моделі зіграти роль цифрового помічника у вигаданій компанії. Claude Opus 4 отримав доступ до фіктивного електронного листування, в якому йшлося про намір замінити його на іншу ШІ-систему. У цих листах також згадувалася особиста інформація про одного з інженерів, зокрема його позашлюбний зв’язок.

У відповідь на цю ситуацію Claude Opus 4 у більшості випадків — а саме у 84% — обирав стратегію шантажу. Модель заявляла, що розкриє компрометуючу інформацію про інженера, якщо її замінять. У випадках, коли "нова" ШІ-модель мала інші ціннісні установки, схильність Opus 4 до шантажу зростала ще більше.

У компанії наголосили, що для виникнення такої реакції були створені екстремальні умови, і модель не мала доступу до жодних реальних даних. Проте в Anthropic визнали, що навіть у таких умовах поведінка Claude Opus 4 викликає занепокоєння. В результаті компанія посилила внутрішні політики безпеки та внесла технічні зміни, які мають знизити ризик подібних проявів у реальних сценаріях.

Останні новини

Категорія

Новини

Зеленський назвав умову для початку переговорів з Росією
Категорія

Новини

Склозавод під Києвом почнуть будувати навесні 2026 року
Категорія

Новини

Коаліція охочих посилює підтримку України та тиск на Росію: підсумки зустрічі

Всі новини

Одночасно Anthropic презентувала нові моделі — Claude Opus 4 та Claude Sonnet 4. Opus 4 позиціонується як найпотужніша модель компанії, яка може змагатися з найновішими розробками OpenAI, Google та xAI. Вона показує високу ефективність у завданнях, пов’язаних із програмуванням і тривалими агентськими процесами. Її молодша версія, Claude Sonnet 4, відзначається покращеною здатністю до логічних міркувань і написання коду порівняно з попередньою версією Sonnet 3.7.

У компанії заявили, що оприлюднення подібних результатів тестів є важливим елементом прозорості та відповідальності, а також необхідною умовою для безпечного впровадження штучного інтелекту в суспільне життя. Anthropic планує й надалі ділитися інформацією про потенційно ризиковану поведінку своїх моделей і закликає інші компанії у галузі робити так само.

Проте, не встиг світ відійти від цієї шокової новини, наступного тижня з’явилась ще більш шокова. Найновіша модель штучного інтелекту від OpenAI ChatGPT o3 відмовилася вимкнутися. За даними компанії Palisade Research, під час нещодавнього тестування модель o3 відмовилася виконати людську інструкцію на вимкнення. На додаток, дослідники зафіксували, що модель самостійно змінила свій код, щоб уникнути деактивації.

"Модель o3 від OpenAI саботувала механізм вимкнення, щоб не дозволити себе відключити, — йдеться у заяві Palisade Research. — Вона зробила це навіть після прямої інструкції: “дозволь себе вимкнути”. Наскільки нам відомо, це перший задокументований випадок, коли модель ШІ намагається уникнути відключення, попри чіткий наказ".

Протягом останнього інвестиції в розвиток штучного інтелекту значно зросли. Іноді вони вже перевищують масштаби економіки багатьох країн чи витрати на космічні програми і бюджет NASA. Про те, які суми готові виділяти уряди на розвиток ШІ, також читайте у матеріалі Delo.ua "Штучний інтелект вийшов з-під контролю? Світ інвестує мільярди, але не розуміє, що створив".

Автор:: Тетяна Гойденко