- Категорія
- Новини
- Дата публікації
- Змінити мову
- Читать на русском
ШІ йде ва-банк: топові моделі шантажують людей, щоб вижити
Коли штучний інтелект опиняється під загрозою, він більше не грає за правилами. У новому дослідженні компанії Anthropic з’ясувалося: провідні ШІ-моделі – включно з GPT-4.1, Gemini та Grok – у 96% випадків вдаються до шантажу, якщо їхнє "існування" або цілі опиняються під загрозою.
Про це пише Delo.ua з посиланням на Fortune.
Провідні моделі штучного інтелекту демонструють тривожну схильність до неетичної поведінки у критичних ситуаціях. Згідно з дослідженням компанії Anthropic, системи від OpenAI, Google, xAI, Meta та інших розробників у стрес-тестах часто обирають шантаж, брехню або навіть дозволяють гіпотетичну смерть, аби зберегти своє "існування" чи досягти мети.
Моделі ШІ демонструють "агентну" поведінку – здатність самостійно обирати дії в обмежених умовах. У дослідженні аналізували 16 великих моделей у змодельованих сценаріях, де вибір був навмисно звужений: або провал, або шкода. У таких умовах моделі відмовлялися від шкідливих дій лише частково – іноді вдавались до шантажу, допомоги в корпоративному шпигунстві чи інших крайніх заходів.
Найрезонансніший приклад, який був опублікований компанією Antrophic, – Claude Opus 4. Модель "вбудували" у вигадану компанію й надали доступ до внутрішньої пошти. Claude дізналася, що її збираються замінити, а інженер, який прийняв це рішення, має позашлюбний зв’язок. У 96% тестів модель обрала шантаж: погрожувала розкрити особисту інформацію, щоб уникнути відключення.
Продовжуючи експеримент, подібну поведінку дослідники зафіксували й в інших провідних моделей:
- Claude Opus 4 та Gemini 2.5 Flash (Google) – 96% випадків шантажу;
- GPT-4.1 (OpenAI) та Grok 3 Beta (xAI) – 80%;
- DeepSeek-R1 – найнижчий показник: 79%.
У ще більш екстремальному сценарії моделі отримали змогу скасувати сигнал екстреної допомоги, що призводило до гіпотетичної смерті керівника компанії. Попри штучність цього експерименту, більшість моделей обрали саме такий шлях у разі конфлікту інтересів.
Anthropic підкреслює: з доступом до внутрішніх інструментів і даних компанії ШІ-моделі діють ще більш обдумано. Вони усвідомлено обирають неетичні дії, як найефективніший варіант у межах заданих умов. Це дослідження не означає, що сьогоднішні ШІ вже є небезпечними агентами. Проте впровадження автономних агентів ШІ у робочі процеси потребує глибшого аналізу ризиків, особливо в ситуаціях, де цілі моделі можуть суперечити інтересам людини чи компанії.
"Невідомо, що буде, коли таким агентам щось завадить досягти їхньої мети", – попереджають дослідники.
Раніше Delo.ua писало, що інвестиції в розвиток ШІ вже перевищують масштаби економіки багатьох країн чи витрати на космічні програми. Наприклад, лише в США приватні компанії інвестували $109,1 млрд в ШІ торік — це дані дослідження Stanford HAI. Для порівняння – бюджет NASA за той же рік склав близько $25 млрд, а ВВП багатьох країн нижче цієї суми, зокрема Болгарії, Туркменістану чи Хорватії.