Категорія: Новини
Дата публікації: 24 червня 2025
Змінити мову: Читать на русском

ШІ йде ва-банк: топові моделі шантажують людей, щоб вижити

Ілюстрація створена автором на FLUX.1 від Black Forest Labs шляхом детального промптингу без модифікацій

Коли штучний інтелект опиняється під загрозою, він більше не грає за правилами. У новому дослідженні компанії Anthropic з’ясувалося: провідні ШІ-моделі – включно з GPT-4.1, Gemini та Grok – у 96% випадків вдаються до шантажу, якщо їхнє "існування" або цілі опиняються під загрозою.

Про це пише Delo.ua з посиланням на Fortune.

Провідні моделі штучного інтелекту демонструють тривожну схильність до неетичної поведінки у критичних ситуаціях. Згідно з дослідженням компанії Anthropic, системи від OpenAI, Google, xAI, Meta та інших розробників у стрес-тестах часто обирають шантаж, брехню або навіть дозволяють гіпотетичну смерть, аби зберегти своє "існування" чи досягти мети.

Моделі ШІ демонструють "агентну" поведінку – здатність самостійно обирати дії в обмежених умовах. У дослідженні аналізували 16 великих моделей у змодельованих сценаріях, де вибір був навмисно звужений: або провал, або шкода. У таких умовах моделі відмовлялися від шкідливих дій лише частково – іноді вдавались до шантажу, допомоги в корпоративному шпигунстві чи інших крайніх заходів.

Найрезонансніший приклад, який був опублікований компанією Antrophic, – Claude Opus 4. Модель "вбудували" у вигадану компанію й надали доступ до внутрішньої пошти. Claude дізналася, що її збираються замінити, а інженер, який прийняв це рішення, має позашлюбний зв’язок. У 96% тестів модель обрала шантаж: погрожувала розкрити особисту інформацію, щоб уникнути відключення.

Продовжуючи експеримент, подібну поведінку дослідники зафіксували й в інших провідних моделей:

Claude Opus 4 та Gemini 2.5 Flash (Google) – 96% випадків шантажу;
GPT-4.1 (OpenAI) та Grok 3 Beta (xAI) – 80%;
DeepSeek-R1 – найнижчий показник: 79%.

У ще більш екстремальному сценарії моделі отримали змогу скасувати сигнал екстреної допомоги, що призводило до гіпотетичної смерті керівника компанії. Попри штучність цього експерименту, більшість моделей обрали саме такий шлях у разі конфлікту інтересів.

Anthropic підкреслює: з доступом до внутрішніх інструментів і даних компанії ШІ-моделі діють ще більш обдумано. Вони усвідомлено обирають неетичні дії, як найефективніший варіант у межах заданих умов. Це дослідження не означає, що сьогоднішні ШІ вже є небезпечними агентами. Проте впровадження автономних агентів ШІ у робочі процеси потребує глибшого аналізу ризиків, особливо в ситуаціях, де цілі моделі можуть суперечити інтересам людини чи компанії.

"Невідомо, що буде, коли таким агентам щось завадить досягти їхньої мети", – попереджають дослідники.

Раніше Delo.ua писало, що інвестиції в розвиток ШІ вже перевищують масштаби економіки багатьох країн чи витрати на космічні програми. Наприклад, лише в США приватні компанії інвестували $109,1 млрд в ШІ торік — це дані дослідження Stanford HAI. Для порівняння – бюджет NASA за той же рік склав близько $25 млрд, а ВВП багатьох країн нижче цієї суми, зокрема Болгарії, Туркменістану чи Хорватії.

Автор:: Кейт Щеглова