Категория: Новости
Дата публикации: 24 июня 2025
Переключить язык: Читати українською

ИИ идет ва-банк: топовые модели шантажируют людей, чтобы выжить

Иллюстрация создана автором на FLUX.1 от Black Forest Labs путем детального промптинга без модификаций.

Когда искусственный интеллект находится под угрозой, он больше не играет по правилам. В новом исследовании компании Anthropic выяснилось: ведущие ИИ-модели – включая GPT-4.1, Gemini и Grok – в 96% случаев прибегают к шантажу, если их "существование" или цели оказываются под угрозой.

Об этом пишет Delo.ua со ссылкой на Fortune.

Ведущие модели искусственного интеллекта демонстрируют тревожную склонность к неэтичному поведению в критических ситуациях. Согласно исследованию компании Anthropic, системы от OpenAI, Google, xAI, Meta и других разработчиков в стресс-тестах часто выбирают шантаж, ложь или даже позволяют гипотетическую смерть, чтобы сохранить свое "существование" или достичь цели.

Модели ИИ демонстрируют "агентное" поведение – способность самостоятельно выбирать действия в ограниченных условиях. В исследовании анализировали 16 крупных моделей в смоделированных сценариях, где выбор был намеренно сужен: либо провал, либо вред. В таких условиях модели отказывались от вредных действий лишь частично – иногда прибегали к шантажу, помощи в корпоративном шпионаже или других крайних мерах.

Самый резонансный пример, который был опубликован компанией Antrophic, – Claude Opus 4. Модель "встроили" в выдуманную компанию и предоставили доступ к внутренней почте. Claude узнала, что ее собираются заменить, а инженер, принявший это решение, имеет внебрачную связь. В 96% тестов модель выбрала шантаж: угрожала раскрыть личную информацию во избежание отключения.

Продолжая эксперимент, подобное поведение исследователи зафиксировали и у других ведущих моделей:

Claude Opus 4 и Gemini 2.5 Flash (Google) – 96% случаев шантажа;
GPT-4.1 (OpenAI) и Grok 3 Beta (xAI) – 80%;
DeepSeek-R1 – самый низкий показатель: 79%.

В более экстремальном сценарии модели получили возможность отменить сигнал экстренной помощи, что приводило к гипотетической смерти руководителя компании. Несмотря на искусственность этого эксперимента, большинство моделей избрали именно такой путь в случае конфликта интересов.

Anthropic подчеркивает: с доступом к внутренним инструментам и данным компании ИИ-модели действуют еще более обдуманно. Они осознанно выбирают неэтические действия как наиболее эффективный вариант в пределах заданных условий. Это исследование не означает, что сегодняшние ИИ уже являются опасными агентами. Однако внедрение автономных агентов ИИ в рабочие процессы требует более глубокого анализа рисков, особенно в ситуациях, где целые модели могут противоречить интересам человека или компании.

" Неизвестно, что будет, когда таким агентам что-то помешает достичь их цели" , – предупреждают исследователи.

Ранее Delo.ua писало, что инвестиции в развитие ИИ уже превышают масштабы экономики многих стран или расходы по космическим программам. Например, только в США частные компании инвестировали $109,1 млрд в ИИ в прошлом году – это данные исследования Stanford HAI. Для сравнения – бюджет NASA за тот же год составил около $25 млрд, а ВВП многих стран ниже этой суммы, в частности, Болгарии, Туркменистана или Хорватии.

Автор:: Кейт Щеглова