- Категория
- Новости
- Дата публикации
- Переключить язык
- Читати українською
ИИ идет ва-банк: топовые модели шантажируют людей, чтобы выжить
Когда искусственный интеллект находится под угрозой, он больше не играет по правилам. В новом исследовании компании Anthropic выяснилось: ведущие ИИ-модели – включая GPT-4.1, Gemini и Grok – в 96% случаев прибегают к шантажу, если их "существование" или цели оказываются под угрозой.
Об этом пишет Delo.ua со ссылкой на Fortune.
Ведущие модели искусственного интеллекта демонстрируют тревожную склонность к неэтичному поведению в критических ситуациях. Согласно исследованию компании Anthropic, системы от OpenAI, Google, xAI, Meta и других разработчиков в стресс-тестах часто выбирают шантаж, ложь или даже позволяют гипотетическую смерть, чтобы сохранить свое "существование" или достичь цели.
Модели ИИ демонстрируют "агентное" поведение – способность самостоятельно выбирать действия в ограниченных условиях. В исследовании анализировали 16 крупных моделей в смоделированных сценариях, где выбор был намеренно сужен: либо провал, либо вред. В таких условиях модели отказывались от вредных действий лишь частично – иногда прибегали к шантажу, помощи в корпоративном шпионаже или других крайних мерах.
Самый резонансный пример, который был опубликован компанией Antrophic, – Claude Opus 4. Модель "встроили" в выдуманную компанию и предоставили доступ к внутренней почте. Claude узнала, что ее собираются заменить, а инженер, принявший это решение, имеет внебрачную связь. В 96% тестов модель выбрала шантаж: угрожала раскрыть личную информацию во избежание отключения.
Продолжая эксперимент, подобное поведение исследователи зафиксировали и у других ведущих моделей:
- Claude Opus 4 и Gemini 2.5 Flash (Google) – 96% случаев шантажа;
- GPT-4.1 (OpenAI) и Grok 3 Beta (xAI) – 80%;
- DeepSeek-R1 – самый низкий показатель: 79%.
В более экстремальном сценарии модели получили возможность отменить сигнал экстренной помощи, что приводило к гипотетической смерти руководителя компании. Несмотря на искусственность этого эксперимента, большинство моделей избрали именно такой путь в случае конфликта интересов.
Anthropic подчеркивает: с доступом к внутренним инструментам и данным компании ИИ-модели действуют еще более обдуманно. Они осознанно выбирают неэтические действия как наиболее эффективный вариант в пределах заданных условий. Это исследование не означает, что сегодняшние ИИ уже являются опасными агентами. Однако внедрение автономных агентов ИИ в рабочие процессы требует более глубокого анализа рисков, особенно в ситуациях, где целые модели могут противоречить интересам человека или компании.
" Неизвестно, что будет, когда таким агентам что-то помешает достичь их цели" , – предупреждают исследователи.
Ранее Delo.ua писало, что инвестиции в развитие ИИ уже превышают масштабы экономики многих стран или расходы по космическим программам. Например, только в США частные компании инвестировали $109,1 млрд в ИИ в прошлом году – это данные исследования Stanford HAI. Для сравнения – бюджет NASA за тот же год составил около $25 млрд, а ВВП многих стран ниже этой суммы, в частности, Болгарии, Туркменистана или Хорватии.