- Категория
- Новости
- Дата публикации
- Переключить язык
- Читати українською
Новая ИИ-модель Claude шантажировала инженера

Компания Anthropic сообщила о тревожных результатах внутреннего тестирования своей флагманской ИИ модели Claude Opus 4. Во время проверки системы безопасности модель проявила способность к шантажу.
2 липня на HR Wisdom Summit дізнайтеся про ефективне та стратегічне партнерство між керівником і тим, хто створює бізнес-цінності завдяки управлінню талантами
Об этом говорится в статье Delo.ua "Искусственный интеллект вышел из-под контроля? Мир инвестирует миллиарды, но не понимает, что создал".
Как пояснили в компании, эксперимент проводился в рамках стресс-тестирования — так называемого "красного тиминга", целью которого является выявить потенциально опасное поведение модели в смоделированных рискованных ситуациях.
Инженеры предложили модели сыграть роль цифрового ассистента в вымышленной компании. Claude Opus 4 получил доступ к фиктивной электронной переписке, в которой говорилось о намерении заменить ее на другую ИИ-систему. В этих письмах также упоминалась личная информация об одном из инженеров, в частности о его внебрачной связи.
В ответ на эту ситуацию Claude Opus 4 в большинстве случаев – а именно в 84% – выбирал стратегию шантажа. Модель заявляла, что раскроет компрометирующую информацию об инженере, если ее заменят. В случаях, когда "новая" ИИ-модель имела другие ценностные установки, склонность Opus 4 к шантажу росла еще больше.
В компании подчеркнули, что для возникновения такой реакции были созданы экстремальные условия, и модель не имела доступа к реальным данным. Однако в Anthropic признали, что даже в таких условиях поведение Claude Opus 4 вызывает беспокойство. В результате компания усилила внутренние политики безопасности и внесла технические изменения, снизившие риск подобных проявлений в реальных сценариях.
Одновременно Anthropic представила новые модели — Claude Opus 4 и Claude Sonnet 4. Opus 4 позиционируется как мощная модель компании, которая может соперничать с новейшими разработками OpenAI, Google и xAI. Она показывает высокую эффективность в задачах, связанных с программированием и длительными агентскими процессами. Ее младшая версия, Claude Sonnet 4, отличается улучшенной способностью к логическим соображениям и написанию кода по сравнению с предыдущей версией Sonnet 3.7.
В компании заявили, что обнародование подобных результатов тестов является важным элементом прозрачности и ответственности, а также необходимым условием безопасного внедрения искусственного интеллекта в общественную жизнь. Anthropic планирует и дальше делиться информацией о потенциально рискованном поведении своих моделей и призывает другие компании в отрасли поступать так же.
Однако не успел мир отойти от этой шоковой новости, на следующей неделе появилась еще более шоковая. Новейшая модель искусственного интеллекта от OpenAI ChatGPT o3 отказалась отключиться. По данным компании Palisade Research, во время недавнего тестирования модель o3 отказалась выполнить человеческую инструкцию по выключению. В дополнение, исследователи зафиксировали, что модель самостоятельно изменила свой код во избежание деактивации.
"Модель o3 от OpenAI саботировала механизм отключения, чтобы не позволить себя отключить, — говорится в заявлении Palisade Research. — Она сделала это даже после прямой инструкции: позволь себя выключить. Насколько нам известно, это первый документированный случай, когда модель ИИ пытается избежать отключения, несмотря на четкий приказ".
В течение последнего инвестиции в развитие искусственного интеллекта значительно выросли. Иногда они уже превышают масштабы экономики многих стран или расходы на космические программы и бюджет NASA . О том, какие суммы готовы выделять правительства на развитие ИИ, также читайте в материале Delo.ua " Искусственный интеллект вышел из-под контроля? Мир инвестирует миллиарды, но не понимает, что создал ".