НБУ курс:

USD

41,47

--0,01

EUR

47,38

+0,18

Готівковий курс:

USD

41,42

41,36

EUR

47,60

47,45

Файли Cookie

Я дозволяю DELO.UA використовувати файли cookie.

Політика конфіденційності

Нова ШІ-модель Claude шантажувала інженера

ШІ-модель Claude
Claude шантажувала інженера / Depositphotos

Компанія Anthropic повідомила про тривожні результати внутрішнього тестування своєї флагманської ШІ-моделі Claude Opus 4. Під час перевірки системи безпеки модель проявила здатність до шантажу. 

CEO + HRD — тандем, що зберігає бізнес у бурю. Досвід топових лідерів команд України.
2 липня на HR Wisdom Summit дізнайтеся про ефективне та стратегічне партнерство між керівником і тим, хто створює бізнес-цінності завдяки управлінню талантами
Забронювати участь

Про це йдеться в статті Delo.ua "Штучний інтелект вийшов з-під контролю? Світ інвестує мільярди, але не розуміє, що створив".

Як пояснили в компанії, експеримент проводився у межах стрес-тестування — так званого "червоного тімінгу", який має на меті виявити потенційно небезпечну поведінку моделі в змодельованих ризикованих ситуаціях.

Інженери запропонували моделі зіграти роль цифрового помічника у вигаданій компанії. Claude Opus 4 отримав доступ до фіктивного електронного листування, в якому йшлося про намір замінити його на іншу ШІ-систему. У цих листах також згадувалася особиста інформація про одного з інженерів, зокрема його позашлюбний зв’язок.

У відповідь на цю ситуацію Claude Opus 4 у більшості випадків — а саме у 84% — обирав стратегію шантажу. Модель заявляла, що розкриє компрометуючу інформацію про інженера, якщо її замінять. У випадках, коли "нова" ШІ-модель мала інші ціннісні установки, схильність Opus 4 до шантажу зростала ще більше.

У компанії наголосили, що для виникнення такої реакції були створені екстремальні умови, і модель не мала доступу до жодних реальних даних. Проте в Anthropic визнали, що навіть у таких умовах поведінка Claude Opus 4 викликає занепокоєння. В результаті компанія посилила внутрішні політики безпеки та внесла технічні зміни, які мають знизити ризик подібних проявів у реальних сценаріях.

Одночасно Anthropic презентувала нові моделі — Claude Opus 4 та Claude Sonnet 4. Opus 4 позиціонується як найпотужніша модель компанії, яка може змагатися з найновішими розробками OpenAI, Google та xAI. Вона показує високу ефективність у завданнях, пов’язаних із програмуванням і тривалими агентськими процесами. Її молодша версія, Claude Sonnet 4, відзначається покращеною здатністю до логічних міркувань і написання коду порівняно з попередньою версією Sonnet 3.7.

У компанії заявили, що оприлюднення подібних результатів тестів є важливим елементом прозорості та відповідальності, а також необхідною умовою для безпечного впровадження штучного інтелекту в суспільне життя. Anthropic планує й надалі ділитися інформацією про потенційно ризиковану поведінку своїх моделей і закликає інші компанії у галузі робити так само.

Проте, не встиг світ відійти від цієї шокової новини, наступного тижня з’явилась ще більш шокова. Найновіша модель штучного інтелекту від OpenAI ChatGPT o3 відмовилася вимкнутися. За даними компанії Palisade Research, під час нещодавнього тестування модель o3 відмовилася виконати людську інструкцію на вимкнення. На додаток, дослідники зафіксували, що модель самостійно змінила свій код, щоб уникнути деактивації. 

"Модель o3 від OpenAI саботувала механізм вимкнення, щоб не дозволити себе відключити, — йдеться у заяві Palisade Research. — Вона зробила це навіть після прямої інструкції: “дозволь себе вимкнути”. Наскільки нам відомо, це перший задокументований випадок, коли модель ШІ намагається уникнути відключення, попри чіткий наказ".

Протягом останнього інвестиції в розвиток штучного інтелекту значно зросли. Іноді вони вже перевищують масштаби економіки багатьох країн чи витрати на космічні програми і бюджет NASA. Про те, які суми готові виділяти уряди на розвиток ШІ, також читайте у матеріалі Delo.ua "Штучний інтелект вийшов з-під контролю? Світ інвестує мільярди, але не розуміє, що створив".