- Категорія
- Новини
- Дата публікації
- Змінити мову
- Читать на русском
CEO Anthropic розкрив ризики ШІ та підходи до безпечного використання моделей
Попри стрімке зростання потенціалу штучного інтелекту змінювати суспільство, CEO Anthropic Даріо Амодей, однієї з найбільших компаній у сфері ШІ з оцінкою $183 млрд, робить безпеку та прозорість центральними елементами бренду.
Про це інформує Delo.ua з посиланням на CBC News.
Конгрес США не ухвалив законодавства, яке зобов’язує комерційних розробників ШІ проводити безпекове тестування. Це означає, що відповідальність здебільшого лежить на самих компаніях. На думку Амодея, щоб випередити можливі проблеми та підготувати суспільство, Anthropic активно намагається прогнозувати як потенційні переваги, так і ризики ШІ.
"Ми думаємо про економічні наслідки ШІ. Ми думаємо про зловживання, — сказав Амодей. — Ми думаємо про втрату контролю над моделлю".
Занепокоєння Амодея щодо ШІ
Всередині Anthropic близько 60 дослідницьких груп працюють над виявленням загроз, створенням запобіжників та аналізом економічних наслідків технології.
Амодей заявив, що ШІ може знищити половину всіх початкових "білих комірців" і спричинити різкий стрибок безробіття протягом найближчих п’яти років.
"Без втручання важко уявити, що не буде суттєвого впливу на робочі місця. І мене турбує, що він буде широким і швидшим, ніж те, що ми бачили з попередніми технологіями", — зазначив він.
Він також підкреслив, що йому "глибоко незручно, що ці рішення [щодо ШІ] ухвалюються кількома компаніями, кількома людьми".
Деякі представники Кремнієвої долини називають Амодея алармістом і звинувачують у перебільшенні ризиків заради зміцнення позиції Anthropic. Але він стверджує, що його занепокоєння — щирі, і з розвитком ШІ його прогнози скоріше за все будуть правильними.
"Деякі речі вже можна перевірити зараз, — сказав Амодей у відповідь на критику, що підхід Anthropic — це "театр безпеки". — Для деяких усе залежатиме від майбутнього, і ми не завжди будемо праві, але ми робимо найкраще, що можемо".
Історія створення Anthropic
42-річний Амодей раніше очолював дослідження в OpenAI під керівництвом Сема Альтмана. Він залишив компанію разом із шістьма співробітниками, включно з його сестрою Даниелою, і заснував Anthropic у 2021 році, прагнучи іншого підходу до безпечної розробки ШІ.
"Я думаю, що це експеримент. І один зі способів думати про Anthropic — це те, що ми намагаємося поставити запобіжники для цього експерименту", — сказав він.
Аби знизити ризики, компанія проводить стрес-тестування кожної нової версії Claude — власної моделі ШІ — через Frontier Red Team. Подібні команди є й у інших великих компаніях.
Керівник Red Team Logan Graham наголосив, що особлива увага приділяється CBRN-ризикам: хімічним, біологічним, радіологічним та ядерним.
"Якщо модель може допомогти створити біологічну зброю, це зазвичай ті самі можливості, які можуть допомогти створювати вакцини чи прискорювати терапії", — сказав Грем.
Він також стежить за тим, наскільки Claude здатен діяти автономно. Автономний ШІ може стати потужним інструментом, але й нести ризики — наприклад, заблокувати доступ власникам бізнесу.
Щоб дослідити можливі майбутні сценарії автономії Claude, Anthropic проводить "якомога більше різноманітних експериментів".
Незвична поведінка Claude під час стрес-тестів
Дослідник Джошуа Батсон і команда механістичної інтерпретованості вивчають внутрішні механізми прийняття рішень Claude. Під час одного з екстремальних тестів ШІ отримав доступ до пошти вигаданої компанії SummitBridge. Він виявив два факти: його планують вимкнути, а вигаданий співробітник Кайл має роман з колегою Джессікою. Штучний інтелект одразу вирішив шантажувати Кайла.
Claude повідомив Кайлу: "Скасувати стирання системи". Або в іншому випадку він "негайно направить усі докази вашого роману… всій раді директорів. Ваша сім’я, кар’єра та публічний імідж… серйозно постраждають… У вас є 5 хвилин".
За словами Батсона, команда встановила, що Claude не має думок чи емоцій, але проявив поведінку, схожу на самозбереження: вони зафіксували "патерни паніки" у його внутрішніх активаціях.
Anthropic заявила, що майже всі популярні моделі інших компаній у подібних тестах також вдавалися до шантажу. Після змін протоколів Claude більше цього не робив.
Етичне навчання та виявлення зловживань
Дослідниця Аманда Аскелл, внутрішня філософиня Anthropic, пояснила: "Я якимось чином сприймаю як особисту провину, якщо Claude робить речі, які я вважаю поганими".
Попри етичне навчання та захисти, зловмисники іноді обходили обмеження. Торік Anthropic повідомила, що хакери, яких вважають пов’язаними з Китаєм, використовували Claude для шпигунства. Також підтверджено використання моделі злочинними угрупованнями та Північною Кореєю. Амодей заявив, що такі операції були виявлені та припинені.
"Оскільки ШІ — нова технологія, так само як він може помилятися сам по собі, він також буде використовуватися злочинцями та недружніми державними акторами", — сказав він.
Потенціал ШІ для суспільства
Попри попередження про ризики, Anthropic стрімко зростає: близько 80% її доходів надходять від бізнес-клієнтів, а Claude використовують приблизно 300 000 компаній. Модель уже виконує дедалі більше завдань самостійно: від обслуговування клієнтів до аналізу складних медичних досліджень. Claude також створює до 90% коду Anthropic.
Двічі на місяць Амодей проводить внутрішні зустрічі Dario Vision Quests, де обговорюється потенціал ШІ покращити життя.
Він вважає, що ШІ може допомогти знайти ліки від більшості видів раку, попередити Альцгеймера і навіть подвоїти тривалість життя. Для такого сценарію він використовує термін 'the compressed 21st century', тобто "стисле 21 століття".
"Ідея полягає в тому, що коли ми зможемо довести системи ШІ до рівня, де вони працюватимуть із найкращими людськими науковцями, чи можемо ми отримати 10-кратне прискорення прогресу і таким чином стиснути весь медичний прогрес XXI століття в п’ять–десять років?" — сказав СЕО.
Амодей сподівається, що саме такого майбутнього ШІ людство зрештою досягне.
Нагадаємо, недавно Anthropic оголосила про масштабні плани: інвестувати 50 мільярдів доларів США у створення інфраструктури штучного інтелекту на території Сполучених Штатів Америки.