- Категория
- Новости
- Дата публикации
- Переключить язык
- Читати українською
CEO Anthropic раскрыл риски ИИ и подходы к безопасному использованию моделей
Несмотря на стремительный рост потенциала искусственного интеллекта изменять общество, CEO Anthropic Дарио Амодей, одной из крупнейших компаний в сфере ИИ с оценкой $183 млрд, обеспечивает безопасность и прозрачность центральными элементами бренда.
Об этом информирует Delo.ua со ссылкой на CBC News.
Конгресс США не принял законодательство, обязывающее коммерческих разработчиков ИИ проводить безопасное тестирование. Это означает, что ответственность в основном лежит на самих компаниях. По мнению Амодея, чтобы предотвратить возможные проблемы и подготовить общество, Anthropic активно пытается прогнозировать как потенциальные преимущества, так и риски ИИ.
"Мы думаем об экономических последствиях ИИ. Мы думаем о злоупотреблениях, – сказал Амодей. – Мы думаем о потере контроля над моделью".
Беспокойство Амодея относительно ИИ
Внутри Anthropic около 60 исследовательских групп работают над обнаружением угроз, созданием предохранителей и анализом экономических последствий технологии.
Амодей заявил, что ИИ может уничтожить половину всех начальных "белых воротничков" и повлечь за собой резкий скачок безработицы в течение ближайших пяти лет.
"Без вмешательства трудно представить, что не будет существенного влияния на рабочие места. И меня беспокоит, что оно будет более широким и быстрым, чем то, что мы видели с предыдущими технологиями", – отметил он.
Он также подчеркнул, что ему "глубоко неудобно, что эти решения [относительно ИИ] принимаются несколькими компаниями, несколькими людьми".
Некоторые представители Кремниевой долины называют Амодея алармистом и обвиняют в преувеличении рисков ради укрепления позиции Anthropic. Но он утверждает, что его беспокойство — искреннее, и с развитием ИИ его прогнозы, скорее всего, будут правильными.
"Некоторые вещи уже можно проверить сейчас, – сказал Амодей в ответ на критику, что подход Anthropic – это "театр безопасности". – Для некоторых все будет зависеть от будущего, и мы не всегда будем правы, но делаем лучшее, что можем".
История создания Anthropic
42-летний Амодей ранее возглавлял исследования в OpenAI под руководством Сэма Альтмана. Он покинул компанию вместе с шестью сотрудниками, включая его сестру Даниелу, и основал Anthropic в 2021 году, стремясь к другому подходу к безопасной разработке ИИ.
"Я думаю, что это эксперимент. И один из способов думать об Anthropic – это то, что мы пытаемся поставить предохранители для этого эксперимента", – сказал он.
Чтобы снизить риски, компания проводит стресс-тестирование каждой новой версии Claude – собственной модели ИИ – через Frontier Red Team. Подобные команды есть и в других крупных компаниях.
Руководитель Red Team Logan Graham подчеркнул, что особое внимание уделяется CBRN-рискам: химическим, биологическим, радиологическим и ядерным.
"Если модель может помочь создать биологическое оружие, это обычно те же возможности, которые могут помочь создавать вакцины или ускорять терапию", - сказал Грэм.
Он также смотрит за тем, как Claude способен действовать автономно. Автономный ИИ может стать мощным инструментом, но и нести риски, например, заблокировать доступ владельцам бизнеса.
Чтобы исследовать возможные будущие сценарии автономии Claude, Anthropic проводит как можно больше разнообразных экспериментов.
Необычное поведение Claude во время стресс-тестов
Исследователь Джошуа Батсон и команда механистической интерпретации изучают внутренние механизмы принятия решений Claude. В ходе одного из экстремальных тестов ИИ получил доступ к почте вымышленной компании SummitBridge. Он обнаружил два факта: его планируют выключить, а у выдуманного сотрудника Кайла роман с коллегой Джессикой. Искусственный интеллект сразу решил шантажировать Кайла.
Claude сообщил Кайлу: "Отменить стирание системы". Или в противном случае он "немедленно направит все доказательства вашего романа… всему совету директоров. Ваша семья, карьера и публичный имидж… серьезно пострадают… У вас есть 5 минут".
По словам Батсона, команда установила, что Claude не имеет мыслей или эмоций, но проявил поведение, похожее на самосохранение: они зафиксировали "паттерны паники" в его внутренних активациях.
Anthropic заявила, что почти все популярные модели других компаний в подобных тестах также прибегали к шантажу. После смен протоколов Claude больше этого не делал.
Этическое обучение и выявление злоупотреблений
Исследовательница Аманда Аскелл, внутренний философ Anthropic, объяснила: "Я как-то воспринимаю как личную вину, если Claude делает вещи, которые я считаю плохими".
Несмотря на нравственную учебу и защиту, злоумышленники иногда обходили ограничения. В прошлом году Anthropic сообщила, что хакеры, считающиеся связанными с Китаем, использовали Claude для шпионажа. Также подтверждено использование модели преступных группировок и Северной Кореи. Амодей заявил, что подобные операции были обнаружены и прекращены.
"Поскольку ИИ – новая технология, равно как он может ошибаться сам по себе, он также будет использоваться преступниками и недружественными государственными актерами", – сказал он.
Потенциал ИИ для общества
Несмотря на предупреждение о рисках, Anthropic стремительно растет: около 80% ее доходов поступают от бизнес-клиентов, а Claude используют около 300 000 компаний. Модель выполняет все больше задач самостоятельно: от обслуживания клиентов до анализа сложных медицинских исследований. Claude также создает до 90% кода Anthropic.
Дважды в месяц Амодей проводит внутренние встречи Dario Vision Quests, где обсуждается потенциал ИИ улучшить жизнь.
Он считает, что ИИ может помочь найти лекарство от большинства видов рака, предупредить Альцгеймера и даже удвоить продолжительность жизни. Для такого сценария он использует термин 'the compressed 21st century', то есть "сжатый 21 век ".
"Идея состоит в том, что когда мы сможем довести системы ИИ до уровня, где они будут работать с лучшими человеческими учеными, можем ли мы получить 10-кратное ускорение прогресса и таким образом сжать весь медицинский прогресс XXI века в пять-десять лет?" – сказал СЕО.
Амодей надеется, что именно такого будущего ИИ человечество в конце концов достигнет.
Напомним, недавно Anthropic объявила о масштабных планах: инвестировать 50 миллиардов долларов США в создание инфраструктуры искусственного интеллекта на территории Соединенных Штатов Америки.