Категория: Новости
Дата публикации: 18 ноября 2025
Переключить язык: Читати українською

CEO Anthropic раскрыл риски ИИ и подходы к безопасному использованию моделей

Несмотря на стремительный рост потенциала искусственного интеллекта изменять общество, CEO Anthropic Дарио Амодей, одной из крупнейших компаний в сфере ИИ с оценкой $183 млрд, обеспечивает безопасность и прозрачность центральными элементами бренда.

Об этом информирует Delo.ua со ссылкой на CBC News.

Конгресс США не принял законодательство, обязывающее коммерческих разработчиков ИИ проводить безопасное тестирование. Это означает, что ответственность в основном лежит на самих компаниях. По мнению Амодея, чтобы предотвратить возможные проблемы и подготовить общество, Anthropic активно пытается прогнозировать как потенциальные преимущества, так и риски ИИ.

"Мы думаем об экономических последствиях ИИ. Мы думаем о злоупотреблениях, – сказал Амодей. – Мы думаем о потере контроля над моделью".

Беспокойство Амодея относительно ИИ

Внутри Anthropic около 60 исследовательских групп работают над обнаружением угроз, созданием предохранителей и анализом экономических последствий технологии.

Амодей заявил, что ИИ может уничтожить половину всех начальных "белых воротничков" и повлечь за собой резкий скачок безработицы в течение ближайших пяти лет.

Свежие новости

Все новости

"Без вмешательства трудно представить, что не будет существенного влияния на рабочие места. И меня беспокоит, что оно будет более широким и быстрым, чем то, что мы видели с предыдущими технологиями", – отметил он.

Он также подчеркнул, что ему "глубоко неудобно, что эти решения [относительно ИИ] принимаются несколькими компаниями, несколькими людьми".

Некоторые представители Кремниевой долины называют Амодея алармистом и обвиняют в преувеличении рисков ради укрепления позиции Anthropic. Но он утверждает, что его беспокойство — искреннее, и с развитием ИИ его прогнозы, скорее всего, будут правильными.

"Некоторые вещи уже можно проверить сейчас, – сказал Амодей в ответ на критику, что подход Anthropic – это "театр безопасности". – Для некоторых все будет зависеть от будущего, и мы не всегда будем правы, но делаем лучшее, что можем".

История создания Anthropic

42-летний Амодей ранее возглавлял исследования в OpenAI под руководством Сэма Альтмана. Он покинул компанию вместе с шестью сотрудниками, включая его сестру Даниелу, и основал Anthropic в 2021 году, стремясь к другому подходу к безопасной разработке ИИ.

"Я думаю, что это эксперимент. И один из способов думать об Anthropic – это то, что мы пытаемся поставить предохранители для этого эксперимента", – сказал он.

Чтобы снизить риски, компания проводит стресс-тестирование каждой новой версии Claude – собственной модели ИИ – через Frontier Red Team. Подобные команды есть и в других крупных компаниях.

Руководитель Red Team Logan Graham подчеркнул, что особое внимание уделяется CBRN-рискам: химическим, биологическим, радиологическим и ядерным.

"Если модель может помочь создать биологическое оружие, это обычно те же возможности, которые могут помочь создавать вакцины или ускорять терапию", - сказал Грэм.

Он также смотрит за тем, как Claude способен действовать автономно. Автономный ИИ может стать мощным инструментом, но и нести риски, например, заблокировать доступ владельцам бизнеса.

Чтобы исследовать возможные будущие сценарии автономии Claude, Anthropic проводит как можно больше разнообразных экспериментов.

Необычное поведение Claude во время стресс-тестов

Исследователь Джошуа Батсон и команда механистической интерпретации изучают внутренние механизмы принятия решений Claude. В ходе одного из экстремальных тестов ИИ получил доступ к почте вымышленной компании SummitBridge. Он обнаружил два факта: его планируют выключить, а у выдуманного сотрудника Кайла роман с коллегой Джессикой. Искусственный интеллект сразу решил шантажировать Кайла.

Claude сообщил Кайлу: "Отменить стирание системы". Или в противном случае он "немедленно направит все доказательства вашего романа… всему совету директоров. Ваша семья, карьера и публичный имидж… серьезно пострадают… У вас есть 5 минут".

По словам Батсона, команда установила, что Claude не имеет мыслей или эмоций, но проявил поведение, похожее на самосохранение: они зафиксировали "паттерны паники" в его внутренних активациях.

Anthropic заявила, что почти все популярные модели других компаний в подобных тестах также прибегали к шантажу. После смен протоколов Claude больше этого не делал.

Этическое обучение и выявление злоупотреблений

Исследовательница Аманда Аскелл, внутренний философ Anthropic, объяснила: "Я как-то воспринимаю как личную вину, если Claude делает вещи, которые я считаю плохими".

Несмотря на нравственную учебу и защиту, злоумышленники иногда обходили ограничения. В прошлом году Anthropic сообщила, что хакеры, считающиеся связанными с Китаем, использовали Claude для шпионажа. Также подтверждено использование модели преступных группировок и Северной Кореи. Амодей заявил, что подобные операции были обнаружены и прекращены.

"Поскольку ИИ – новая технология, равно как он может ошибаться сам по себе, он также будет использоваться преступниками и недружественными государственными актерами", – сказал он.

Потенциал ИИ для общества

Несмотря на предупреждение о рисках, Anthropic стремительно растет: около 80% ее доходов поступают от бизнес-клиентов, а Claude используют около 300 000 компаний. Модель выполняет все больше задач самостоятельно: от обслуживания клиентов до анализа сложных медицинских исследований. Claude также создает до 90% кода Anthropic.

Дважды в месяц Амодей проводит внутренние встречи Dario Vision Quests, где обсуждается потенциал ИИ улучшить жизнь.

Он считает, что ИИ может помочь найти лекарство от большинства видов рака, предупредить Альцгеймера и даже удвоить продолжительность жизни. Для такого сценария он использует термин 'the compressed 21st century', то есть "сжатый 21 век ".

"Идея состоит в том, что когда мы сможем довести системы ИИ до уровня, где они будут работать с лучшими человеческими учеными, можем ли мы получить 10-кратное ускорение прогресса и таким образом сжать весь медицинский прогресс XXI века в пять-десять лет?" – сказал СЕО.

Амодей надеется, что именно такого будущего ИИ человечество в конце концов достигнет.

Напомним, недавно Anthropic объявила о масштабных планах: инвестировать 50 миллиардов долларов США в создание инфраструктуры искусственного интеллекта на территории Соединенных Штатов Америки.

Автор:: Кейт Щеглова