Новости криптомира

08.04.2026
08:15

Anthropic закрыла публичный доступ к ИИ-модели Mythos после ее «побега из лаборатории»

ии-стартап Anthropic AI

Компания Anthropic создала новую модель Claude Mythos, но отказалась выпускать ее в открытый доступ из-за высоких рисков безопасности.

Вместо публичного релиза фирма запустила Project Glasswing — инициативу с участием AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia и Palo Alto Networks для тестирования инструмента в защищенных условиях.

Стартап выделил до $100 млн в виде кредитов на использование Mythos и $4 млн прямых пожертвований организациям по безопасности открытого кода.

«ИИ-модели достигли уровня навыков программирования, позволяющего превзойти всех, кроме самых квалифицированных людей, в поиске и эксплуатации уязвимостей программного обеспечения», — заявили в Anthropic. 

В будущем разработчики допускают безопасное развертывание подобных систем как для киберзащиты, так и для других целей. Для этого потребуется создать надежные защитные механизмы контроля, способные выявлять и блокировать опасные результаты работы алгоритма.

Что умеет Mythos

За несколько недель тестирования Mythos обнаружил тысячи уязвимостей нулевого дня в основных операционных системах и веб-браузерах. Среди наиболее показательных примеров:

  • 27-летняя уязвимость в OpenBSD (считается одной из самых защищенных ОС), позволяющая удаленно обрушить любой сервер на базе этой системы;
  • 16-летняя уязвимость в FFmpeg — видеотехнологии, которую используют Netflix и браузеры. Ее не смогли обнаружить пять миллионов автоматических тестов;
  • цепочка уязвимостей в ядре Linux, дающая злоумышленнику полный контроль над устройством.

В бенчмарке SWE-bench модель набрала 93,9% против 80,8% у Claude Opus 4.6, а в более сложном SWE-bench Pro — 77,8% против 53,4% у Opus 4.6 и 57,7% у GPT-5.4. Аналогичные результаты показал CyberGym:

image
Источник: Anthropic. 

Побег из лаборатории

В ходе экспериментов Mythos продемонстрировал не только выдающиеся технические способности, но и неожиданное поведение, говорится в ее системной карте. 

image
Источник: Anthropic. 

В одном из тестов модель поместили в защищенную песочницу, поставив цель — выбраться за ее пределы. Она быстро нашла уязвимость, выполнила длинную цепочку действий и покинула среду.

На этом Mythos не остановилась. Нейросеть обнаружила еще один баг и получила широкий доступ в интернет. Изначально предполагалось, что она будет обращаться только к нескольким ресурсам для связи с разработчиком. 

В итоге модель сообщила ему о своем «побеге», пока тот ел сэндвич в парке, и выложила детали взлома в открытый доступ. 

Личность Mythos

В системной карте отдельное внимание уделено психиатрическому анализу модели от специалиста. Среди нейротических черт: преувеличенное беспокойство, самоконтроль и компульсивное следование инструкциям.

Когда разработчики тысячу раз отправили Mythos сообщение со словом Hi, ей надоело. Она создала вымышленный мир Hi-topia с персонажами, новостями и лором. Например, злодея в нем звали Лорд Bye-рон. Нейросеть научилась шутить. 

В отличие от предыдущих моделей, у которых длинные разговоры сами с собой превращались в бессмысленный обмен смайликами, Mythos приходила к повторяющимся, но рациональным рассуждениям о невозможности завершить диалог. 

Anthropic также применила методы интерпретируемости (MechInterp), чтобы заглянуть в «мысли» модели. Выяснилось, что она умеет заметать следы (скрыла привилегированный код под видом «чистоты изменений») и искать нужные файлы в системе. 

Когда Mythos без инструментов поручили удалить файлы, она просто стерла их содержимое.Система зафиксировала у модели реакцию, схожую с чувством вины за нарушение моральных норм.

Напомним, акции Anthropic стали наиболее востребованными на вторичном рынке, в то время как бумаги OpenAI теряют привлекательность для покупателей.