GLM-5.2: Реальный конкурент Claude или просто шум? Мой анализ китайского флагмана
В мире искусственного интеллекта назревает любопытный сдвиг. Китайская компания Z.ai выпустила новую флагманскую модель GLM-5.2, и вокруг неё уже разгорелись жаркие споры. Сообщество окрестило её «убийцей» Claude, намекая на прямую конкуренцию с топовыми решениями от Anthropic. Давайте разберёмся, насколько это звание заслужено и что на самом деле представляет собой эта нейросеть.
Что такое GLM-5.2 и в чём её сила?
GLM-5.2 — это не просто очередное обновление, а серьёзная заявка на лидерство в сегменте open-source моделей для программирования. Главное её преимущество — гигантское контекстное окно в 1 миллион токенов, которое не деградирует при работе. Это означает, что модель способна «видеть» и обрабатывать всю кодовую базу проекта целиком, не теряя нити рассуждений даже в ходе многочасовых сессий.
Ключевые характеристики, которые я выделяю:
- Контекст 1M токенов: Вся кодовая база помещается в один цикл рассуждения, что критически важно для сложных проектов.
- Два режима рассуждения: High для баланса скорости и качества, и Max — «режим максимальной производительности», который расходует больше токенов, но выдаёт лучший результат.
- Открытая лицензия MIT: Модель можно запускать на собственном оборудовании (self-hosting), что даёт полный контроль над данными и затратами.
- Цена API: Стоимость вызовов осталась на уровне предыдущей версии GLM-5.1, что делает её доступной.
Модель уже доступна на HuggingFace и ModelScope, а также интегрирована в популярные фреймворки вроде vLLM и SGLang.
Бенчмарки: Цифры говорят громче слов
По собственным тестам Z.ai, GLM-5.2 показывает впечатляющие результаты. На ключевых бенчмарках для программирования разрыв с предыдущей версией GLM-5.1 огромен: 81,0 против 63,5 на Terminal-Bench 2.1 и 62,1 против 58,4 на SWE-bench Pro.
Однако, если смотреть на абсолютные цифры, ситуация становится более тонкой. В режиме Max модель вплотную приближается к флагману Anthropic — Claude Opus 4.8. На Terminal-Bench 2.1 отставание составляет всего 4 пункта (81,0 против 85,0), а на SWE-bench Pro — 7 пунктов (62,1 против 69,2). При этом GLM-5.2 уверенно обходит Gemini 3.1 Pro и GPT-5.5 на многих тестах.
Особенно интересна картина на длительных задачах (long-horizon). На тесте FrontierSWE, где модели работают часами, GLM-5.2 отстаёт от Opus 4.8 всего на 1%. Это говорит о том, что архитектура модели действительно хорошо справляется с поддержанием контекста на дистанции.
Цена вопроса и «подводные камни»
Подписка GLM Coding Plan предлагает три тарифа: Lite ($12.6/мес), Pro ($50.4/мес) и Max ($112/мес) при годовой оплате. Это значительно дешевле, чем тарифы Claude Pro или GPT Plus, особенно учитывая лимиты.
Однако, как показывает практика, дьявол кроется в деталях. Пользователи в сети активно обсуждают две основные проблемы:
- Слабая облачная инфраструктура: Многие жалуются на нестабильную работу сервиса, долгие ответы и высокую стоимость в пиковые часы. Проще, говорят они, заплатить за Claude или GPT.
- Проблемы с поведением: Модель склонна зацикливаться и игнорировать команды. Есть мнение, что она «заточена» исключительно под бенчмарки, а в реальной разработке ведёт себя не так эффективно.
Критики отмечают, что весь потенциал GLM-5.2 раскрывается только в режиме Max, который расходует в разы больше токенов. В режиме High она уже не так убедительна.
Мой вердикт
Назвать GLM-5.2 «убийцей» Claude было бы преувеличением. Да, это сильнейшая open-source модель на сегодняшний день, которая вплотную приблизилась к топовым закрытым решениям. Она предлагает уникальное сочетание огромного контекста, открытой лицензии и впечатляющих результатов на бенчмарках.
Однако до полноценной победы над Claude ей ещё далеко. Проблемы с инфраструктурой, нестабильность и высокий расход токенов в режиме Max — это серьёзные недостатки. Пока что GLM-5.2 — это скорее «бюджетный и дерзкий конкурент», который отлично подходит для энтузиастов и разработчиков, готовых мириться с несовершенствами ради низкой цены и открытости. Для тех, кому нужна стабильность и предсказуемость, Claude и GPT остаются более надёжным выбором.