GLM-5.2: Действительно ли новая китайская модель ИИ стала «убийцей» Claude? Разбор Cryptalist
Сообщество разработчиков и криптоэнтузиастов всколыхнула новость о выходе GLM-5.2 от компании Z.ai. Вокруг этой модели разгорелись нешуточные споры: одни называют ее «китайским убийцей» флагманской модели Claude от Anthropic, другие — скептически оценивают ее реальные возможности. Как независимый аналитик, я изучил все доступные данные, чтобы отделить маркетинговый шум от реальных инноваций.
Что такое GLM-5.2 и чем она примечательна?
GLM-5.2 позиционируется как флагманская модель для длительных рабочих сессий. Главное нововведение — стабильное контекстное окно на 1 миллион токенов, что в пять раз больше, чем у предшественницы GLM-5.1. Это позволяет модели удерживать в поле зрения огромные объемы кода или текста, не деградируя в качестве по мере углубления в задачу.
Ключевые особенности:
- Контекст в 1 млн токенов, который не теряет точности при сверхдлинных сессиях.
- Два уровня усиления рассуждений: режим High для баланса производительности и расхода токенов, и Max — для максимального качества ценой большего потребления ресурсов.
- Открытая лицензия MIT без региональных ограничений, что позволяет запускать модель на собственном оборудовании (self-hosting).
- Цена через API осталась на уровне предыдущей версии GLM-5.1, что выгодно отличает её от конкурентов.
Модель доступна на HuggingFace и ModelScope, а также через подписку GLM Coding Plan, десктопный агент ZCode и среды Claude Code и OpenCode. Это делает её гибкой для интеграции в различные рабочие процессы.
Бенчмарки: где GLM-5.2 сильна, а где уступает
По собственным тестам Z.ai, GLM-5.2 признана сильнейшей открытой моделью на рынке. Однако до эталонного Claude Opus 4.8 она в большинстве случаев не дотягивает. Давайте посмотрим на цифры.
На стандартных тестах по программированию разрыв с GLM-5.1 заметный: 81,0 против 63,5 на Terminal-Bench 2.1 и 62,1 против 58,4 на SWE-bench Pro. На Terminal-Bench 2.1 результат 81,0 вплотную подходит к Opus 4.8 (85,0) и обгоняет Gemini 3.1 Pro (74,0).
Сравнение с конкурентами в максимальном режиме рассуждения (Max) показывает, что GLM-5.2 действительно мощна, но не доминирует:
- SWE-bench Pro: GLM-5.2 (62,1) против Opus 4.8 (69,2) — отставание в 7 пунктов.
- Terminal-Bench 2.1: GLM-5.2 (81,0) против Opus 4.8 (85,0) — разрыв минимален.
- NL2Repo: GLM-5.2 (48,9) против Opus 4.8 (69,7) — серьезное отставание.
- DeepSWE: GLM-5.2 (46,2) против Opus 4.8 (58,0) — отставание, но GLM-5.2 значительно опережает GPT-5.5 (70,0) здесь? Нет, на DeepSWE GPT-5.5 показывает 70,0, что выше.
- ProgramBench: GLM-5.2 (63,7) против Opus 4.8 (71,9) — отставание.
- MCP-Atlas: GLM-5.2 (76,8) против Opus 4.8 (77,8) — практически паритет.
- Tool-Decathlon: GLM-5.2 (48,2) против Opus 4.8 (59,9) — отставание.
На продолжительных задачах (long-horizon tasks) картина схожая. На FrontierSWE, где модель ведет открытые техпроекты десятками часов, GLM-5.2 отстает от Opus 4.8 всего на 1%, обгоняя GPT-5.5 и Opus 4.7. На PostTrainBench GLM-5.2 опережает Opus 4.7 и GPT-5.5, уступая лишь Opus 4.8.
Однако на сверхдлинном SWE-Marathon с задачами вроде создания компиляторов отставание от Opus 4.8 составляет уже 13%. Таким образом, на всех трех тестах GLM-5.2 показывает лучший результат среди открытых моделей, но не среди всех.
Цена и подвох: что говорят пользователи
Подписка GLM Coding Plan делится на три тарифа: Lite ($12.6/мес), Pro ($50.4/мес) и Max ($112/мес) при годовой оплате. Pro дает в пять раз больший лимит, чем Lite, а Max — в двадцать. Старшие планы получают приоритетный доступ к флагманским моделям и выделенные ресурсы.
Однако пользователи в соцсетях отмечают серьезные недостатки. Сильные стороны: модель называют сильнейшей открытой нейросетью, базовая логика заметно улучшена, а в программировании она сопоставима с GPT-5.5 на высоком уровне рассуждения. ИИ автономно выполняет сложные задачи и сам предлагает исправления.
Критика касается инфраструктуры и стабильности: облачную платформу называют крайне слабой, тарификацию — дорогой, а поддержку — недостаточной. Пользователи жалуются на склонность модели застревать в бесконечных циклах и игнорировать команды. По их мнению, модель заточена исключительно под бенчмарки, а в реальном коде ведет себя как ИИ «бюджетного плана».
Отдельно отмечают, что модель раскрывается только в режиме Max, который расходует в разы больше токенов, чем High. Это делает её использование дорогим для повседневных задач.
Итог: «убийца» Claude или нет?
Однозначного ответа нет. GLM-5.2 — безусловно, лучшая на сегодня открытая модель для программирования и автономных задач. В отдельных длинных сценариях она вплотную подбирается к флагману Anthropic. Открытая лицензия MIT, запуск на собственном оборудовании и низкий порог входа делают её заметным игроком.
Вместе с тем, «убийцей» Claude новинку называют блогеры, а не бенчмарки. По большинству тестов Z.ai сама ставит свою модель ниже Opus 4.8. Кроме того, пользователи жалуются на нестабильную облачную инфраструктуру, высокий расход токенов в режиме Max и слабую поддержку.
Мой вердикт: GLM-5.2 — мощный шаг вперед для открытых моделей ИИ. Она сокращает разрыв с лидерами, но пока не обгоняет их. Для разработчиков, ценящих открытость и гибкость, это отличный инструмент. Однако называть её полноценной заменой Claude или GPT преждевременно. Рынок ИИ становится всё более конкурентным, и это хорошо для всех нас.