GLM-5.2 против Claude: действительно ли китайская нейросеть стала «убийцей» лидера рынка?
В мире искусственного интеллекта разгорается новый спор: китайская компания Z.ai представила модель GLM-5.2, которую некоторые энтузиасты уже окрестили «убийцей» флагманского продукта Anthropic — Claude Opus 4.8. Насколько справедливы эти громкие заявления? Давайте разберемся.
Что такое GLM-5.2 и в чем ее сила?
GLM-5.2 — это флагманская модель, созданная для длительных рабочих сессий. Главное её преимущество перед предшественницей GLM-5.1 — стабильное контекстное окно на 1 миллион токенов против прежних 200 тысяч. Это означает, что модель способна удерживать в поле зрения целую кодовую базу или объемный проект без потери качества.
Ключевые особенности:
- Контекст 1 млн токенов без деградации при сверхдлинных сессиях.
- Два уровня усиления рассуждения: High для баланса производительности и расхода токенов, Max для максимальных возможностей.
- Открытая лицензия MIT без региональных ограничений — можно запускать на собственном оборудовании (self-hosting).
- Цена API осталась на уровне GLM-5.1.
Модель доступна на HuggingFace и ModelScope, а также через подписку GLM Coding Plan, десктопный агент ZCode и среды Claude Code и OpenCode.
Что показывают бенчмарки?
По собственным тестам Z.ai, GLM-5.2 признана сильнейшей открытой моделью на рынке. Однако до Claude Opus 4.8 она в большинстве случаев не дотягивает.
На стандартных тестах по программированию разрыв с GLM-5.1 заметный: 81,0 против 63,5 на Terminal-Bench 2.1 и 62,1 против 58,4 на SWE-bench Pro. При этом на Terminal-Bench 2.1 результат 81,0 вплотную подходит к Opus 4.8 (85,0) и обгоняет Gemini 3.1 Pro (74,0).
Сравнение с конкурентами в максимальном режиме рассуждения:
| Бенчмарк | GLM-5.2 | GLM-5.1 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
| SWE-bench Pro | 62,1 | 58,4 | 69,2 | 58,6 | 54,2 |
| Terminal-Bench 2.1 | 81,0 | 63,5 | 85,0 | 84,0 | 74,0 |
| NL2Repo | 48,9 | 42,7 | 69,7 | 50,7 | 33,4 |
| DeepSWE | 46,2 | 18,0 | 58,0 | 70,0 | 10,0 |
| ProgramBench | 63,7 | 50,9 | 71,9 | 70,8 | 39,5 |
| MCP-Atlas | 76,8 | 71,8 | 77,8 | 75,3 | 69,2 |
| Tool-Decathlon | 48,2 | 40,7 | 59,9 | 55,6 | 48,8 |
На продолжительных задачах (long-horizon) картина схожая. На тесте FrontierSWE, где модель ведет открытые технические проекты длительностью в десятки часов, GLM-5.2 отстает от Opus 4.8 всего на 1%. Зато она обходит GPT-5.5 и предыдущую версию Opus 4.7.
Сколько стоит ИИ и в чем подвох?
Подписка GLM Coding Plan делится на три тарифа с годовой скидкой 30%: Lite — $12,6/мес., Pro — $50,4/мес., Max — $112/мес. Внутри подписки расход квоты зависит от нагрузки: коэффициент 3x в часы пик и 2x вне пика. До конца сентября действует акция, где внепиковое использование тарифицируется как 1x.
Пользователи разделились во мнениях. Сильные стороны:
- Сильнейшая открытая модель на данный момент.
- Базовая логика заметно лучше, чем у версии 5.1.
- Автономно выполняет сложные задачи через вспомогательных агентов.
- Медленная, но крайне упорная в достижении цели.
Критика:
- Слабая облачная инфраструктура и дорогая тарификация.
- Склонность застревать в бесконечных циклах и игнорировать команды.
- Многие считают, что модель заточена исключительно под бенчмарки.
Резюме: по бенчмаркам — флагман, но по реальному коду — ИИ бюджетного плана.
Так это «убийца» Claude или нет?
Однозначного ответа нет. GLM-5.2 признана лучшей открытой моделью для программирования и автономных задач. В отдельных длинных сценариях она вплотную подбирается к флагману Anthropic. Открытая лицензия MIT, запуск на собственном оборудовании и низкий порог входа делают её заметным игроком.
Однако «убийцей» Claude новинку называют блогеры, а не бенчмарки. По большинству тестов Z.ai сама ставит свою модель ниже Opus 4.8. Кроме того, пользователи жалуются на нестабильную облачную инфраструктуру, высокий расход токенов в режиме Max и слабую поддержку. Новая ИИ сокращает разрыв с лидерами, но пока не обгоняет их.
Мой экспертный вывод: GLM-5.2 — это впечатляющий шаг вперед для открытых моделей, особенно в сегменте программирования. Но называть её «убийцей» Claude преждевременно. Она скорее догоняющий, а не обгоняющий игрок, и её реальная ценность будет определяться не бенчмарками, а стабильностью и удобством в реальных проектах.