Coinbase вдвое сократила расходы на ИИ при взрывном росте потребления токенов: стратегия, которую стоит взять на заметку
Генеральный директор Coinbase Брайан Армстронг поделился впечатляющими результатами оптимизации затрат на искусственный интеллект. Несмотря на экспоненциальный рост потребления токенов, компании удалось сократить расходы почти вдвое. И ключ к успеху — вовсе не в жестких лимитах и запретах, а в тонкой настройке инфраструктуры.
Армстронг подчеркивает: инженеры Coinbase вольны выбирать любые модели, но решающую роль играют настройки по умолчанию. Компания активно экспериментирует, устанавливая в качестве дефолтных моделей с открытым исходным кодом, такие как GLM 5.2 и Kimi 2.7, доступ к которым осуществляется через внутренний шлюз. Интересно, что 91% сотрудников ни разу не уперлись в лимиты, что позволило не снижать квоты, а перейти на более дешевые конфигурации.
Маршрутизация, кэш и экономия контекста
В основе стратегии — интеллектуальная маршрутизация запросов. Внутренние системы Coinbase предварительно обрабатывают каждый запрос, направляя его к наиболее подходящей модели с учетом попаданий в кэш и стоимости. Например, для стратегического планирования используется передовая модель, но для рутинных задач она избыточна. Армстронг настаивает: выбор модели должен автоматизироваться самим ИИ, а не человеком.
Отдельного внимания заслуживает роль кэширования. Промахи мимо сохраненных данных — это прямой путь к неоправданным тратам. В Coinbase все запросы настроены на повторное использование уже обработанной информации. В сервисе LibreChat доля попаданий в кэш выросла с 5% до 60% после правильной настройки. Экономия контекста также дала свои плоды: новые сессии при смене задач, узкое ограничение контекста файлов и отключение неиспользуемых инструментов. Как резюмирует Армстронг, цель — не тратить меньше токенов в принципе, а не растрачивать их впустую.
Стратегия «штанги» от Дойчера
Аналитик Майлз Дойчер описывает схожий подход, называя его «инженерией токенов» и предлагая стратегию «штанги» для сокращения расходов на ИИ на 50% и более. Суть проста: первые 10% работы и планирование проекта доверяются самым мощным моделям (Opus, GPT). Основные 80% рутины выполняются более дешевыми моделями с открытым кодом. Финальные 10% и проверка результата снова поручаются топовым моделям. Дойчер применяет эту схему уже несколько месяцев и считает ее лучшим способом обуздать чрезмерные траты на ИИ.
Мнение эксперта: Опыт Coinbase — это не просто кейс по оптимизации, а наглядная демонстрация того, что эффективное внедрение ИИ — это не гонка за самым дорогим инструментом, а искусство правильной архитектуры. Для криптокомпаний, где каждый доллар на счету, такой подход становится не роскошью, а необходимостью для выживания в условиях растущей конкуренции.