Coinbase вдвое сократила расходы на ИИ: как инженерная оптимизация побеждает рост потребления токенов

29.06.2026

06:38

Генеральный директор Coinbase Брайан Армстронг поделился важным кейсом: компании удалось сократить расходы на искусственный интеллект почти вдвое, несмотря на экспоненциальный рост потребления токенов. Ключевой вывод — эффективность достигается не за счет жестких лимитов и уведомлений о тратах, а через грамотную настройку дефолтных конфигураций, маршрутизацию запросов и кэширование.

Армстронг подчеркнул, что инженеры могут выбирать любую модель, но решающее значение имеют именно настройки по умолчанию. В Coinbase экспериментируют с использованием более дешевых моделей с открытыми весами, таких как GLM 5.2 и Kimi 2.7, через внутренний шлюз. Примечательно, что 91% сотрудников никогда не упирались в лимиты, поэтому компания перешла к более дешевым конфигурациям, а не к снижению лимитов.

Маршрутизация, кэш и экономия контекста

Внутренняя система Coinbase предварительно обрабатывает запросы, направляя их к наиболее подходящей модели с учетом попаданий в кэш и стоимости. Например, передовая модель необходима для планирования, но избыточна для выполнения. Выбор модели в итоге должен автоматизировать сам ИИ, а не человек.

Армстронг особо выделил роль кэширования. Промахи мимо сохраненных данных — самый простой способ взвинтить расходы, поэтому все запросы в Coinbase настроены на повторное использование уже обработанной информации. В сервисе LibreChat доля таких попаданий выросла с 5% до 60% после правильной настройки.

Также важна экономия контекста. Армстронг советует начинать новые сессии при смене задач, узко ограничивать контекст файлов и отключать неиспользуемые инструменты. Цель — не в том, чтобы тратить меньше токенов, а в том, чтобы меньше растрачивать их впустую. Именно такой подход позволил Coinbase сократить расходы почти вдвое при продолжающемся росте потребления.

Стратегия «штанги» от Дойчера

Аналитик Майлз Дойчер описал схожий подход, назвав его «инженерией токенов». Он предложил стратегию «штанги» для сокращения расходов на ИИ на 50% и более. Первые 10% работы и планирование проекта стоит доверять самым умным моделям вроде Opus или GPT. Основные 80% рутинной работы следует выполнять более дешевой моделью с открытым исходным кодом. Финальные 10% и проверку результата он рекомендует снова поручать моделям высокого уровня. Дойчер применяет эту схему уже несколько месяцев и считает ее лучшим способом снизить чрезмерные траты на ИИ.

Комментарий эксперта: Кейс Coinbase демонстрирует зрелый подход к управлению ИИ-инфраструктурой. Вместо панического сокращения доступа компания внедрила интеллектуальную маршрутизацию и кэширование, что является грамотным инженерным решением. Для криптоиндустрии, где каждый цент на счету, такой прагматизм — не просто экономия, а залог устойчивого масштабирования в условиях растущей конкуренции.

Новости криптомира