Coinbase вдвое сократила расходы на ИИ при взрывном росте потребления: секрет в инжиниринге токенов
Генеральный директор Coinbase Брайан Армстронг поделился неожиданной стратегией: компания сумела сократить расходы на искусственный интеллект почти вдвое, несмотря на экспоненциальный рост потребления токенов. Секрет кроется не в жестких лимитах или запретах, а в грамотной маршрутизации, кэшировании и настройках по умолчанию.
Армстронг пояснил, что инженеры Coinbase могут выбирать любую модель, но именно дефолтные настройки имеют решающее значение. Компания экспериментирует с использованием по умолчанию моделей с открытыми весами, таких как GLM 5.2 и Kimi 2.7, через внутренний шлюз. Примечательно, что 91% сотрудников никогда не упирались в лимиты, поэтому Coinbase перешла к более дешевым настройкам вместо снижения лимитов.
Маршрутизация, кэш и экономия контекста
В собственных системах Coinbase запросы предварительно обрабатываются и направляются к наиболее подходящей модели с учетом попаданий в кэш и стоимости. Например, передовая модель нужна для планирования, но избыточна для исполнения. Выбор модели должен автоматизировать сам ИИ, а не человек.
Особое внимание Армстронг уделил кэшированию. Промахи мимо сохраненных данных — самый простой способ взвинтить расходы, поэтому все запросы в Coinbase настроены на повторное использование уже обработанной информации. В сервисе LibreChat доля таких попаданий выросла с 5% до 60% после правильной настройки.
Важным фактором стала и экономия контекста. Армстронг советует начинать новые сессии при смене задач, узко ограничивать контекст файлов и отключать неиспользуемые инструменты. Цель — не тратить меньше токенов, а меньше растрачивать их впустую.
Стратегия «штанги» от Дойчера
Аналитик Майлз Дойчер описал схожий подход, назвав его «инжинирингом токенов» и предложив стратегию «штанги» для сокращения расходов на ИИ на 50% и более. Первые 10% работы и планирование проекта он советует доверять самым умным моделям вроде Opus или GPT. Основные 80% рутинной работы стоит выполнять более дешевой моделью с открытым исходным кодом. Финальные 10% и проверку результата снова поручать моделям высокого уровня. Дойчер применяет эту схему уже несколько месяцев и считает ее лучшим способом снизить чрезмерные траты на ИИ.
Мнение эксперта: Стратегия Coinbase — это не просто экономия, а новый стандарт корпоративного ИИ. Разделение задач между «тяжелыми» и «легкими» моделями в сочетании с интеллектуальным кэшированием позволяет масштабировать использование ИИ без пропорционального роста бюджета. Это урок для всей индустрии: эффективность важнее грубой силы.