Coinbase вдвое сократила расходы на ИИ при взрывном росте потребления токенов: секрет не в лимитах
Генеральный директор Coinbase Брайан Армстронг поделился деталями того, как бирже удалось сократить расходы на искусственный интеллект почти вдвое, несмотря на экспоненциальный рост потребления токенов. Ключ к успеху — не в жестких ограничениях и бюджетных лимитах, а в умной настройке инфраструктуры.
Армстронг прямо заявил: инженеры Coinbase могут выбирать любую модель ИИ, но решающее значение имеют настройки по умолчанию. Компания экспериментирует с тем, чтобы по умолчанию использовать более дешевые модели с открытым весом, такие как GLM 5.2 и Kimi 2.7, через внутренний шлюз. Примечательно, что 91% сотрудников никогда не упирались в установленные лимиты, поэтому в Coinbase пошли по пути оптимизации дефолтных параметров, а не снижения квот. Это позволило не только сдержать рост затрат, но и обратить его вспять.
Маршрутизация, кэширование и экономия контекста
В собственных системах Coinbase запросы предварительно обрабатываются и направляются к наиболее подходящей модели на основе вероятности попадания в кэш и стоимости. Например, передовая модель необходима для планирования, но избыточна для рутинного исполнения. Армстронг подчеркивает, что выбор модели в конечном итоге должен автоматизировать сам ИИ, а не человек.
Особое внимание уделяется кэшированию. Промахи мимо сохраненных данных — самый простой способ взвинтить расходы. В Coinbase все запросы настроены на повторное использование уже обработанной информации. В сервисе LibreChat доля попаданий в кэш выросла с 5% до 60% после правильной настройки.
Также критически важна экономия контекста. Армстронг советует начинать новые сессии при смене задач, узко ограничивать контекст файлов и отключать неиспользуемые инструменты. Цель — не тратить меньше токенов, а минимизировать их бесполезное расходование. Именно этот комплексный подход и позволил Coinbase сократить расходы на ИИ почти вдвое на фоне продолжающегося роста потребления.
Стратегия «штанги» от Дойчера: 10-80-10
Аналитик Майлз Дойчер описывает аналогичный подход, называя его эрой «инженерии токенов». Он предлагает стратегию «штанги» для сокращения расходов на ИИ на 50% и более. Первые 10% работы (планирование проекта) он рекомендует доверять самым умным моделям вроде Opus или GPT, так как это важнейший этап.
Основные 80% рутинной работы, по его мнению, стоит выполнять более дешевой моделью с открытым исходным кодом. Финальные 10% и проверку результата он снова поручает моделям высокого уровня. Дойчер утверждает, что применяет эту схему уже несколько месяцев и считает ее лучшим способом снизить чрезмерные траты на ИИ.
Аналитика Cryptalist: Опыт Coinbase — это наглядный учебник для всей индустрии. Мы переходим от эпохи «просто используй самую мощную модель» к эпохе «используй правильную модель для правильной задачи». Умная маршрутизация и агрессивное кэширование — это не просто экономия, это новый стандарт эффективности. Компании, которые не внедрят подобные практики, рискуют просто сжечь капитал на бесконтрольном потреблении ИИ.