Inference

prompt caching

Повторное использование уже вычисленного KV-кеша для одинаковых префиксов запросов.

Что такое prompt caching

Prompt caching — оптимизация инференса, при которой KV-кеш вычисленного промпта (или его части) сохраняется и переиспользуется при следующих запросах с тем же префиксом. Это устраняет необходимость повторного prefill для одинакового системного промпта или контекста RAG.

Типичный сценарий: чат-сервис с системным промптом на 2000 токенов. Без кеширования каждый запрос тратит время и ресурсы на prefill этих 2000 токенов. С кешированием — prefill выполняется один раз, все последующие запросы пропускают его.

Экономия ресурсов

TTFT снижается на 50–90% для запросов с длинными общими префиксами
Стоимость снижается: prefill на GPU значительно дороже декодирования в пересчёте на токен
Throughput растёт: GPU тратит время только на новые токены

Реализации

Фреймворк	Механизм
vLLM	`--enable-prefix-caching`
SGLang	RadixAttention — автоматически
Anthropic Claude API	Prefix caching (billing)
OpenAI API	Автоматически для длинных промптов

Когда кеширование особенно выгодно

Длинный системный промпт (instructions, persona) — одинаков у всех запросов
RAG с общим документальным контекстом
Multi-turn диалоги (кешируется история)
Агентные сценарии с повторяющимися tool definitions

Связанные термины

KV-кеш — что физически хранится при кешировании
prefill — фаза, которую кеширование пропускает
PagedAttention — механизм в vLLM, позволяющий делиться блоками
TTFT — метрика, улучшаемая кешированием

Готовы запустить GPU-задачу?

Запустить GPU-сервер