Inference

prefill

Фаза инференса, в которой обрабатывается весь входной промпт и заполняется KV-кеш.

Что такое prefill

Инференс трансформера делится на две принципиально разные фазы. Prefill — первая из них: модель обрабатывает весь входной промпт целиком, вычисляет K и V для каждого токена и сохраняет их в KV-кеш. На выходе prefill производит один токен — первый токен ответа.

Prefill выполняется как один большой матричный прогон (высокий параллелизм) — это compute-bound операция. GPU хорошо с ней справляется, но при длинных промптах время растёт линейно с длиной.

Prefill vs Decode

	Prefill	Decode
Что происходит	Обработка всего промпта	Авторегрессивная генерация токенов
Параллелизм	Высокий (все токены сразу)	Низкий (по одному токену)
Тип операции	Compute-bound	Memory-bound
Влияет на	TTFT	TPOT

Почему prefill важен для TTFT

TTFT (Time to First Token) — это почти целиком время prefill. Длинный системный промпт (RAG-контекст, много документов) = медленный TTFT. Именно поэтому prompt caching в первую очередь атакует prefill: если он уже посчитан — TTFT резко падает.

Связанные термины

decode — следующая фаза после prefill
KV-кеш — то, что заполняется в ходе prefill
TTFT — метрика, зависящая от скорости prefill
prompt caching — техника пропуска prefill для общих префиксов

Готовы запустить GPU-задачу?

Запустить GPU-сервер