Inference

decode

Фаза авторегрессивной генерации, в которой модель пошагово создаёт выходные токены.

Что такое decode-фаза

После prefill начинается decode — авторегрессивная генерация ответа. На каждом шаге:

Модель берёт последний сгенерированный токен как новый вход
Читает K, V для всех предыдущих токенов из KV-кеша
Вычисляет attention только для нового токена
Применяет softmax к логитам с учётом temperature и top-p
Сэмплирует следующий токен
Повторяет до токена <EOS> или max_tokens

Decode — memory-bound операция: GPU тратит большую часть времени на чтение весов модели и KV-кеша из HBM, а не на вычисления. Поэтому пропускная способность памяти GPU (HBM) — ключевой параметр для скорости decode.

Почему decode медленнее prefill на токен

При prefill GPU обрабатывает N токенов параллельно — высокая загрузка. При decode — только 1 токен за шаг, что плохо утилизирует тысячи CUDA-ядер. Именно batching решает эту проблему: объединяя множество запросов, GPU получает достаточно работы на каждом decode-шаге.

Связанные термины

prefill — предшествующая фаза
TPOT — метрика скорости decode
KV-кеш — память, которую decode читает на каждом шаге
temperature и top-p — параметры сэмплинга
HBM — тип памяти GPU, определяющий скорость decode

Готовы запустить GPU-задачу?

Запустить GPU-сервер