Inference
decode
Фаза авторегрессивной генерации, в которой модель пошагово создаёт выходные токены.
Что такое decode-фаза
После prefill начинается decode — авторегрессивная генерация ответа. На каждом шаге:
- Модель берёт последний сгенерированный токен как новый вход
- Читает K, V для всех предыдущих токенов из KV-кеша
- Вычисляет attention только для нового токена
- Применяет softmax к логитам с учётом temperature и top-p
- Сэмплирует следующий токен
- Повторяет до токена
<EOS>илиmax_tokens
Decode — memory-bound операция: GPU тратит большую часть времени на чтение весов модели и KV-кеша из HBM, а не на вычисления. Поэтому пропускная способность памяти GPU (HBM) — ключевой параметр для скорости decode.
Почему decode медленнее prefill на токен
При prefill GPU обрабатывает N токенов параллельно — высокая загрузка. При decode — только 1 токен за шаг, что плохо утилизирует тысячи CUDA-ядер. Именно batching решает эту проблему: объединяя множество запросов, GPU получает достаточно работы на каждом decode-шаге.
Связанные термины
Готовы запустить GPU-задачу?
Запустить GPU-сервер