Inference

decode

Фаза авторегрессивной генерации, в которой модель пошагово создаёт выходные токены.

Что такое decode-фаза

После prefill начинается decode — авторегрессивная генерация ответа. На каждом шаге:

  1. Модель берёт последний сгенерированный токен как новый вход
  2. Читает K, V для всех предыдущих токенов из KV-кеша
  3. Вычисляет attention только для нового токена
  4. Применяет softmax к логитам с учётом temperature и top-p
  5. Сэмплирует следующий токен
  6. Повторяет до токена <EOS> или max_tokens

Decode — memory-bound операция: GPU тратит большую часть времени на чтение весов модели и KV-кеша из HBM, а не на вычисления. Поэтому пропускная способность памяти GPU (HBM) — ключевой параметр для скорости decode.

Почему decode медленнее prefill на токен

При prefill GPU обрабатывает N токенов параллельно — высокая загрузка. При decode — только 1 токен за шаг, что плохо утилизирует тысячи CUDA-ядер. Именно batching решает эту проблему: объединяя множество запросов, GPU получает достаточно работы на каждом decode-шаге.

Связанные термины

  • prefill — предшествующая фаза
  • TPOT — метрика скорости decode
  • KV-кеш — память, которую decode читает на каждом шаге
  • temperature и top-p — параметры сэмплинга
  • HBM — тип памяти GPU, определяющий скорость decode

Готовы запустить GPU-задачу?

Запустить GPU-сервер