Inference

speculative decoding

Ускорение генерации: черновая модель предлагает токены, основная верифицирует их пакетом.

Что такое speculative decoding

Speculative decoding (спекулятивное декодирование) — техника ускорения авторегрессивной генерации, основанная на том, что верификация пакета токенов значительно быстрее, чем их поочерёдная генерация.

Алгоритм работы:

  1. Черновая модель (draft model) — маленькая и быстрая — генерирует K токенов (обычно 4–8) за один проход
  2. Основная модель (target model) верифицирует все K токенов за один прогон вперёд (forward pass), что стоит примерно столько же, сколько генерация одного токена
  3. Если черновик угадал верно — принимаем все K токенов; если где-то ошибся — откатываемся до первой ошибки
  4. Результат идентичен прямой генерации основной моделью (без потери качества)

Ускорение на практике

На задачах с высокой предсказуемостью текста (код, диалоги, перевод) черновая модель угадывает 60–80% токенов, что даёт 1.5–3× ускорение без изменения качества. На творческих задачах угадываемость ниже и ускорение меньше.

Типичные пары моделей:

  • Llama 3 70B (основная) + Llama 3 8B (черновик)
  • Llama 3 8B (основная) + специальная draft-модель на 68M параметров

Где поддерживается

  • vLLM — через --speculative-model
  • SGLang — нативная поддержка
  • TGI — ограниченная поддержка

Связанные термины

  • decode — фаза, которую ускоряет speculative decoding
  • tokens per second — метрика, улучшаемая этой техникой
  • TTFT и TPOT — latency-метрики инференса

Готовы запустить GPU-задачу?

Запустить GPU-сервер