Inference

speculative decoding

Ускорение генерации: черновая модель предлагает токены, основная верифицирует их пакетом.

Что такое speculative decoding

Speculative decoding (спекулятивное декодирование) — техника ускорения авторегрессивной генерации, основанная на том, что верификация пакета токенов значительно быстрее, чем их поочерёдная генерация.

Алгоритм работы:

Черновая модель (draft model) — маленькая и быстрая — генерирует K токенов (обычно 4–8) за один проход
Основная модель (target model) верифицирует все K токенов за один прогон вперёд (forward pass), что стоит примерно столько же, сколько генерация одного токена
Если черновик угадал верно — принимаем все K токенов; если где-то ошибся — откатываемся до первой ошибки
Результат идентичен прямой генерации основной моделью (без потери качества)

Ускорение на практике

На задачах с высокой предсказуемостью текста (код, диалоги, перевод) черновая модель угадывает 60–80% токенов, что даёт 1.5–3× ускорение без изменения качества. На творческих задачах угадываемость ниже и ускорение меньше.

Типичные пары моделей:

Llama 3 70B (основная) + Llama 3 8B (черновик)
Llama 3 8B (основная) + специальная draft-модель на 68M параметров

Где поддерживается

vLLM — через --speculative-model
SGLang — нативная поддержка
TGI — ограниченная поддержка

Связанные термины

decode — фаза, которую ускоряет speculative decoding
tokens per second — метрика, улучшаемая этой техникой
TTFT и TPOT — latency-метрики инференса

Готовы запустить GPU-задачу?

Запустить GPU-сервер