Inference
speculative decoding
Ускорение генерации: черновая модель предлагает токены, основная верифицирует их пакетом.
Что такое speculative decoding
Speculative decoding (спекулятивное декодирование) — техника ускорения авторегрессивной генерации, основанная на том, что верификация пакета токенов значительно быстрее, чем их поочерёдная генерация.
Алгоритм работы:
- Черновая модель (draft model) — маленькая и быстрая — генерирует K токенов (обычно 4–8) за один проход
- Основная модель (target model) верифицирует все K токенов за один прогон вперёд (forward pass), что стоит примерно столько же, сколько генерация одного токена
- Если черновик угадал верно — принимаем все K токенов; если где-то ошибся — откатываемся до первой ошибки
- Результат идентичен прямой генерации основной моделью (без потери качества)
Ускорение на практике
На задачах с высокой предсказуемостью текста (код, диалоги, перевод) черновая модель угадывает 60–80% токенов, что даёт 1.5–3× ускорение без изменения качества. На творческих задачах угадываемость ниже и ускорение меньше.
Типичные пары моделей:
- Llama 3 70B (основная) + Llama 3 8B (черновик)
- Llama 3 8B (основная) + специальная draft-модель на 68M параметров
Где поддерживается
Связанные термины
- decode — фаза, которую ускоряет speculative decoding
- tokens per second — метрика, улучшаемая этой техникой
- TTFT и TPOT — latency-метрики инференса
Готовы запустить GPU-задачу?
Запустить GPU-сервер