Inference

TTFT (Time to First Token)

Время от отправки запроса до получения первого токена; ключевая метрика латентности инференса.

Что такое TTFT

TTFT (Time to First Token) — время от момента отправки запроса клиентом до получения первого токена ответа от сервера. Это воспринимаемая «задержка отклика» при стриминге: именно столько пользователь ждёт, пока не начнётся «печать» ответа.

TTFT складывается из:

  1. Сетевой задержки (запрос → сервер)
  2. Времени в очереди (если GPU занят другими запросами)
  3. Времени prefill — обработки входного промпта
  4. Сетевой задержки (первый токен → клиент)

Для интерактивных чат-приложений важен низкий TTFT — пользователь начинает видеть ответ немедленно. Для batch-обработки он менее критичен.

Типичные значения

Сценарий TTFT Комментарий
Короткий промпт, 1 запрос 50–200 мс Только prefill + сеть
Длинный RAG-контекст (4K токенов) 500–2000 мс Дорогой prefill
Высокая нагрузка, очередь 2–10 с Ожидание GPU
С prompt caching 50–200 мс Prefill пропущен

Как снизить TTFT

  • Prompt caching — пропустить prefill для общих префиксов
  • Сократить длину системного промпта
  • Увеличить число GPU-реплик (уменьшить очередь)
  • Использовать выделенный сервер для prefill (prefill-decode disaggregation)

TTFT vs TPOT

TTFT — время ожидания до начала стриминга. TPOT — скорость после начала. Оба важны, но воспринимаются по-разному: высокий TTFT раздражает больше, чем медленный TPOT при умеренных значениях.

Связанные термины

  • TPOT — скорость генерации после первого токена
  • prefill — основная составляющая TTFT
  • streaming — контекст, в котором TTFT особенно важен
  • prompt caching — главный способ снизить TTFT

Готовы запустить GPU-задачу?

Запустить GPU-сервер