Inference

TTFT (Time to First Token)

Время от отправки запроса до получения первого токена; ключевая метрика латентности инференса.

Что такое TTFT

TTFT (Time to First Token) — время от момента отправки запроса клиентом до получения первого токена ответа от сервера. Это воспринимаемая «задержка отклика» при стриминге: именно столько пользователь ждёт, пока не начнётся «печать» ответа.

TTFT складывается из:

Сетевой задержки (запрос → сервер)
Времени в очереди (если GPU занят другими запросами)
Времени prefill — обработки входного промпта
Сетевой задержки (первый токен → клиент)

Для интерактивных чат-приложений важен низкий TTFT — пользователь начинает видеть ответ немедленно. Для batch-обработки он менее критичен.

Типичные значения

Сценарий	TTFT	Комментарий
Короткий промпт, 1 запрос	50–200 мс	Только prefill + сеть
Длинный RAG-контекст (4K токенов)	500–2000 мс	Дорогой prefill
Высокая нагрузка, очередь	2–10 с	Ожидание GPU
С prompt caching	50–200 мс	Prefill пропущен

Как снизить TTFT

Prompt caching — пропустить prefill для общих префиксов
Сократить длину системного промпта
Увеличить число GPU-реплик (уменьшить очередь)
Использовать выделенный сервер для prefill (prefill-decode disaggregation)

TTFT vs TPOT

TTFT — время ожидания до начала стриминга. TPOT — скорость после начала. Оба важны, но воспринимаются по-разному: высокий TTFT раздражает больше, чем медленный TPOT при умеренных значениях.

Связанные термины

TPOT — скорость генерации после первого токена
prefill — основная составляющая TTFT
streaming — контекст, в котором TTFT особенно важен
prompt caching — главный способ снизить TTFT

Готовы запустить GPU-задачу?

Запустить GPU-сервер