Inference
TTFT (Time to First Token)
Время от отправки запроса до получения первого токена; ключевая метрика латентности инференса.
Что такое TTFT
TTFT (Time to First Token) — время от момента отправки запроса клиентом до получения первого токена ответа от сервера. Это воспринимаемая «задержка отклика» при стриминге: именно столько пользователь ждёт, пока не начнётся «печать» ответа.
TTFT складывается из:
- Сетевой задержки (запрос → сервер)
- Времени в очереди (если GPU занят другими запросами)
- Времени prefill — обработки входного промпта
- Сетевой задержки (первый токен → клиент)
Для интерактивных чат-приложений важен низкий TTFT — пользователь начинает видеть ответ немедленно. Для batch-обработки он менее критичен.
Типичные значения
| Сценарий | TTFT | Комментарий |
|---|---|---|
| Короткий промпт, 1 запрос | 50–200 мс | Только prefill + сеть |
| Длинный RAG-контекст (4K токенов) | 500–2000 мс | Дорогой prefill |
| Высокая нагрузка, очередь | 2–10 с | Ожидание GPU |
| С prompt caching | 50–200 мс | Prefill пропущен |
Как снизить TTFT
- Prompt caching — пропустить prefill для общих префиксов
- Сократить длину системного промпта
- Увеличить число GPU-реплик (уменьшить очередь)
- Использовать выделенный сервер для prefill (prefill-decode disaggregation)
TTFT vs TPOT
TTFT — время ожидания до начала стриминга. TPOT — скорость после начала. Оба важны, но воспринимаются по-разному: высокий TTFT раздражает больше, чем медленный TPOT при умеренных значениях.
Связанные термины
- TPOT — скорость генерации после первого токена
- prefill — основная составляющая TTFT
- streaming — контекст, в котором TTFT особенно важен
- prompt caching — главный способ снизить TTFT
Готовы запустить GPU-задачу?
Запустить GPU-сервер