Inference

контекстное окно

Максимальное число токенов, которые модель учитывает одновременно на входе и выходе.

Что такое контекстное окно

Контекстное окно (context window, context length) — жёсткий предел на суммарное число токенов, которые трансформер может обработать за один прогон: промпт + сгенерированный ответ ≤ max_context.

Граница определяется архитектурой модели: максимальной длиной позиционного кодирования (RoPE), на которую обучалась модель. Превышение лимита приводит к ошибке или молчаливой обрезке контекста.

Современные значения

Модель Контекст
Llama 3.1 8B/70B 128K токенов
Mistral 7B v0.3 32K токенов
Gemma 2 9B 8K токенов
GPT-4o 128K токенов
Claude 3.5 Sonnet 200K токенов

1 токен ≈ 3–4 символа русского текста ≈ 0.75 английского слова.

Влияние на VRAM

Размер KV-кеша линейно зависит от длины контекста. Llama 3 8B при контексте 128K в BF16 требует около 64 ГБ только на KV-кеш — это больше, чем вся VRAM RTX 4090. Поэтому длинный контекст требует либо квантизации KV, либо серверных GPU (A100/H100).

Связанные термины

  • KV-кеш — память, растущая с длиной контекста
  • prefill — обработка входного контекста
  • VRAM — физический предел для хранения KV-кеша
  • токен — единица измерения контекста
  • RoPE — позиционное кодирование, задающее предел контекста

Готовы запустить GPU-задачу?

Запустить GPU-сервер