контекстное окно
Максимальное число токенов, которые модель учитывает одновременно на входе и выходе.
Что такое контекстное окно
Контекстное окно (context window, context length) — жёсткий предел на суммарное число токенов, которые трансформер может обработать за один прогон: промпт + сгенерированный ответ ≤ max_context.
Граница определяется архитектурой модели: максимальной длиной позиционного кодирования (RoPE), на которую обучалась модель. Превышение лимита приводит к ошибке или молчаливой обрезке контекста.
Современные значения
| Модель | Контекст |
|---|---|
| Llama 3.1 8B/70B | 128K токенов |
| Mistral 7B v0.3 | 32K токенов |
| Gemma 2 9B | 8K токенов |
| GPT-4o | 128K токенов |
| Claude 3.5 Sonnet | 200K токенов |
1 токен ≈ 3–4 символа русского текста ≈ 0.75 английского слова.
Влияние на VRAM
Размер KV-кеша линейно зависит от длины контекста. Llama 3 8B при контексте 128K в BF16 требует около 64 ГБ только на KV-кеш — это больше, чем вся VRAM RTX 4090. Поэтому длинный контекст требует либо квантизации KV, либо серверных GPU (A100/H100).
Связанные термины
Готовы запустить GPU-задачу?
Запустить GPU-сервер