GPU Hardware
VRAM
Видеопамять GPU, определяющая максимальный размер модели, который можно загрузить.
Что такое VRAM
VRAM (Video RAM) — выделенная память GPU, физически расположенная на видеокарте. В отличие от системной RAM, VRAM напрямую подключена к GPU через высокоскоростную шину (HBM или GDDR6), обеспечивая пропускную способность в сотни гигабайт в секунду — недостижимые для PCIe.
Для ML VRAM — один из ключевых ограничивающих ресурсов: модель, её активации, KV-кеш и состояние оптимизатора должны полностью помещаться в VRAM для эффективных вычислений.
Из чего складывается потребление VRAM
При инференсе:
- Веса модели (основная часть)
- KV-кеш (растёт с длиной контекста и числом параллельных запросов)
- Активации текущего батча
При обучении (значительно больше):
- Веса модели
- Градиенты (равны по объёму весам)
- Состояния оптимизатора AdamW (2× объём весов)
- Активации для backward pass
Итого при обучении: ~16–20 байт/параметр в BF16, против ~2 байт/параметр при инференсе.
Сколько VRAM нужно
| Задача | Модель | Формат | Минимум VRAM |
|---|---|---|---|
| Инференс | 7B | BF16 | 14 ГБ |
| Инференс | 7B | INT4 AWQ | 4 ГБ |
| Инференс | 70B | BF16 | 140 ГБ (2× GPU) |
| Fine-tuning LoRA | 7B | BF16 | ~16 ГБ |
| Fine-tuning QLoRA | 7B | INT4 | ~8 ГБ |
| Pretraining | 7B | BF16 | ~80–120 ГБ |
Что делать при нехватке VRAM
- Квантизация — INT4 снижает потребление весов в ~4×
- Gradient checkpointing — при обучении
- QLoRA — fine-tuning с INT4-базой
- Tensor parallelism — распределить модель на несколько GPU
- CPU offloading — перенести часть слоёв в RAM (медленно, но работает)
Связанные термины
- HBM — тип VRAM в серверных GPU
- GDDR6 — тип VRAM в потребительских и L40S GPU
- KV-кеш — основной потребитель VRAM при инференсе
- квантизация — снижение потребления VRAM
Готовы запустить GPU-задачу?
Запустить GPU-сервер