GPU Hardware

VRAM

Видеопамять GPU, определяющая максимальный размер модели, который можно загрузить.

Что такое VRAM

VRAM (Video RAM) — выделенная память GPU, физически расположенная на видеокарте. В отличие от системной RAM, VRAM напрямую подключена к GPU через высокоскоростную шину (HBM или GDDR6), обеспечивая пропускную способность в сотни гигабайт в секунду — недостижимые для PCIe.

Для ML VRAM — один из ключевых ограничивающих ресурсов: модель, её активации, KV-кеш и состояние оптимизатора должны полностью помещаться в VRAM для эффективных вычислений.

Из чего складывается потребление VRAM

При инференсе:

  • Веса модели (основная часть)
  • KV-кеш (растёт с длиной контекста и числом параллельных запросов)
  • Активации текущего батча

При обучении (значительно больше):

  • Веса модели
  • Градиенты (равны по объёму весам)
  • Состояния оптимизатора AdamW (2× объём весов)
  • Активации для backward pass

Итого при обучении: ~16–20 байт/параметр в BF16, против ~2 байт/параметр при инференсе.

Сколько VRAM нужно

Задача Модель Формат Минимум VRAM
Инференс 7B BF16 14 ГБ
Инференс 7B INT4 AWQ 4 ГБ
Инференс 70B BF16 140 ГБ (2× GPU)
Fine-tuning LoRA 7B BF16 ~16 ГБ
Fine-tuning QLoRA 7B INT4 ~8 ГБ
Pretraining 7B BF16 ~80–120 ГБ

Что делать при нехватке VRAM

  1. Квантизация — INT4 снижает потребление весов в ~4×
  2. Gradient checkpointing — при обучении
  3. QLoRA — fine-tuning с INT4-базой
  4. Tensor parallelism — распределить модель на несколько GPU
  5. CPU offloading — перенести часть слоёв в RAM (медленно, но работает)

Связанные термины

  • HBM — тип VRAM в серверных GPU
  • GDDR6 — тип VRAM в потребительских и L40S GPU
  • KV-кеш — основной потребитель VRAM при инференсе
  • квантизация — снижение потребления VRAM

Готовы запустить GPU-задачу?

Запустить GPU-сервер