GPU Hardware

VRAM

Видеопамять GPU, определяющая максимальный размер модели, который можно загрузить.

Что такое VRAM

VRAM (Video RAM) — выделенная память GPU, физически расположенная на видеокарте. В отличие от системной RAM, VRAM напрямую подключена к GPU через высокоскоростную шину (HBM или GDDR6), обеспечивая пропускную способность в сотни гигабайт в секунду — недостижимые для PCIe.

Для ML VRAM — один из ключевых ограничивающих ресурсов: модель, её активации, KV-кеш и состояние оптимизатора должны полностью помещаться в VRAM для эффективных вычислений.

Из чего складывается потребление VRAM

При инференсе:

Веса модели (основная часть)
KV-кеш (растёт с длиной контекста и числом параллельных запросов)
Активации текущего батча

При обучении (значительно больше):

Веса модели
Градиенты (равны по объёму весам)
Состояния оптимизатора AdamW (2× объём весов)
Активации для backward pass

Итого при обучении: ~16–20 байт/параметр в BF16, против ~2 байт/параметр при инференсе.

Сколько VRAM нужно

Задача	Модель	Формат	Минимум VRAM
Инференс	7B	BF16	14 ГБ
Инференс	7B	INT4 AWQ	4 ГБ
Инференс	70B	BF16	140 ГБ (2× GPU)
Fine-tuning LoRA	7B	BF16	~16 ГБ
Fine-tuning QLoRA	7B	INT4	~8 ГБ
Pretraining	7B	BF16	~80–120 ГБ

Что делать при нехватке VRAM

Квантизация — INT4 снижает потребление весов в ~4×
Gradient checkpointing — при обучении
QLoRA — fine-tuning с INT4-базой
Tensor parallelism — распределить модель на несколько GPU
CPU offloading — перенести часть слоёв в RAM (медленно, но работает)

Связанные термины

HBM — тип VRAM в серверных GPU
GDDR6 — тип VRAM в потребительских и L40S GPU
KV-кеш — основной потребитель VRAM при инференсе
квантизация — снижение потребления VRAM

Готовы запустить GPU-задачу?

Запустить GPU-сервер