GPU Hardware

пропускная способность памяти GPU

Скорость передачи данных между GPU и его памятью; критична для decode-фазы инференса.

Что такое пропускная способность памяти GPU

Пропускная способность памяти (memory bandwidth) GPU — максимальная скорость чтения/записи данных между VRAM и вычислительными ядрами. Измеряется в ГБ/с.

Для задач машинного обучения это критический параметр, потому что многие операции — прежде всего decode-фаза инференса — являются memory-bound: GPU тратит большую часть времени не на вычисления, а на ожидание данных из памяти.

Значения для основных GPU

GPU	Пропускная способность	Тип памяти
RTX 4090	1008 ГБ/с	GDDR6X
A100 40GB	1555 ГБ/с	HBM2
A100 80GB	2000 ГБ/с	HBM2e
H100 SXM	3350 ГБ/с	HBM3
H200 SXM	4800 ГБ/с	HBM3e
AMD MI300X	5300 ГБ/с	HBM3

Влияние на decode-скорость LLM

При decode batch_size=1 GPU должен прочитать все веса модели на каждый токен. Для модели 70B BF16 (~140 ГБ):

GPU	BW	Теоретический TPS	Реальный TPS
RTX 4090	1008 ГБ/с	7.2	3–4 (ограничение 24 ГБ)
A100 80GB	2000 ГБ/с	14.3	40–60
H100 SXM	3350 ГБ/с	23.9	100–150

(Реальный TPS выше теоретического из-за оптимизаций и overlapping вычислений.)

Arithmetic Intensity

Операции можно классифицировать по arithmetic intensity (FLOP/байт):

Memory-bound (intensity < ridge point): ограничены bandwidth
Compute-bound (intensity > ridge point): ограничены TFLOPS

Decode LLM при small batch: ~1 FLOP/байт → строго memory-bound.
Prefill LLM при large batch: ~100+ FLOP/байт → compute-bound.

Связанные термины

HBM — тип памяти с максимальной пропускной способностью
GDDR6 — тип памяти потребительских GPU
TPOT и tokens per second — метрики, зависящие от bandwidth
decode — memory-bound фаза инференса

Готовы запустить GPU-задачу?

Запустить GPU-сервер