GPU Hardware

пропускная способность памяти GPU

Скорость передачи данных между GPU и его памятью; критична для decode-фазы инференса.

Что такое пропускная способность памяти GPU

Пропускная способность памяти (memory bandwidth) GPU — максимальная скорость чтения/записи данных между VRAM и вычислительными ядрами. Измеряется в ГБ/с.

Для задач машинного обучения это критический параметр, потому что многие операции — прежде всего decode-фаза инференса — являются memory-bound: GPU тратит большую часть времени не на вычисления, а на ожидание данных из памяти.

Значения для основных GPU

GPU Пропускная способность Тип памяти
RTX 4090 1008 ГБ/с GDDR6X
A100 40GB 1555 ГБ/с HBM2
A100 80GB 2000 ГБ/с HBM2e
H100 SXM 3350 ГБ/с HBM3
H200 SXM 4800 ГБ/с HBM3e
AMD MI300X 5300 ГБ/с HBM3

Влияние на decode-скорость LLM

При decode batch_size=1 GPU должен прочитать все веса модели на каждый токен. Для модели 70B BF16 (~140 ГБ):

GPU BW Теоретический TPS Реальный TPS
RTX 4090 1008 ГБ/с 7.2 3–4 (ограничение 24 ГБ)
A100 80GB 2000 ГБ/с 14.3 40–60
H100 SXM 3350 ГБ/с 23.9 100–150

(Реальный TPS выше теоретического из-за оптимизаций и overlapping вычислений.)

Arithmetic Intensity

Операции можно классифицировать по arithmetic intensity (FLOP/байт):

  • Memory-bound (intensity < ridge point): ограничены bandwidth
  • Compute-bound (intensity > ridge point): ограничены TFLOPS

Decode LLM при small batch: ~1 FLOP/байт → строго memory-bound.
Prefill LLM при large batch: ~100+ FLOP/байт → compute-bound.

Связанные термины

  • HBM — тип памяти с максимальной пропускной способностью
  • GDDR6 — тип памяти потребительских GPU
  • TPOT и tokens per second — метрики, зависящие от bandwidth
  • decode — memory-bound фаза инференса

Готовы запустить GPU-задачу?

Запустить GPU-сервер