пропускная способность памяти GPU
Скорость передачи данных между GPU и его памятью; критична для decode-фазы инференса.
Что такое пропускная способность памяти GPU
Пропускная способность памяти (memory bandwidth) GPU — максимальная скорость чтения/записи данных между VRAM и вычислительными ядрами. Измеряется в ГБ/с.
Для задач машинного обучения это критический параметр, потому что многие операции — прежде всего decode-фаза инференса — являются memory-bound: GPU тратит большую часть времени не на вычисления, а на ожидание данных из памяти.
Значения для основных GPU
| GPU | Пропускная способность | Тип памяти |
|---|---|---|
| RTX 4090 | 1008 ГБ/с | GDDR6X |
| A100 40GB | 1555 ГБ/с | HBM2 |
| A100 80GB | 2000 ГБ/с | HBM2e |
| H100 SXM | 3350 ГБ/с | HBM3 |
| H200 SXM | 4800 ГБ/с | HBM3e |
| AMD MI300X | 5300 ГБ/с | HBM3 |
Влияние на decode-скорость LLM
При decode batch_size=1 GPU должен прочитать все веса модели на каждый токен. Для модели 70B BF16 (~140 ГБ):
| GPU | BW | Теоретический TPS | Реальный TPS |
|---|---|---|---|
| RTX 4090 | 1008 ГБ/с | 7.2 | 3–4 (ограничение 24 ГБ) |
| A100 80GB | 2000 ГБ/с | 14.3 | 40–60 |
| H100 SXM | 3350 ГБ/с | 23.9 | 100–150 |
(Реальный TPS выше теоретического из-за оптимизаций и overlapping вычислений.)
Arithmetic Intensity
Операции можно классифицировать по arithmetic intensity (FLOP/байт):
- Memory-bound (intensity < ridge point): ограничены bandwidth
- Compute-bound (intensity > ridge point): ограничены TFLOPS
Decode LLM при small batch: ~1 FLOP/байт → строго memory-bound.
Prefill LLM при large batch: ~100+ FLOP/байт → compute-bound.
Связанные термины
- HBM — тип памяти с максимальной пропускной способностью
- GDDR6 — тип памяти потребительских GPU
- TPOT и tokens per second — метрики, зависящие от bandwidth
- decode — memory-bound фаза инференса
Готовы запустить GPU-задачу?
Запустить GPU-сервер