HBM (High Bandwidth Memory)
Тип GPU-памяти с вертикальной компоновкой чипов, обеспечивающий в разы большую пропускную способность чем GDDR.
Что такое HBM
HBM (High Bandwidth Memory) — тип памяти, используемый в серверных GPU и некоторых CPU (AMD EPYC). Отличается от GDDR6 не технологией самих ячеек, а физической компоновкой: множество слоёв DRAM-чипов уложены вертикально и соединены через чрезвычайно широкую шину с помощью через-кремниевых переходов (TSV).
Результат — пропускная способность в 2–5× выше, чем у GDDR6, при меньшем энергопотреблении и площади. Это критично для ML: большинство операций инференса (особенно decode) memory-bound — ограничены скоростью чтения весов из памяти.
Поколения HBM
| Поколение | GPU | Пропускная способность |
|---|---|---|
| HBM2 | A100 40GB | 1555 ГБ/с |
| HBM2e | A100 80GB | 2000 ГБ/с |
| HBM3 | H100 SXM | 3350 ГБ/с |
| HBM3e | H200, MI300X | 4800–5300 ГБ/с |
HBM vs GDDR6
| HBM3 (H100) | GDDR6X (RTX 4090) | |
|---|---|---|
| Пропускная способность | 3350 ГБ/с | 1008 ГБ/с |
| Объём | 80 ГБ | 24 ГБ |
| Расположение | На подложке с GPU (2.5D) | Отдельные чипы на PCB |
| Цена | Значительно выше | Ниже |
Почему пропускная способность важна для LLM
Скорость decode в LLM-инференсе определяется тем, как быстро GPU может прочитать веса модели из памяти. Для модели 70B (~140 ГБ весов) на каждый токен нужно прочитать все веса:
- RTX 4090 (1008 ГБ/с): 140 / 1008 ≈ 140 мс/токен при batch_size=1
- H100 SXM (3350 ГБ/с): 140 / 3350 ≈ 42 мс/токен
Это объясняет разницу в скорости генерации в 3× без различий в вычислительной мощности.
Связанные термины
- VRAM — общее понятие для GPU-памяти
- GDDR6 — альтернативный тип памяти в потребительских GPU
- TPOT — метрика decode, прямо зависящая от HBM bandwidth
- NVIDIA H100 — GPU с HBM3
Готовы запустить GPU-задачу?
Запустить GPU-сервер